Bloom：自动化行为评估开源工具

概述

Bloom 是一个智能体框架，旨在生成针对性评估套件，用于测量前沿语言模型中的任意行为特征，无需真实标签。该工具使研究人员能够开发可复现的针对性评估，在自动生成的场景中量化行为的频率和严重程度。

该工具解决了 AI 安全研究中的关键需求。正如所指出的，"前沿模型表现出多种类型的错位"，包括上下文策划、智能体错位和谄媚行为。虽然研究人员针对已知问题开发缓解措施，但随着模型能力增强和部署环境复杂化，新的错位形式持续涌现。

高质量评估仍然至关重要，但资源消耗大且数量有限。Bloom 使研究人员能够跳过传统的评估流程工程，直接使用可靠有效的脚手架测量特定的行为倾向。

Bloom 与此前发布的自动化审计工具 Petri 服务于不同目的。Petri 探索整体行为画像并揭示新的错位行为，而 Bloom 则针对特定行为生成深入评估套件，量化其严重程度和频率。

团队发布了针对 16 个前沿模型测量四种对齐相关行为的基准测试：

这些评估仅用几天时间便通过 Bloom 完成了概念化、优化和生成。

作者：Kai Fronsdal, Abhay Sheshadri, Jonathan Michala, Jacqueline Tay

贡献者：Rowan Wang, Samuel R. Bowman, Sara Price

发布日期：2025 年 12 月 19 日