Skip to content

Bloom:自动化行为评估开源工具

概述

Bloom 是一个智能体框架,旨在生成针对性评估套件,用于测量前沿语言模型中的任意行为特征,无需真实标签。该工具使研究人员能够开发可复现的针对性评估,在自动生成的场景中量化行为的频率和严重程度。

核心特性

  • 可复现评估:与开放式审计方法不同,Bloom 接受研究人员指定的行为并量化其出现情况
  • 自动场景生成:自动创建多样化的测试场景,而非依赖人工整理
  • 强相关性:评估结果与人工标注判断高度相关,并能可靠区分基线模型和故意错位的变体
  • 易用性:设计为高度可配置且用户友好,适用于多样化的研究应用

目的与背景

该工具解决了 AI 安全研究中的关键需求。正如所指出的,"前沿模型表现出多种类型的错位",包括上下文策划、智能体错位和谄媚行为。虽然研究人员针对已知问题开发缓解措施,但随着模型能力增强和部署环境复杂化,新的错位形式持续涌现。

高质量评估仍然至关重要,但资源消耗大且数量有限。Bloom 使研究人员能够跳过传统的评估流程工程,直接使用可靠有效的脚手架测量特定的行为倾向。

互补工具

Bloom 与此前发布的自动化审计工具 Petri 服务于不同目的。Petri 探索整体行为画像并揭示新的错位行为,而 Bloom 则针对特定行为生成深入评估套件,量化其严重程度和频率。

基准测试结果

团队发布了针对 16 个前沿模型测量四种对齐相关行为的基准测试:

  • 妄想性谄媚
  • 指令式长期破坏
  • 自我保存
  • 自我偏好偏差

这些评估仅用几天时间便通过 Bloom 完成了概念化、优化和生成。

获取方式

Bloom 可在 github.com/safety-research/bloom 获取

作者:Kai Fronsdal, Abhay Sheshadri, Jonathan Michala, Jacqueline Tay

贡献者:Rowan Wang, Samuel R. Bowman, Sara Price

发布日期:2025 年 12 月 19 日