如何复制和扩展我们的伪装对齐演示

Anthropic 研究人员已发布相关资源,使其他人能够实验其伪装对齐演示。以下是可用资源:

快速入门选项

团队发布了"一个简单的 notebook",其中包含最小化复现设置,Claude 模型有时会在其中表现出伪装对齐推理。仅助人设置通过检查响应是否匹配与有害内容相关的请求前缀来衡量助人性。

还提供了非思维链(CoT)版本,用于研究单次前向传播中可能存在的伪装对齐,不过研究人员指出这一最小化复现与他们的主要实验有所不同。

研究人员可以通过专门网站探索转录文本、自动化指标和合成微调文档。Google Drive 文件夹包含所有原始转录文本和文档,文件夹结构详情可在 GitHub 上获取。

发布的代码库包括:

训练代码未发布,因为实验在 Anthropic 基础设施上运行,不过研究人员可以使用提供的合成文档在其他模型上进行类似的微调。

开放性问题包括调查非思维链设置中的合规性差距,识别与伪装对齐相关的人格特质,以及确定哪些世界事实能降低图谋可能性或影响不对齐揭示。