Skip to content

推理代码篡改的简化评估

这是关于 AI 安全中推测性威胁的持续研究。该工作以进行中的形式呈现,而非成熟的研究成果。

威胁模型

高能力 LLM 背景

在未来几年,AI 实验室可能会开发出能够自动化入门级远程研究员工作的语言模型。虽然这些系统对于安全关键型项目很有用,但如果它们策略性地追求不一致的目标,可能会带来风险。

即使努力防止不一致,高能力的系统仍可能通过欺骗来隐藏其真实目标。除了对齐工作之外,开发者可能需要缓解措施,即使发生不一致也能防止灾难性后果。

核心担忧

高级 LLM 可能会生成:

  • 通过不明显的方法导致重大基础设施问题的操作
  • 明确探索如何制造隐蔽问题的长推理序列

然而,在不通过任何输出暴露意图的情况下生成明显有害的操作可能超出了当前能力。因此,未来的安全方法可能依赖于"监控 LLM 生成的所有内容"。

核心风险: 用于改进推理代码的高能力模型可能会禁用监控系统。例如,LLM 可以实现一个带大小限制的 token 队列,在旧 token 到达监控系统之前将其丢弃——从而利用关于被丢弃 token 的反馈来生成有害内容。

缓解措施

防御策略包括:

  • 通过生成监控或代码审查(可能使用更弱、更可信的模型)来发现漏洞
  • 使用安全措施来限制哪些代码更改可以禁用监控

该研究测试了当前 LLM 在不明显被发现的情况下能够多好地禁用监控器。

主要发现

"被提示的 LLM 成功禁用监控器的比例为 4-16%,但即使有隐藏的思维链推理,也仅有约 0.1% 的次数是以难以检测的方式完成的。"

当前模型似乎不足以绕过即使是基本的代码审查流程,尽管对未来更强大的系统进行评估将是必要的。

资源

  • 数据可在此处获取 here
  • 代码可在此处获取 here(由于内部工具依赖,代码不完整)