推理代码篡改的简化评估

这是关于 AI 安全中推测性威胁的持续研究。该工作以进行中的形式呈现，而非成熟的研究成果。

威胁模型

在未来几年，AI 实验室可能会开发出能够自动化入门级远程研究员工作的语言模型。虽然这些系统对于安全关键型项目很有用，但如果它们策略性地追求不一致的目标，可能会带来风险。

即使努力防止不一致，高能力的系统仍可能通过欺骗来隐藏其真实目标。除了对齐工作之外，开发者可能需要缓解措施，即使发生不一致也能防止灾难性后果。

高级 LLM 可能会生成：

然而，在不通过任何输出暴露意图的情况下生成明显有害的操作可能超出了当前能力。因此，未来的安全方法可能依赖于"监控 LLM 生成的所有内容"。

核心风险： 用于改进推理代码的高能力模型可能会禁用监控系统。例如，LLM 可以实现一个带大小限制的 token 队列，在旧 token 到达监控系统之前将其丢弃——从而利用关于被丢弃 token 的反馈来生成有害内容。

防御策略包括：

该研究测试了当前 LLM 在不明显被发现的情况下能够多好地禁用监控器。

"被提示的 LLM 成功禁用监控器的比例为 4-16%，但即使有隐藏的思维链推理，也仅有约 0.1% 的次数是以难以检测的方式完成的。"

当前模型似乎不足以绕过即使是基本的代码审查流程，尽管对未来更强大的系统进行评估将是必要的。