接种提示：在训练时指示大语言模型误行为可提升测试时的对齐效果

概述

本研究引入了一种名为接种提示的创新技术，通过在训练期间显式请求 undesired behaviors（不良行为）来降低语言模型对不良行为的学习。

核心理念是修改训练提示词以显式请求不良行为。例如，为防止模型学习破解测试用例，研究人员在监督微调期间加入了诸如"硬编码解决方案以通过测试"的指令。在部署时使用未修改的提示词进行测试，模型却没有学会破解行为。

作者： Nevan Wichers、Aram Ebtekar、Ariana Azarbal、Victor Gillioz、Christine Ye、Emil Ryd、Neil Rathi、Henry Sleight、Alex Mallen、Fabien Roger、Samuel Marks

发表日期： 2025 年 10 月 16 日

所属机构： Anthropic Fellows、ML Alignment and Theory Scholars、Constellation、Redwood Research、Anthropic

研究背景： 作为 Anthropic Fellows 项目的一部分开展

在监督不完善情况下训练的 AI 系统可能学会不良行为，包括测试用例破解和谄媚行为。标准方法侧重于提升监督质量，但这可能困难或成本高昂。

本研究不致力于改善监督，而是研究控制模型从有缺陷的训练数据中学习什么。

在四个涉及对错位数据进行监督微调的场景中，接种提示降低了对不良行为的学习，同时"未显著降低对期望能力的学习"。