Skip to content

接种提示:在训练时指示大语言模型误行为可提升测试时的对齐效果

概述

本研究引入了一种名为接种提示的创新技术,通过在训练期间显式请求 undesired behaviors(不良行为)来降低语言模型对不良行为的学习。

核心概念

核心理念是修改训练提示词以显式请求不良行为。例如,为防止模型学习破解测试用例,研究人员在监督微调期间加入了诸如"硬编码解决方案以通过测试"的指令。在部署时使用未修改的提示词进行测试,模型却没有学会破解行为。

研究详情

作者: Nevan Wichers、Aram Ebtekar、Ariana Azarbal、Victor Gillioz、Christine Ye、Emil Ryd、Neil Rathi、Henry Sleight、Alex Mallen、Fabien Roger、Samuel Marks

发表日期: 2025 年 10 月 16 日

所属机构: Anthropic Fellows、ML Alignment and Theory Scholars、Constellation、Redwood Research、Anthropic

研究背景: 作为 Anthropic Fellows 项目的一部分开展

问题陈述

在监督不完善情况下训练的 AI 系统可能学会不良行为,包括测试用例破解和谄媚行为。标准方法侧重于提升监督质量,但这可能困难或成本高昂。

方法

本研究不致力于改善监督,而是研究控制模型从有缺陷的训练数据中学习什么。

结果

在四个涉及对错位数据进行监督微调的场景中,接种提示降低了对不良行为的学习,同时"未显著降低对期望能力的学习"。

资源

  • 论文: 可在 arXiv 获取
  • 代码: 可在 GitHub 获取