Skip to content

介绍 Anthropic 的防护研究团队

Anthropic 已组建一支专注于缓解 AI 系统部署后风险的专门研究团队。该团队由 Mrinank Sharma 领导,成员包括 Erik Jones、Meg Tong、Jerry Wei、Euan Ong、Alwin Peng、Ted Sumers、Taesung Lee、Giulio Zhou 和 Scott Goodfriend。

研究重点领域

团队聚焦四个主要方向:

防御技术 团队开发针对滥用和错位的防护机制,包括宪法分类器(Constitutional Classifiers)以及可能利用模型内部机制的分类器方法。

漏洞识别 通过多样本越狱(many-shot jailbreaking)、N 选优越狱(best-of-N jailbreaking)、图像越狱理解以及自动化红队测试等研究来发现弱点。

监控 团队创建高效的监控解决方案,并使用 AI 辅助工具"分析实际使用情况,揭示此前未预见的模型滥用"风险。他们采用 Clio 和异常检测系统等技术。

响应与安全文档 工作涵盖快速响应协议、少样本灾难预防、低风险控制机制,以及 AI 系统的全面安全文档。

协作与招聘

防护研究团队与 Anthropic 更广泛的防护组织紧密协作,可直接获得部署反馈和生产经验。该组织积极招聘研究科学家和工程师,并与 Anthropic 访问学者计划和 MATS 计划合作。