通过分层摘要监控计算机使用
引言
Anthropic 2024年10月发布的计算机使用能力标志着从聊天机器人技术向能够执行现实世界任务(如流程自动化和市场研究)的AI系统的重大转变。这一进展需要实施安全措施来应对已知风险(如垃圾信息和欺诈)以及潜在的新兴危害,这些危害可能仅在部署后才显现。
这个挑战尤为严峻,因为大规模计算机使用可能造成聚合危害。单个看起来无害的交互——例如用户要求Claude点击网站上的按钮——可能代表合法的UI测试,也可能代表欺诈广告系统的点击欺诈计划。
分层摘要方法
为应对这些监控挑战,Anthropic开发了用于监控的分层摘要方法。该方法通过以下方式工作:
- 首先摘要单个交互
- 对这些摘要创建摘要,以提供高层使用模式概览
这种方法改进了分类工作,并促进了人工审查可能违规的内容,大幅提升了对预期和新兴危害的可观察性。重要的是,所有摘要都获得与原文相同的访问控制。
关键特性
该技术解决了标准AI监控方法的局限性,后者通常训练分类器来识别单个有害交互。这种方法能更好地处理:
- 已知的未知:预期的风险类别
- 聚合危害:仅在集体检查多个交互时才会显现的模式
- 新兴风险:不可预见的滥用模式
致谢
这项工作代表了Anthropic保障研究团队的合作,多位研究人员做出了贡献,包括Theodore Sumers、Raj Agarwal、Nathan Bailey、Tim Belonax等人。
作者指出这是"早期研究,仍有改进和发展的空间",将其定位为保护前沿AI系统的一种有前景的技术,而非最终解决方案。