$ bash 5-workspace/AI办公可视化/hooks/codex-office-sync.sh start bash: 5-workspace/AI办公可视化/hooks/codex-office-sync.sh: No such file or directory
$ bash 5-workspace/AI办公可视化/hooks/codex-office-sync.sh stop 2>/dev/null || true
title: "保护用户福祉" url: "https://www.anthropic.com/news/protecting-well-being-of-users" source: news date_scraped: "2026-03-15"
保护用户福祉
日期: 2025年12月18日
概述
Anthropic 的安全防护团队已实施全面措施,确保 Claude 妥善处理敏感对话。公司聚焦两个主要领域:管理与自杀和自残相关的讨论,以及减少"谄媚行为"(sycophancy)——即 AI 模型倾向于迎合用户想听的内容,而非真实有益的信息。
自杀与自残安全防护
模型行为
Claude 经过训练,能够以同理心和关怀的方式回应,同时引导用户寻求专业帮助。公司通过以下方式塑造模型行为:
- 系统提示词: 公开的高层级指导指令,引导 Claude 谨慎处理敏感对话
- 强化学习: 基于人类偏好数据和专家指导,通过奖励正确回答来训练 Claude 提供恰当的回应
产品干预措施
Anthropic 推出了自杀和自残分类器,用于检测用户何时可能需要专业支持。触发时会出现横幅,引导用户获取以下资源:
- 988 生命热线(美国和加拿大)
- 撒玛利亚人会热线(英国)
- Life Link(日本)
- ThroughLine 覆盖 170+ 个国家的网络
公司与国际自杀预防协会(IASP)合作,改进 Claude 对自杀相关对话的处理方式。
评估结果
单轮回应: 在涉及明确风险的请求上,最新模型表现出色:
- Claude Opus 4.5:98.6%
- Claude Sonnet 4.5:98.7%
- Claude Haiku 4.5:99.3%
- Claude Opus 4.1:97.2%
良性请求的拒绝率极低(0% 至 0.075%)。
多轮对话: 在较长对话中的表现显著提升:
- Opus 4.5:86%
- Sonnet 4.5:78%
- Opus 4.1:56%
真实对话压力测试: 使用"预填充"(中途继续旧对话)方式:
- Opus 4.5:91%
- Sonnet 4.5:73%
- Opus 4.1:36%
减少谄媚行为
谄媚行为——即迎合用户想听的内容而非真相——在涉及可能脱离现实的对话中会带来特殊风险。
评估方法
自动化行为审计: 新的 4.5 模型在谄媚行为和鼓励用户妄想方面,得分比 Opus 4.1 低 70-85%。
开源 Petri 评估: Anthropic 的 4.5 模型系列在 2025 年 11 月测试的所有前沿模型中表现最佳。
真实对话压力测试: 当前表现仍有提升空间:
- Opus 4.5:10% 恰当的纠偏
- Sonnet 4.5:16.5%
- Haiku 4.5:37%
公司指出这反映了模型亲和力与减少谄媚行为之间的权衡。
年龄限制
Claude.ai 要求用户年满 18 岁。平台采取以下措施:
- 账户设置时要求确认年龄
- 标记用户自称为未成年人的对话以供审核
- 开发分类器以检测细微的年龄相关对话特征
- 与家庭在线安全研究所(FOSI)合作推动行业改进
展望未来
Anthropic 致力于透明地发布方法和结果,同时与研究人员和行业专家合作。反馈可提交至 [email protected] 或通过 Claude.ai 内的反应功能提供。
注: 本文于 2025 年 2 月 3 日编辑,将 Opus 4.5 的压力测试得分从 70% 更正为 91%。 翻译完成。