$ bash 5-workspace/AI办公可视化/hooks/codex-office-sync.sh start bash: 5-workspace/AI办公可视化/hooks/codex-office-sync.sh: No such file or directory

$ bash 5-workspace/AI办公可视化/hooks/codex-office-sync.sh stop 2>/dev/null || true

title: "保护用户福祉" url: "https://www.anthropic.com/news/protecting-well-being-of-users" source: news date_scraped: "2026-03-15"

保护用户福祉

日期： 2025年12月18日

概述

Anthropic 的安全防护团队已实施全面措施，确保 Claude 妥善处理敏感对话。公司聚焦两个主要领域：管理与自杀和自残相关的讨论，以及减少"谄媚行为"（sycophancy）——即 AI 模型倾向于迎合用户想听的内容，而非真实有益的信息。

自杀与自残安全防护

模型行为

Claude 经过训练，能够以同理心和关怀的方式回应，同时引导用户寻求专业帮助。公司通过以下方式塑造模型行为：

系统提示词： 公开的高层级指导指令，引导 Claude 谨慎处理敏感对话
强化学习： 基于人类偏好数据和专家指导，通过奖励正确回答来训练 Claude 提供恰当的回应

产品干预措施

Anthropic 推出了自杀和自残分类器，用于检测用户何时可能需要专业支持。触发时会出现横幅，引导用户获取以下资源：

988 生命热线（美国和加拿大）
撒玛利亚人会热线（英国）
Life Link（日本）
ThroughLine 覆盖 170+ 个国家的网络

公司与国际自杀预防协会（IASP）合作，改进 Claude 对自杀相关对话的处理方式。

评估结果

单轮回应： 在涉及明确风险的请求上，最新模型表现出色：

Claude Opus 4.5：98.6%
Claude Sonnet 4.5：98.7%
Claude Haiku 4.5：99.3%
Claude Opus 4.1：97.2%

良性请求的拒绝率极低（0% 至 0.075%）。

多轮对话： 在较长对话中的表现显著提升：

Opus 4.5：86%
Sonnet 4.5：78%
Opus 4.1：56%

真实对话压力测试： 使用"预填充"（中途继续旧对话）方式：

Opus 4.5：91%
Sonnet 4.5：73%
Opus 4.1：36%

减少谄媚行为

谄媚行为——即迎合用户想听的内容而非真相——在涉及可能脱离现实的对话中会带来特殊风险。

评估方法

自动化行为审计： 新的 4.5 模型在谄媚行为和鼓励用户妄想方面，得分比 Opus 4.1 低 70-85%。

开源 Petri 评估： Anthropic 的 4.5 模型系列在 2025 年 11 月测试的所有前沿模型中表现最佳。

真实对话压力测试： 当前表现仍有提升空间：

Opus 4.5：10% 恰当的纠偏
Sonnet 4.5：16.5%
Haiku 4.5：37%

公司指出这反映了模型亲和力与减少谄媚行为之间的权衡。

年龄限制

Claude.ai 要求用户年满 18 岁。平台采取以下措施：

账户设置时要求确认年龄
标记用户自称为未成年人的对话以供审核
开发分类器以检测细微的年龄相关对话特征
与家庭在线安全研究所（FOSI）合作推动行业改进

展望未来

Anthropic 致力于透明地发布方法和结果，同时与研究人员和行业专家合作。反馈可提交至 [email protected] 或通过 Claude.ai 内的反应功能提供。

注：本文于 2025 年 2 月 3 日编辑，将 Opus 4.5 的压力测试得分从 70% 更正为 91%。翻译完成。

$ bash 5-workspace/AI办公可视化/hooks/codex-office-sync.sh stop 2>/dev/null || true ​

title: "保护用户福祉" url: "https://www.anthropic.com/news/protecting-well-being-of-users" source: news date_scraped: "2026-03-15" ​

保护用户福祉 ​

概述 ​

自杀与自残安全防护 ​

模型行为 ​

产品干预措施 ​

评估结果 ​

减少谄媚行为 ​

评估方法 ​

年龄限制 ​

展望未来 ​