Skip to content

Anthropic 技术文章库

Main Navigation 研究工程博客对齐科学技术动态课程资源

中文

中文

Appearance

Sidebar Navigation

Alignment Science（对齐科学）

激活预言机

对齐伪装缓解措施

重访对齐伪装：改进的分类器与开源扩展

Anthropic 2026 年研究员项目

Anthropic AI 安全研究学者项目介绍

AuditBench

审计博弈模型生物的开源复现

预部署审计能够发现明显的破坏者

A3: 自动化对齐智能体

构建与评估对齐审计智能体

自动化研究人员可能隐蔽地懈怠

LLM 的信念有多深

Bloom：自动化行为评估开源工具

设立防护栏：总结

三个挑战与两个希望

通过表示复用实现高性价比的宪法分类器

推理模型是否像我们一样使用草稿本？来自改述蒸馏的证据

诚实性与谎言检测

AI 的一团糟

如何复制和扩展我们的伪装对齐演示

接种提示

介绍 Anthropic 的防护研究团队

测试时计算中的逆缩放现象

通过合成文档微调修改大语言模型的信念

Anthropic—OpenAI 对齐评估试点研究发现的总结

Petri 2.0

Petri：一个开源审计工具

通过预训练数据过滤增强模型安全性

人格选择模型

技术性 AI 安全研究方向建议

关于奖励欺骗的文档训练会诱发奖励欺骗行为

推理代码篡改的简化评估

Anthropic 破坏风险试点报告

ASL-4 安全案例组件的三份草图

知识定位：选择性梯度掩码

强化红队测试

压力测试模型规范

阈下学习：语言模型通过数据中的隐藏信号传递行为特征

训练无法激发当前语言模型中的微妙推理

通过分层摘要监控计算机使用

无监督提取

Won't vs. Can't：Claude 模型的伪装能力不足行为

页面导航

Anthropic 对齐文章

共 42 篇文章

激活预言机
对齐伪装缓解措施
重访对齐伪装：改进的分类器与开源扩展
Anthropic 2026 年研究员项目
Anthropic AI 安全研究学者项目介绍
AuditBench
审计博弈模型生物的开源复现
预部署审计能够发现明显的破坏者
A3: 自动化对齐智能体
构建与评估对齐审计智能体
自动化研究人员可能隐蔽地懈怠
LLM 的信念有多深
Bloom：自动化行为评估开源工具
设立防护栏：总结
三个挑战与两个希望
通过表示复用实现高性价比的宪法分类器
推理模型是否像我们一样使用草稿本？来自改述蒸馏的证据
诚实性与谎言检测
AI 的一团糟
如何复制和扩展我们的伪装对齐演示
接种提示
介绍 Anthropic 的防护研究团队
测试时计算中的逆缩放现象
通过合成文档微调修改大语言模型的信念
Anthropic—OpenAI 对齐评估试点研究发现的总结
Petri 2.0
Petri：一个开源审计工具
通过预训练数据过滤增强模型安全性
人格选择模型
技术性 AI 安全研究方向建议
关于奖励欺骗的文档训练会诱发奖励欺骗行为
推理代码篡改的简化评估
Anthropic 破坏风险试点报告
ASL-4 安全案例组件的三份草图
知识定位：选择性梯度掩码
强化红队测试
压力测试模型规范
阈下学习：语言模型通过数据中的隐藏信号传递行为特征
训练无法激发当前语言模型中的微妙推理
通过分层摘要监控计算机使用
无监督提取
Won

Pager

下一篇激活预言机