Anthropic 对齐文章
共 42 篇文章
- 激活预言机
- 对齐伪装缓解措施
- 重访对齐伪装:改进的分类器与开源扩展
- Anthropic 2026 年研究员项目
- Anthropic AI 安全研究学者项目介绍
- AuditBench
- 审计博弈模型生物的开源复现
- 预部署审计能够发现明显的破坏者
- A3: 自动化对齐智能体
- 构建与评估对齐审计智能体
- 自动化研究人员可能隐蔽地懈怠
- LLM 的信念有多深
- Bloom:自动化行为评估开源工具
- 设立防护栏:总结
- 三个挑战与两个希望
- 通过表示复用实现高性价比的宪法分类器
- 推理模型是否像我们一样使用草稿本?来自改述蒸馏的证据
- 诚实性与谎言检测
- AI 的一团糟
- 如何复制和扩展我们的伪装对齐演示
- 接种提示
- 介绍 Anthropic 的防护研究团队
- 测试时计算中的逆缩放现象
- 通过合成文档微调修改大语言模型的信念
- Anthropic—OpenAI 对齐评估试点研究发现的总结
- Petri 2.0
- Petri:一个开源审计工具
- 通过预训练数据过滤增强模型安全性
- 人格选择模型
- 技术性 AI 安全研究方向建议
- 关于奖励欺骗的文档训练会诱发奖励欺骗行为
- 推理代码篡改的简化评估
- Anthropic 破坏风险试点报告
- ASL-4 安全案例组件的三份草图
- 知识定位:选择性梯度掩码
- 强化红队测试
- 压力测试模型规范
- 阈下学习:语言模型通过数据中的隐藏信号传递行为特征
- 训练无法激发当前语言模型中的微妙推理
- 通过分层摘要监控计算机使用
- 无监督提取
- Won