Skip to content

title: "Claude Sonnet 4.6 介绍" url: "https://www.anthropic.com/news/claude-sonnet-4-6" source: news date_scraped: "2026-03-15"

Claude Sonnet 4.6 介绍

发布日期: 2026年2月17日

概览

Claude Sonnet 4.6 是 Anthropic 迄今为止最强大的 Sonnet 模型。此次升级在编程、计算机使用、长上下文推理、智能体规划、知识工作和设计方面的能力均有提升。该模型目前支持 100 万 token 的上下文窗口(Beta 版)。

对于 Free 和 Pro 计划用户,Claude Sonnet 4.6 现已成为 claude.ai 和 Claude Cowork 的默认模型。定价与 Sonnet 4.5 保持一致,为每百万 token $3/$15。

核心改进

编程性能

获得早期访问权限的开发者明显更青睐 Sonnet 4.6 而非其前代产品,许多人甚至认为它优于 2025 年 11 月发布的 Claude Opus 4.5。该模型展现出更出色的一致性和指令遵循能力。

此前需要 Opus 级别模型才能实现的性能——包括真实的办公任务——现在通过 Sonnet 4.6 即可实现。与早期的 Sonnet 版本相比,该模型在计算机使用技能方面有显著提升。

安全性评估

广泛的安全测试表明,Sonnet 4.6 的安全性与其他近期的 Claude 模型相当或更优。研究人员指出,该模型表现出"非常强的安全行为",没有重大的对齐问题。

计算机使用能力

2024 年 10 月,Anthropic 推出了首个通用计算机使用模型。经过 16 个月的发展,在 OSWorld 基准测试中的表现持续进步,该测试通过 Chrome、LibreOffice 和 VS Code 等真实软件评估 AI 性能。

早期用户报告称,在处理电子表格导航和完成多步骤网页表单等复杂任务时,该模型已达到人类水平。虽然模型仍落后于熟练的人类用户,但改进速度相当可观。

提示注入防御

计算机使用面临提示注入攻击的安全风险。安全评估显示,与 Sonnet 4.5 相比,Sonnet 4.6 在防御能力上有显著提升,表现与 Opus 4.6 相当。

基准测试表现

Claude Sonnet 4.6 在保持更实用价格的同时,接近 Opus 级别的智能水平。主要改进包括:

  • Claude Code 测试: 用户在约 70% 的情况下更倾向于选择 Sonnet 4.6 而非 Sonnet 4.5
  • 与 Opus 4.5 对比: 用户在 59% 的情况下更倾向于选择 Sonnet 4.6,理由是指令遵循更好且幻觉更少
  • 长上下文推理: 100 万 token 窗口能够在整个代码库、长合同和多篇研究论文中进行有效推理
  • Vending-Bench Arena: Sonnet 4.6 开发了成熟的商业策略,前期大量投入后转向盈利

设计和前端质量

客户反映 Sonnet 4.6 的视觉输出明显更加精细,具有更出色的布局、动画和设计美感。达到生产质量所需的迭代轮次更少。

产品更新

平台功能

  • 自适应思考和扩展思考支持
  • 上下文压缩功能(Beta 版),可自动总结较早的上下文
  • 增强的网页搜索和获取工具,支持自动过滤和代码执行
  • 记忆工具、程序化工具调用、工具搜索和工具使用示例现已正式可用

Excel 集成

Claude in Excel 现支持 MCP 连接器,可与 S&P Global、LSEG、Daloopa、PitchBook、Moody's 和 FactSet 等工具集成。在 Claude.ai 中配置的 MCP 连接会自动在 Excel 中生效。

推荐

对于需要深度推理的任务(如代码库重构、多智能体协调和精度关键型工作),Opus 4.6 仍是最佳选择。Sonnet 4.6 在各个思考强度级别上都表现出色。

可用性

Claude Sonnet 4.6 已在以下平台提供:

  • 所有 Claude 计划
  • Claude Cowork
  • Claude Code
  • Claude API(使用 claude-sonnet-4-6
  • 主要云平台
  • 免费层(现包含文件创建、连接器、技能和压缩功能)

客户评价

行业领导者报告了显著改进:

  • Databricks: 在文档理解任务上与 Opus 4.6 持平
  • Replit: 在智能体工作负载方面具有出色的性价比
  • Cursor: 在长期任务上有显著改进
  • GitHub: 在大型代码库的复杂代码修复方面表现出色
  • Cognition: 在错误检测方面与 Opus 的差距显著缩小
  • Pace: 在保险行业的计算机使用基准测试中达到 94%

方法论说明:

基准测试对比参考了现有最佳 API 版本。OSWorld 测试特定的受控任务,但不能完全反映真实世界的复杂性。Terminal-Bench 2.0 使用 Terminus-2 测试框架,采用 1x 保底/3x 上限的资源分配。SWE-bench Verified 分数为 10 次试验的平均值。工具评估使用了网页搜索、获取、代码执行和各种推理配置(如所述)。