Claude Sonnet 4.6 介绍

发布日期： 2026年2月17日

概览

Claude Sonnet 4.6 是 Anthropic 迄今为止最强大的 Sonnet 模型。此次升级在编程、计算机使用、长上下文推理、智能体规划、知识工作和设计方面的能力均有提升。该模型目前支持 100 万 token 的上下文窗口（Beta 版）。

对于 Free 和 Pro 计划用户，Claude Sonnet 4.6 现已成为 claude.ai 和 Claude Cowork 的默认模型。定价与 Sonnet 4.5 保持一致，为每百万 token $3/$15。

核心改进

编程性能

获得早期访问权限的开发者明显更青睐 Sonnet 4.6 而非其前代产品，许多人甚至认为它优于 2025 年 11 月发布的 Claude Opus 4.5。该模型展现出更出色的一致性和指令遵循能力。

此前需要 Opus 级别模型才能实现的性能——包括真实的办公任务——现在通过 Sonnet 4.6 即可实现。与早期的 Sonnet 版本相比，该模型在计算机使用技能方面有显著提升。

安全性评估

广泛的安全测试表明，Sonnet 4.6 的安全性与其他近期的 Claude 模型相当或更优。研究人员指出，该模型表现出"非常强的安全行为"，没有重大的对齐问题。

计算机使用能力

2024 年 10 月，Anthropic 推出了首个通用计算机使用模型。经过 16 个月的发展，在 OSWorld 基准测试中的表现持续进步，该测试通过 Chrome、LibreOffice 和 VS Code 等真实软件评估 AI 性能。

早期用户报告称，在处理电子表格导航和完成多步骤网页表单等复杂任务时，该模型已达到人类水平。虽然模型仍落后于熟练的人类用户，但改进速度相当可观。

提示注入防御

计算机使用面临提示注入攻击的安全风险。安全评估显示，与 Sonnet 4.5 相比，Sonnet 4.6 在防御能力上有显著提升，表现与 Opus 4.6 相当。

基准测试表现

Claude Sonnet 4.6 在保持更实用价格的同时，接近 Opus 级别的智能水平。主要改进包括：

Claude Code 测试： 用户在约 70% 的情况下更倾向于选择 Sonnet 4.6 而非 Sonnet 4.5
与 Opus 4.5 对比： 用户在 59% 的情况下更倾向于选择 Sonnet 4.6，理由是指令遵循更好且幻觉更少
长上下文推理： 100 万 token 窗口能够在整个代码库、长合同和多篇研究论文中进行有效推理
Vending-Bench Arena： Sonnet 4.6 开发了成熟的商业策略，前期大量投入后转向盈利

设计和前端质量

客户反映 Sonnet 4.6 的视觉输出明显更加精细，具有更出色的布局、动画和设计美感。达到生产质量所需的迭代轮次更少。

产品更新

平台功能

自适应思考和扩展思考支持
上下文压缩功能（Beta 版），可自动总结较早的上下文
增强的网页搜索和获取工具，支持自动过滤和代码执行
记忆工具、程序化工具调用、工具搜索和工具使用示例现已正式可用

Excel 集成

Claude in Excel 现支持 MCP 连接器，可与 S&P Global、LSEG、Daloopa、PitchBook、Moody's 和 FactSet 等工具集成。在 Claude.ai 中配置的 MCP 连接会自动在 Excel 中生效。

可用性

Claude Sonnet 4.6 已在以下平台提供：

所有 Claude 计划
Claude Cowork
Claude Code
Claude API（使用 claude-sonnet-4-6）
主要云平台
免费层（现包含文件创建、连接器、技能和压缩功能）

客户评价

行业领导者报告了显著改进：

Databricks： 在文档理解任务上与 Opus 4.6 持平
Replit： 在智能体工作负载方面具有出色的性价比
Cursor： 在长期任务上有显著改进
GitHub： 在大型代码库的复杂代码修复方面表现出色
Cognition： 在错误检测方面与 Opus 的差距显著缩小
Pace： 在保险行业的计算机使用基准测试中达到 94%

方法论说明：

基准测试对比参考了现有最佳 API 版本。OSWorld 测试特定的受控任务，但不能完全反映真实世界的复杂性。Terminal-Bench 2.0 使用 Terminus-2 测试框架，采用 1x 保底/3x 上限的资源分配。SWE-bench Verified 分数为 10 次试验的平均值。工具评估使用了网页搜索、获取、代码执行和各种推理配置（如所述）。

Claude Sonnet 4.6 介绍 ​

概览 ​

核心改进 ​

编程性能 ​

安全性评估 ​

计算机使用能力 ​

提示注入防御 ​

基准测试表现 ​

设计和前端质量 ​

产品更新 ​

平台功能 ​

Excel 集成 ​

推荐 ​

可用性 ​

客户评价 ​