Anthropic 教育报告:AI 熟练度指数
概述
Anthropic 发布了 AI 熟练度指数(AI Fluency Index),用于追踪人们如何发展与 AI 协作的技能。该研究分析了 2026 年 1 月期间 9,830 次 Claude.ai 对话,以识别有效人机交互的行为模式。
关键发现
两大主要模式:
迭代驱动熟练度:约 86% 的对话表现出迭代和改进。这些对话平均展现出 2.67 种熟练度行为——大约是非迭代对话中 1.33 种行为的两倍。提出后续问题的用户质疑 Claude 推理的可能性高出 5.6 倍,识别缺失上下文的可能性高出 4 倍。
Artifact 对话显示较少批判性评估:当 Claude 生成 artifacts(代码、文档、应用)时,用户在前期更加指令化,但在后期评估较少。用户识别缺失上下文的可能性降低 5.2 个百分点,质疑推理的可能性降低 3.1 个百分点——尽管 artifacts 通常涉及准确性至关重要的复杂任务。
框架
研究人员使用了 4D AI 熟练度框架,该框架定义了代表安全、有效协作的 24 种行为。该研究测量了对话中 11 种可直接观察到的行为,而另外 13 种(如诚实披露 AI 使用)发生在平台之外,需要未来的定性研究。
提升 AI 熟练度的三种方式
- 保持对话:将初始响应视为起点;提出后续问题并优化请求
- 质疑完善输出:当结果看起来完成时暂停,以验证准确性和推理
- 设定协作条款:只有 30% 的用户明确告诉 Claude 如何与他们互动
研究局限性
- 样本仅反映早期采用者,不代表更广泛人群
- 单周数据无法捕捉季节性模式
- 二元分类遗漏了细致的行为表现
- 用户可能通过测试而非可见对话来评估 artifacts
- 发现具有相关性,而非因果性
未来方向
Anthropic 计划进行队列分析,比较新用户与经验丰富的用户,对不可观察行为进行定性研究,并探索行为之间的因果关系。他们还将研究 Claude Code(其开发者平台)上的 AI 熟练度模式。