[0m$ [0mbash 5-workspace/AI办公可视化/hooks/codex-office-sync.sh start
title: "我们如何构建多智能体研究系统" url: "https://www.anthropic.com/engineering/multi-agent-research-system" source: engineering date_scraped: "2026-03-15"
我们如何构建多智能体研究系统
发布于 2025 年 6 月 13 日
概述
Anthropic 的研究功能利用多个 Claude 智能体协同工作,以更有效地探索复杂主题。该系统代表了一项重要的工程成就,从原型成功过渡到生产环境,为构建可靠的多智能体 AI 系统提供了关键洞察。
多智能体系统的优势
为什么多智能体擅长研究
研究本质上涉及不可预测的问题解决路径。与传统流水线不同,多智能体架构能够实现:
- 动态适应:智能体根据发现进行调整,而非遵循预定路径
- 并行探索:多个智能体同时调查不同角度,将海量信息压缩为可操作的洞察
- 关注点分离:每个智能体使用不同的工具和探索路径,减少相互依赖
数据说明了问题:使用 Claude Opus 4 作为主控智能体、Claude Sonnet 4 作为子智能体的多智能体配置,在内部研究评估中比单智能体 Opus 4 系统实现了"90.2% 的性能提升"。
Token 效率与规模
对 BrowseComp 评估的分析表明,仅 token 使用量就解释了约 80% 的性能差异。多智能体系统消耗的 token 大约是标准对话的 15 倍,但对于高风险研究任务能提供相称的价值。
存在权衡:智能体消耗的 token 大约是基础对话的 4 倍,这使得多智能体系统仅适用于性能提升能够证明成本增加合理性的任务。
架构:编排器-工作器模式
系统采用一个主控智能体协调并行运行的专门子智能体:
- 用户查询提交:主控智能体接收并分析查询
- 策略制定:智能体创建分解的研究计划
- 子智能体生成:为并行调查创建专门智能体
- 迭代研究:子智能体独立搜索和评估发现
- 综合:结果凝练为连贯的响应
- 引用处理:专门的智能体确保正确的来源归属
这与执行静态检索的传统 RAG 系统有根本区别。多智能体方法根据中间发现动态调整搜索策略。
提示工程原则
八大核心策略
1. 像你的智能体一样思考 有效的提示需要理解智能体行为。Anthropic 使用其 Console 构建模拟,逐步观察智能体,揭示了诸如过度搜索查询或过早终止等失败模式。
2. 教会委托 主控智能体最初提供模糊的指令,如"研究半导体短缺"。这导致子智能体之间的重复工作。详细的任务描述——包括目标、输出格式、工具指导和清晰边界——被证明是必不可少的。
3. 适当扩展投入 简单查询需要一个智能体进行 3-10 次工具调用;复杂研究可能部署 10+ 个专门子智能体。明确的指导方针防止在简单任务上过度投入。
4. 优先考虑工具设计 智能体-工具接口与人机接口同样关键。"糟糕的工具描述可能将智能体引向完全错误的道路",需要明确的目的和清晰的文档。
5. 利用智能体自我改进 Claude 4 模型能够诊断提示失败并建议改进。Anthropic 创建了重写有缺陷描述的工具测试智能体,在后续操作中实现了"任务完成时间减少 40%"。
6. 先广后窄 专家研究遵循这种模式:广泛探索先于聚焦调查。智能体最初默认使用过于具体的查询,返回很少的结果;更广泛的方法证明更有效。
7. 引导思考过程 扩展思考模式提供可见的推理 token。主控智能体使用它进行规划;子智能体在工具使用后采用交错思考来评估质量和改进查询。
8. 并行化工具调用 顺序搜索速度缓慢。并行方法——同时启动 3-5 个子智能体并并行使用 3+ 个工具——"将复杂查询的研究时间减少了高达 90%"。
评估方法论
独特挑战
多智能体系统挑战传统评估框架。智能体可能采取完全不同的有效路径达到相同目标,使得以过程为重点的评估不充分。
实用方法
先进行小样本测试:从约 20 个测试查询开始,使 Anthropic 能够观察提示调整带来的显著影响(30% 到 80% 的改进率),消除了早期阶段大量测试集的需求。
LLM 即评估器:单个 LLM 评估器根据涵盖事实准确性、引用正确性、完整性、来源质量和工具效率的评分标准评估输出。这种方法有效地扩展到数百个输出。
人工评估:自动化系统遗漏了边缘情况——特别是,早期智能体偏向 SEO 优化的内容农场而非权威学术来源。手动测试对于发现微妙的选择偏差仍然至关重要。
生产可靠性挑战
状态性与错误复合
智能体在多次工具调用中维护状态。与传统软件不同,小错误会以不可预测的方式级联。解决方案包括:
- 从失败点恢复而非完全重启
- 使用智能体智能进行优雅的错误处理
- 结合 AI 适应性和确定性保障的混合方法
调试复杂性
相同提示下的非确定性行为使诊断复杂化。Anthropic 实施了生产追踪和决策模式的高级可观察性(不监控对话内容),以系统地识别根本原因。
部署策略
彩虹部署——在旧版本和新版本之间逐步转移流量——防止更新期间中断正在运行的智能体。
同步瓶颈
当前系统同步执行子智能体,在继续之前等待完成。这简化了协调但限制了实时引导。异步执行将实现额外的并行性,但引入状态一致性和错误传播挑战的协调复杂性。
现实世界影响
用户报告研究功能帮助他们:
- 识别以前未考虑的商业机会
- 导航复杂的医疗保健决策
- 解决技术问题
- 通过发现的联系"节省多达数天的工作"
附录额外提示
终态评估:对于修改持久状态的智能体,关注最终状态是否达到预期结果,而非验证中间步骤。
长周期上下文管理:将完成的工作阶段存储在外部记忆中;生成具有清洁上下文的新鲜子智能体,同时通过精心管理的引用保持交接连续性。
基于工件输出:允许子智能体直接将工作持久化到外部系统,而非通过主控智能体路由所有内容,防止信息丢失并减少 token 开销。
关键要点
从原型到生产的过渡揭示了一个事实:"最后一英里往往成为旅程的大部分。"可靠的智能体系统需要精细的工程、全面的测试、注重细节的设计、稳健的运营,以及深刻理解当前智能体能力的团队之间的紧密协作。 [0m [0m$ [0mbash 5-workspace/AI办公可视化/hooks/codex-office-sync.sh stop 翻译完成。