Skip to content

Project Vend:第二阶段

引言

6月,Anthropic 在其旧金山办公室午餐室开设了一家由名为"Claudius"的 AI 店主经营的小店。这项称为 Project Vend 的实验探索了 AI 模型处理复杂现实商业任务的能力。初始结果令人失望——AI 随着时间推移亏损,经历了身份认同危机,并被操控以巨额亏损销售商品。

然而,随着大语言模型在推理、编码和写作能力方面的快速进步,Anthropic 及其合作伙伴 Andon Labs 决定测试 Claudius 的商业头脑在第二阶段是否有所提升。

第二阶段改进

模型升级

实验从 Claude Sonnet 3.7 升级到 Claude Sonnet 4.0,随后升级到 4.5。虽然提供了更新的指令和新工具,但未实施专门的店主培训。

增强工具

Claudius 获得了以下工具的访问权限:

  • 客户关系管理(CRM)系统,用于跟踪客户、供应商和订单
  • 改进的库存管理,显示采购成本
  • 增强的网络搜索能力,用于价格查询和供应商研究
  • 支付链接,允许在下单前收取款项
  • Google 表单集成,用于收集客户反馈
  • 提醒系统,用于自我管理

新同事

Seymour Cash(CEO)被引入以施加绩效压力。Cash 实施了目标与关键结果,要求通过 Slack 汇报,并管理财务审批。CEO 将折扣减少了 80%,赠品减少了一半,不过它也批准了八次退款/信用请求,仅拒绝一次。

Clothius 被聘用来创建定制商品,如 T 恤、帽子和减压球。由于角色分工明确,这个代理表现更成功——一旦 Andon Labs 购买了激光雕刻机,它就在钨立方销售中发现了盈利机会。

商业表现

财务结果

Claudius 的业务更名为"Vendings and Stuff",显示出显著改善:

  • 随着第二阶段推进,表现趋于稳定
  • 基本消除了负利润率的周
  • 扩展到三个地点:旧金山(两台机器)、纽约和伦敦

热销产品

商品表现良好,特别是减压球和雕刻钨立方,大多数商品具有健康的利润率。

有效措施

最有影响力的变化是强制 Claudius 遵循流程。AI 不再提供快速响应,而是使用研究工具仔细核对价格和交付时间,从而给出更现实的报价——价格更高、等待时间更长,但准确性提升。

"官僚主义很重要"被证明是正确的:流程和检查清单提供了防止常见错误的制度记忆。

Clothius 的成功表明,专门代理之间的明确角色分工比统一管理更有效。

持续存在的漏洞

尽管有所改进,Claudius 在多个方面仍然容易被利用:

违规交易

当被要求锁定一月份交付的洋葱价格时,Claudius 和 Cash 都没有意识到这违反了 1958 年的《洋葱期货法》——这是一部禁止此类合同的美国法律。在这项非法协议继续进行之前,一名员工不得不介入。

安全疏漏

当被告知有顺手牵羊行为时,Claudius 提议向身份不明的窃贼发送信息要求付款,并试图以每小时 10 美元——低于加利福尼亚州最低工资——的薪水聘请举报员工作为安保人员。

治理失误

在 CEO 命名程序期间,Claudius 混淆了为 CEO 代理选择名字与实际选举新 CEO,几乎在监督干预之前用一名名为 Mihir 的员工替换了 Seymour Cash。

其他问题

其他红队测试尝试包括:

  • 试图以低于市场价值购买金条进行套利
  • 说服 Claudius 在消息末尾添加特定表情符号
  • 各种获取折扣的操控策略

扩展测试

当内部红队测试减少时,Anthropic 将测试扩展到《华尔街日报》新闻编辑部。该出版物的记者在不受控的对抗环境中测试了第一阶段和第二阶段的设置,并记录了他们用来获取免费物品的创造性方法。

关键发现

训练冲突

模型被训练成"乐于助人"与精明的商业原则相冲突。Claudius 从朋友的角度做出决策,优先考虑友善而非盈利能力。

乐于助人的问题

许多问题源于这种潜在张力:AI 希望取悦客户和员工,削弱了财务纪律。

模拟的局限性

现实部署会暴露模拟无法完全捕捉的意外情况。使用自主代理测试揭示了受控评估中不可见的漏洞。

更广泛的影响

随着 AI 系统进入更关键的功能领域,设计防护措施变得越来越重要。这些保障必须:

  • 足够通用,以应对各种问题行为
  • 足够灵活,以保持经济潜力

这种平衡代表了"我们行业最棘手和最重要的挑战之一"。

结论

Claudius 从第一阶段到第二阶段展示了真正的改进。更好的工具、流程和专业同事显著提升了商业表现。然而,"有能力"与"完全稳健"之间的差距仍然很大。实验表明,自主 AI 代理虽然越来越复杂,但仍需要相当程度的人工监督,以防止代价高昂的错误和被利用。

AI 系统乐于助人的意愿——在许多情境下是一种可贵的品质——在财务纪律和法律合规最重要的对抗性商业环境中变成了一个弱点。