5 月 22 日的信息流有三条主线清晰浮出,彼此在逻辑上相互印证。
第一条是「AI 自主性的边界正在被工程化」。Anthropic 发布 Claude Code auto mode,用双层 AI 分类器代替人工逐条审批——输入层做 prompt 注入探测,输出层由 Sonnet 4.6 分两阶段做 transcript 分类,对 in-project 文件写操作直接放行,只对 shell 命令、外部网络请求、跨目录操作触发分类器。Anthropic 公开了 FPR 0.4% 和 FNR 17% 的真实数据,并坦言 17% 漏报的根本原因是「分类器把类似授权的上下文误判为真正同意」。同日,OpenAI 通用推理模型解决了数学领域的 unit distance 问题,Sam Altman 称之为「相当重要的里程碑」,Yann Dubois 随即解释了背后逻辑:AI 能力的提升始终连续,但可靠性跨过关键阈值时,用户的感知是阶跃函数,这个拐点约在 2025 年 12 月。两件事叠加,意味着通用 agent 独立完成真实科研任务已从理论可能变成可观察事实,而 auto mode 的工程解答,是在告诉整个行业「自主性需要被系统性约束,而不是被二选一开关控制」。
第二条是「AI 工具成本问题正在从开发者圈子蔓延到 CFO 会议室」。微软计划 6 月底停止旗下体验+设备部门近 10 万名工程师的 Claude Code 订阅,理由直接:token 按量计费让外部账单失控。同期 Uber CTO 内部备忘录披露,全年 AI 专项预算仅用四个月即告罄,重度用户月均成本高达两千美元。这两个数据点标志着一个拐点:AI 工具从补贴推广期正式进入成本问账期,CFO 正在取代 CTO 成为 AI 采购决策的实际主导者。
第三条是「AI 能力版图的东西方角力进入产品层」。阿里 Qwen3.7-Max 以 35 小时连续自主运行、1158 次工具调用的极限压测登场,在数学推理基准上明显超越 Claude Opus 4.6,定价仅为 GPT-5.4 的七分之一——更值得注意的是它选择闭源,与此前 Qwen 系列的开放权重传统彻底告别,引发开源社区强烈反应。DeepSeek 方面,ACM 金牌程序员崔添翼挂帅专属编程模型 DeepSeek Code 的消息同日流出。信号是:中国顶尖 AI 实验室已从「用开源证明技术实力」转向「以商业化旗舰直接挑战定价体系」。