5 月 10 日是 Anthropic 把多张牌一起翻到桌面上的一天。Alex Albert 公开披露:Claude Mythos Preview 在 METR 80% 成功率基准上的 time horizon 是次优模型的两倍以上——这是 long-horizon agentic 能力第一次被以「两倍以上」量级硬数据化,也是 Mythos 这一代号的首次官方背书。同一天,Anthropic 平台团队在 AI & I 播客系统化披露 Claude Managed Agents 的设计哲学:harness 工程被高估,基础设施扩容才是真正壁垒;终极愿景是用户只需定义「outcome + budget」,Claude 自行决策整个 agent 拓扑。Amanda Askell 同步呼吁对齐研究该多谈「积极愿景」。Claude Code 团队成员 Thariq 用一条 8700+ 赞的推文宣告「HTML is the new markdown」——把 Claude Code 实际渗透到的「文档生产范式迁移」摆到明面上。
硬币的另一面更刺眼。Mark Zuckerberg 当天告诉 8000 名员工:你们的裁员是 1450 亿美元 AI 投资预算的一行项目。继 Cloudflare 之后,这是第二家、也是最重量级的一家公司公开把「AI 资本支出」与「人力削减」绑定为同一行账目——「AI 即裁员理由」叙事第一次被万亿美元级公司制度化。Walton 报告同步显示 Z 世代对 AI 的抵触情绪正在上升,采用率停滞、岗位担忧加剧;欧盟则发布 AI Act Article 50 透明度义务草案,被社区担心会重蹈 Cookie 弹窗的覆辙。Aaron Levie 提出企业「token budgeting」将成下一个核心管理课题,Matt Turck 反向判断 agent 计费可能仍走 seat 路线——钱怎么花、怎么管、怎么算,正在变成 AI 商业化的下一个主战场。
研究侧今天密度同样不低。浙大校友用 AI 工具把困扰数学界 32 年的拉姆齐数 R(3,17) 下界从 92 推到 93,「AI for math」从 demo 级演示进入「真实未解决问题」的领地。图灵奖得主 Sutton 用 1967 年的 NLMS 公式根治流式 RL 的步长失控,MuJoCo 上用约 SAC 1/140 的计算量逼近 SAC 性能。Ted Xiao 系统复盘具身智能近五年三个时代——存在性证明、基础模型、Scaling——并指出真正提速的转折点是放慢发表节奏、专注数据积累的「Code Yellowish」阶段。FAA 同步规划用 AI 全面改革空中交通管控,把 AI 第一次列入「最高风险关键基础设施」现代化方案。在产品层卷得火热的同时,基础研究与高风险部署的两端,正在以可观速度推进。