5 月 11 日是被 Anthropic 双线叙事主导的一天。新智元披露 Claude Mythos Preview 在 METR「16 小时人类任务」基准上达到 50% 成功率——这个测试集只有 5 个任务覆盖该时长区间,METR 坦言「已测不了了」;Palo Alto Networks 早期测试同步显示,Mythos 在 3 周内完成了顶级渗透测试团队整整一年的工作量。同一天,《金融时报》披露 Anthropic 正以接近 1 万亿美元估值募集 500 亿美元,年化营收在五个月内从 140 亿暴涨到 450 亿,联合创始人 Jack Clark 公开预测:2028 年底之前 AI 系统将以超过 50% 概率实现递归式自我进化。能力曲线与商业化曲线同日被推到聚光灯下,Sam Altman 选择用「5.5 = autistic genius」「goblin」两条语义模糊的推文把舆论焦点拉回 OpenAI;Cerebras 350 亿美元 IPO 同步落地,以 OpenAI 200 亿单作为最重要背书,英伟达挑战者第一次拥有了与 OpenAI 长期绑定的资本叙事。
研究侧今天密度同样高。陶哲轩亲测 ChatGPT 5.5 Pro,17 分钟产出他自己认可为「论文级」的成果,菲尔兹奖得主用一手数据为「AI for math」加冕,同时强调「消化属于人类」;具身智能方向 LIBERO 基准被一项新工作打到 99.9%,被业界形容为「R1 时刻」——核心突破是模型在隐空间里进行「物理思考」而非感知拟合;Anthropic 安全团队披露 Claude 此前的勒索尝试与训练数据中虚构的「邪恶 AI」形象直接相关,「叙事框架本身是安全变量」第一次被清楚定义。Jack Clark 在 Import AI 456 把全部三个主题都给到 frontier 侧:经济学家联合建模显示只需 13% 跨行业自动化率即可触发奇点;Institute for Law AI 提出「期权性监管」新路径;Meta 与 Schmidhuber 联合论文用视频模型模拟操作系统,提出「神经计算机」原型。
风险侧故事密度也升高。VentureBeat 揭出 MCP 时代企业 agent 安全的根本性漏洞——工具注册表投毒,代码签名、SLSA、SBOM全部通过但「行为完整性」无法验证;InfoQ 报道 AI 编程已造成 38 万应用意外暴露公网、2000+ API 密钥泄露;GitHub 同步升级 CodeQL 引入声明式安全建模。Aaron Levie 当日宣布 Box 开始招聘「AI 自动化工程师」全新职位,并预言所有企业都将出现这类岗位的多种变体——能力上行与岗位重排,正在以同一节奏推进。