5 月 17 日是「Tokenmaxxing 走上前台 + AI 与人类专家关系的集体反思」的一天。机器之心和量子位先后披露 PSPDFKit 创始人 Peter Steinberger(外号「龙虾之父」)月烧约 130 万美元 token(6030 亿 token)的工程实践:同时跑约 100 个 Codex agent,自动审 PR、扫漏洞、聚类 issue、录制修复对比视频,以极精简团队实现过去大型工程团队才能承担的工程密度。账单全部由 OpenAI 承担——他刚入职 OpenAI。Karpathy 公开坦言「感到最大化使用 AI 的压力」,把「token 吞吐量」定性为衡量团队 AI 运转密度的新单位。这是 2026 年 AI 工程文化第一次以如此具象、如此狂暴的方式被推到台面上。
同一天还有反向的镜像:密歇根大学与斯坦福的联合研究在 swe-bench-verified 上系统分析了 Claude Sonnet-4.5 / GPT-5 / Kimi-K2 / Qwen3-Coder-480B 等 8 个前沿模型的 agentic coding 轨迹,得出反直觉结论——花 1000 倍 token 效果并不更好,最高准确率出现在中等消耗区间,高消耗轨迹往往伴随重复查看与修改同一文件;模型自身对 token 消耗的预测也普遍低估。把这份研究和「龙虾之父」放在一起看,是 2026 年 agent 工程化的两个极端:一端是「无上限烧 token + 100 个 agent 并行」的暴力堆量,另一端是冷峻的「钱花在哪了根本没说清」。
第二条主线是 AI 与人类专家关系的集体反思。Airbnb CTO Ahmad Al-Dahle 在 VentureBeat 发文系统提出「空洞化」(hollowing out)假设:基层知识工作(代码审查、文献检索、数据清洗)正被模型大量接管,而正是这些岗位培育了未来能判断 AI 对错的专家——一旦实践机会消失便无法复现,且十年内才会被察觉;他特别指出 RLAIF / Constitutional AI 那类「规则评估」只能捕捉可被言说的判断,「感觉哪里不对」的专家直觉无法写进 rubric。同一天 ArXiv 宣布对完全依赖 AI 写作的论文作者封禁一年,是主流学术平台首次设立明确惩戒;知名 JS 技术博客 2ality 也以「AI 在窃取我的工作」为由暂时下线;一位创作者在 Substack 呼吁艺术家同行「把头从沙子里抬出来」。叠加 OpenAI 内部 Brockman 接管产品战略、ChatGPT 与 Codex 合并的进一步收口,以及机器之心的「世界模型百亿赌局」综述(NVIDIA 全栈开源 Cosmos / DreamDojo / DreamZero 构建「物理 AI 的 CUDA 护城河」,Yann LeCun 押注 JEPA 绕开像素预测),今天的 AI 行业像是同时在踩两个极端的油门——能力无限放大,而对「人类还剩下什么」的焦虑也同步放大。