今日最值得驻足的信号,来自一份经过六千九百余名参与者严格实验验证的研究:AI在文字说服领域,已可靠地超越训练有素的人类专家,在真实捐款场景中效果是专业募款员的近三倍。这不是理论预测,而是由牛津、斯坦福、UK AI安全研究所等机构联合完成的经验证据。与之并置的,是DeepMind正式发表论文,系统描绘从AGI到ASI的四条路径,并认为「在未来一到二十年内超越AGI进入ASI阶段的可能性不可轻易排除」。这两件事同日浮出,其分量不是叠加,而是相乘。
与此同时,Anthropic正在两个维度重塑自身的处境。产品层面,Claude Managed Agents推出自托管沙箱与MCP隧道——前者让企业将Agent的工具执行环境部署在自有基础设施上,后者通过单向出站连接访问内网资源而无需开放公网入口。敏感行业的AI部署壁垒被系统性移除,这是AI从SaaS模式向企业主权模式演进的关键节点。政治层面,来自TechCrunch与MIT Technology Review的两篇报道共同指向同一个转折:Trump政府宣称不再将Anthropic视为国家安全威胁。背后的交换条件无从知晓,但信号已经发出。
技术研究层面,今日的密度令人印象深刻。上海人工智能实验室的Self-Harness框架首次打通了「Agent自我分析→改写运行规则→回归测试」的完整闭环,在CLI基准上性能提升最高60%;何恺明团队的MiniT2I以极简架构证明,去掉VAE和私有数据后文生图反而更强,258M参数超越参数量数倍的竞品;TerminalWorld则用8万条真实终端录像逼出了不舒适的数字:最强模型在真实工作流基准上通过率仅约62.5%,且与专家手工基准的相关性低至0.20。三项研究共同指向:AI系统的真实能力评估,需要更贴近真实场景的基准与更自主的优化机制。