AGI 凉了？吴恩达、斯坦福、谷歌云罕见同频：AI 测评逻辑正被 Agent 颠覆

AI行业焦点转向：从布道到价值评估 - 2026年初，AI行业焦点已从“能不能做到”转向“在什么条件下、以什么成本、为谁创造价值”[2] - 斯坦福HAI明确指出，2026年是AI从布道走向评估的一年[2][7] - 大量企业已完成第一轮生成式AI部署，开始有条件回看投入与产出[4][5] 现有评价体系面临挑战 - 过去依赖的Scaling Law（模型越大、数据越多、算力越强，能力越好）在医疗、法律等高责任领域显得单薄[8][9][10] - 分数上涨不等于风险可控，能力增强不代表系统可落地，现有评价体系可能跟不上应用场景的复杂度[10] - 吴恩达指出“AGI”概念被过度滥用，导致学生、CEO及社会对AI能力产生系统性高估[11][13] 提出新的评估标准：图灵-AGI测试 - 吴恩达提出“图灵-AGI测试”，旨在重新界定AI上限[7][14] - 该测试核心是评估AI能否在任务不预设、路径不可控、反馈持续变化的条件下，从头到尾完成一件事[16][18] - 与当前主流基准测试不同，它关注长期规划、持续学习和跨任务迁移等真实智能，而非固定题目解题能力[18] AI价值评估需算“经济账” - 斯坦福学者指出，过去几年AI行业只算“能力账”，系统性地回避了“经济账”，现在是时候好好算钱的问题了[21] - AI“单点能力”提升并不必然带来整体效率提升，有时甚至因引入核查、协调等新成本而产生反效果[21] - 评估不能只测模型，必须测“人+AI+流程”这个整体，关注系统整体是否变得更复杂、更难以信任[23] 企业级AI投资回报的关键发现 - 谷歌云《The ROI of AI 2025》报告调查了3466名全球营收千万美元以上的企业老板或高管[6][29] - 真正实现正向、可持续投资回报的，并非零散的生成式AI能力，而是“Agent+流程+组织”的系统级落地[7][30] - 在最早一批入场Agentic AI的公司里，88%已在至少一个GenAI场景中看到正向回报[7][30] 技术路径拐点：从大模型到Agent体系 - 当前AI核心问题从“模型能不能更强”转变为如何将其真正用进系统里[31] - 在使用GenAI的企业中，52%已将Agent投入生产环境[33] - 谷歌报告显示，让AI获得正向ROI的场景具有流程清晰、可规模化复制的共同点，如生产力、客户体验、业务增长、营销和安全[34][36] Agent的等级划分与演进方向 - 谷歌将Agent按效果分为三个等级：Level 1（生成式AI工具）、Level 2（真正意义上的单体Agent）、Level 3（多Agent协同工作流）[37][38] - 目前绝大多数已产生正向ROI的Agent集中在Level 2，属于“单体Agent+明确流程”形态[40] - Agent的下一步演进方向是“更可管理”，让多个Agent在清晰分工和明确规则下稳定协作，而非盲目堆砌数量[40] Skill-First成为Agent发展的核心理念 - 未来趋势是Agent调度一堆边界清楚、可被调用复用监控的“技能模块”[40][41] - 吴恩达是“Skill派”，强调将AI能力拆解为可验证、可组合、可评估的能力单元，以判断边界和管理风险[43][44] - 能跑出ROI的系统往往是Skill拆得够细、流程跑得顺、责任链条说得清楚的Agent系统[42] 学界对AGI与行业热度的冷静预测 - 斯坦福HAI联合主任James Landay预测2026年不会出现AGI[25] - 2026年AI主权的前景在于模型运行位置和数据由谁掌控，而非比拼模型大小[25] - 斯坦福HAI对全球算力投资升温发出警告，认为资本持续涌入却看不到回报拐点带有泡沫意味[27][28]