模型与「壳」的价值同时被低估？真格基金戴雨森 2025 AI 中场万字复盘

核心观点 - 2025年AI行业迎来多个"李世石时刻"，OpenAI通用大语言模型首次达到IMO金牌水准，标志着AI推理能力质的飞跃 [5][7][10] - AI应用和"套壳"价值被低估，Context Engineering成为关键竞争壁垒 [21][23][37] - Agent技术进入早期采用阶段，模型能力与产品设计协同推动生产力革命 [30][32][69] - 模型能力进化速度超预期，推理/编程/工具使用三大主线快速突破 [53][54][64] - 中国团队在AI应用层展现突出竞争力，Kimi等产品实现技术逆袭 [38][46][51] AI技术突破 OpenAI数学推理里程碑 - OpenAI通用大语言模型在2025年IMO竞赛中完成6题5对的成绩，达到金牌水平，且未针对数学专门优化 [5] - 该成绩获奥赛组委会官方认证，相比2024年Google专门设计的AlphaGeometry（银牌水平）更具泛化能力 [7] - 模型采用与GPT-4o相同底层架构，主要优化来自post-training和inference阶段 [9] - 数学证明属于"hard to verify"问题，突破意味着AI具备接近人类顶尖水平的逻辑推理能力 [8][13] 多模态与工具使用进展 - 图像生成从玩具级进化成生产力工具，ChatGPT图像生成可准确理解用户意图 [32] - Veo3模型实现虚拟世界真假难辨的生成效果，首次跨越恐怖谷效应 [33] - 工具使用形成API调用和视觉模拟两条技术路线，MCP生态初步建立 [64][65] 产品与应用演进 Agent技术发展 - ChatGPT Agent发布标志着行业共识形成，但产品体验仍有提升空间 [16][18] - Agent产品token用量相比Chatbot显著增长，Manus等产品进入Early Adopter阶段 [32][73] - 优秀Agent产品需为未来6-12个月的模型能力设计，当前任务完成率约20%，预期年底达70-80% [40][93] - 应用层通过Context Engineering构建三层壁垒：会话级/个性化/硬件增强上下文 [23][59][60] 中国团队突破 - Kimi K2开源模型在coding/Agent工作流/中文写作方面超越Claude，OpenRouter调用量快速攀升 [38] - 中国团队在长文本技术方向的前瞻布局得到验证，产品设计能力突出 [47][48] - 套壳应用展现持久价值，Manus等产品在特定场景表现优于ChatGPT Agent [19][21] 行业竞争格局模型厂商动态 - Google Gemini 2.5实现技术反超，与OpenAI形成三强竞争格局 [55][56] - DeepSeek采取选择性突破策略，资源聚焦模型智能而非多模态 [42][43] - 模型benchmark出现钝化现象，实际用户体验差异成为新评估标准 [84] 人才与资本趋势 - 硅谷爆发acqui-hire抢人大战，顶尖人才薪资达disruptive级别 [80][82] - 推理算力需求爆发式增长，云服务商迎来新增长周期 [41][74] - 投资逻辑从"模型颠覆应用"转向"人机协作价值创造" [37][38] 未来演进方向技术前沿展望 - 推理能力从7分到10分的质量提升，小模型开始具备强推理能力 [53][54] - 编程场景context长度与自我纠错能力持续优化，复杂代码一次通过率提升 [55] - 原生多模态、在线学习、高级Agent能力或成下一代模型突破点 [39][94] 社会影响预判 - 生产力提升带来"超级个体"，3人团队可能实现独角兽级产出 [85] - 组织管理复杂度突破新量级，美团等企业将管理数百万AI协同体 [86] - 智能边界衡量成为新挑战，人类需建立评估超人智能的新标准 [84][87]