Z Tech|对话Andrew Dai:14年DeepMind生涯,见证PaLM到Gemini,下一站押注视觉推理
谷歌谷歌(US:GOOG) Z Potentials·2026-05-27 13:06

Andrew Dai的行业背景与创业动机 - 在Google工作超过14年,深度参与从早期预训练、监督微调论文到PaLM、Gemini等关键大模型的演进,并负责Gemini核心数据体系[2][7] - 行业更稀缺的价值在于同时站在研究、系统与产品三条线的交汇处[2] - 选择离开Google并创办Elorian AI,核心原因是认为当前大模型缺乏对世界的底层理解,并看到了视觉推理领域的创业时机[4][18] 对大模型现状的核心批判:缺乏真正的“理解” - 当前前沿大模型本质上仍在“文本空间”中进行推理,但现实世界并非文本构成,模型缺少空间感知、物理理解和视觉推理等最底层的“世界理解”[4] - 模型生成能力很强,但“生成”不等于“理解”,例如让模型生成装有10个球的盒子后再问数量,它依然可能答错[3][4][24] - 多模态模型能生成逼真图像视频,但专业人士能轻易发现如“六根手指”等错误,现阶段只是“看起来像理解”[10][23] “锯齿状前沿”与AGI发展路径 - AI能力增长是极不均匀的“锯齿状前沿”,某些领域(如围棋、代码)已远超人类,而另一些基础能力(如计数、空间理解)却依然脆弱[5][41] - 目前大多数关于AGI的讨论建立在“平滑前沿”的错误假设上,误以为AI会突然全面超越人类[5][40] - 未来最危险的不是AI不会思考,而是人类误以为它已经会思考[5] - 对“锯齿状前沿”的讨论不足,例如哪些领域适合优先达到超人水平、AI在计数等关键能力上的落后可能引发严重后果,都未被充分重视[41][42][43] Google早期AI发展与大模型演进关键节点 - Google Brain早期(约40-50人)环境开放,强调想法分享和真正影响产品,Sequence to Sequence、Transformer等奠基性工作集中出现在3到4年的时间窗口里[11] - 转折点是PaLM 2(曾用名GLaM),从纯粹研究项目变为Google必须拥有的模型,训练完成后几周到几个月内就部署到三四十个产品中,速度在Google内部非常罕见[14] - 在PaLM 2时期,公司内部激烈的争论主要在技术架构(如是否继续使用自回归和因果注意力),而非安全伦理,后者已有成熟机制处理[15] 当前AI安全与Agent的挑战 - 当前模型的安全机制主要保护普通用户,对于有技术能力的人依然能被绕过(jailbreak)[16] - 更值得担忧的是未来AI Agent的安全,因为语言模型无法区分“来自互联网的信息”和“用户真正的指令”,存在严重安全漏洞[16][17] - 如果AI Agent能读取邮件、浏览网页,这些“未经清洗的输入”在传统计算机科学中本身就是安全风险[10][16] 创业方向选择:专注视觉推理与多模态 - 没有选择做另一个通用大模型(Frontier Lab),而是专注于构建前沿视觉推理模型(Frontier Visual Reasoning Model)[20][36] - 认为多模态能力与代码能力之间存在根本性张力,加入大量多模态数据会损害编码能力,反之亦然,因此未来将是“专精化Frontier Model”的时代[10][25] - 目标是构建专门针对多模态推理优化的模型,从数据、架构、算法到强化学习全部围绕此设计[10][25] 对世界模型(World Model)的看法 - 现在的世界模型大概相当于语言模型二十年前的阶段,还很不成熟,很多只能在单GPU上运行[10][26] - 担忧许多世界模型路线忽视了过去十年基础模型积累的技术与知识,正确的方向不是推倒重来,而是在现有基础上融合新方法[27] - 从哲学上看,Meta的模型更像“4D时空表示模型”,而World Labs更接近“视频生成模型”,但两者目标相似,都认为视觉是实现目标的核心路径[27][28] 视觉推理的核心价值与市场机会 - 真正的推理底层基质是视觉和多模态,文字推理是建立在其上的高级抽象,当前大模型建立在文本空间,天然缺少现实世界中的许多关系(如物体旋转不变性、物体恒存性)[29] - 视觉推理不仅帮助视觉任务,还可能助力更复杂的软件系统设计、数学几何问题、长文档生成等,因为人类复杂思考本质需要视觉落地[31] - 视觉推理是优秀机器人系统中的关键路径之一,当前机器人视觉语言动作模型在视觉推理层依然非常薄弱[32][33] - 目标合作领域是工程、建筑、工业设计等“视觉推理能力直接决定公司核心竞争力”的行业[38][40] 开源与闭源的未来趋势 - 2023年是“开源模型之年”,开源模型快速逼近闭源能力,为新公司降低了门槛,但Andrew认为这是一个特殊的“黄金机会窗口”,不会长期存在[18] - 随着算力投入高达百亿美元级别,商业模式必须考虑回报,未来最强模型的开源策略会变化,时间差可能从几个月变为一年[34] - 未来最强大的模型会越来越深入垂直领域(如药物研发、工业设计),创造巨大商业价值,因此会更闭源;开源模型更多存在于应用层与日常场景[35] - 开源不会消失,但形态可能不会像2025年那样,开源社区在迭代新架构等方面依然有价值[35] 创业公司Elorian AI的策略与规划 - 公司从注册到签署投资条款书(term sheet)整个过程不到一个月,融资速度特别快,因为认为AI发展速度连一周都不能浪费[21] - 强调“人才密集、低ego”的团队文化,认为真正高效的AI团队不一定需要巨大规模,而是专注、世界级的小团队加上充足算力[19][20][22] - 注重“照顾员工”,认为融资太多、初始估值过高对早期员工未必是好事,会使其失去“从0到10亿美元”的成长空间[10][21] - 计划在2024年晚些时候公开发布其前沿视觉推理模型,发布前会在更多视觉推理基准上达到领先(SOTA),并给部分合作伙伴提供早期访问[36][37]

Z Tech|对话Andrew Dai:14年DeepMind生涯,见证PaLM到Gemini,下一站押注视觉推理 - Reportify