Z Tech｜对话Andrew Dai：14年DeepMind生涯，见证PaLM到Gemini，下一站押注视觉推理

Andrew Dai的行业背景与创业动机 - 在Google工作超过14年，深度参与从早期预训练、监督微调论文到PaLM、Gemini等关键大模型的演进，并负责Gemini核心数据体系[2][7] - 行业更稀缺的价值在于同时站在研究、系统与产品三条线的交汇处[2] - 选择离开Google并创办Elorian AI，核心原因是认为当前大模型缺乏对世界的底层理解，并看到了视觉推理领域的创业时机[4][18] 对大模型现状的核心批判：缺乏真正的“理解” - 当前前沿大模型本质上仍在“文本空间”中进行推理，但现实世界并非文本构成，模型缺少空间感知、物理理解和视觉推理等最底层的“世界理解”[4] - 模型生成能力很强，但“生成”不等于“理解”，例如让模型生成装有10个球的盒子后再问数量，它依然可能答错[3][4][24] - 多模态模型能生成逼真图像视频，但专业人士能轻易发现如“六根手指”等错误，现阶段只是“看起来像理解”[10][23] “锯齿状前沿”与AGI发展路径 - AI能力增长是极不均匀的“锯齿状前沿”，某些领域（如围棋、代码）已远超人类，而另一些基础能力（如计数、空间理解）却依然脆弱[5][41] - 目前大多数关于AGI的讨论建立在“平滑前沿”的错误假设上，误以为AI会突然全面超越人类[5][40] - 未来最危险的不是AI不会思考，而是人类误以为它已经会思考[5] - 对“锯齿状前沿”的讨论不足，例如哪些领域适合优先达到超人水平、AI在计数等关键能力上的落后可能引发严重后果，都未被充分重视[41][42][43] Google早期AI发展与大模型演进关键节点 - Google Brain早期（约40-50人）环境开放，强调想法分享和真正影响产品，Sequence to Sequence、Transformer等奠基性工作集中出现在3到4年的时间窗口里[11] - 转折点是PaLM 2（曾用名GLaM），从纯粹研究项目变为Google必须拥有的模型，训练完成后几周到几个月内就部署到三四十个产品中，速度在Google内部非常罕见[14] - 在PaLM 2时期，公司内部激烈的争论主要在技术架构（如是否继续使用自回归和因果注意力），而非安全伦理，后者已有成熟机制处理[15] 当前AI安全与Agent的挑战 - 当前模型的安全机制主要保护普通用户，对于有技术能力的人依然能被绕过（jailbreak）[16] - 更值得担忧的是未来AI Agent的安全，因为语言模型无法区分“来自互联网的信息”和“用户真正的指令”，存在严重安全漏洞[16][17] - 如果AI Agent能读取邮件、浏览网页，这些“未经清洗的输入”在传统计算机科学中本身就是安全风险[10][16] 创业方向选择：专注视觉推理与多模态 - 没有选择做另一个通用大模型（Frontier Lab），而是专注于构建前沿视觉推理模型（Frontier Visual Reasoning Model）[20][36] - 认为多模态能力与代码能力之间存在根本性张力，加入大量多模态数据会损害编码能力，反之亦然，因此未来将是“专精化Frontier Model”的时代[10][25] - 目标是构建专门针对多模态推理优化的模型，从数据、架构、算法到强化学习全部围绕此设计[10][25] 对世界模型（World Model）的看法 - 现在的世界模型大概相当于语言模型二十年前的阶段，还很不成熟，很多只能在单GPU上运行[10][26] - 担忧许多世界模型路线忽视了过去十年基础模型积累的技术与知识，正确的方向不是推倒重来，而是在现有基础上融合新方法[27] - 从哲学上看，Meta的模型更像“4D时空表示模型”，而World Labs更接近“视频生成模型”，但两者目标相似，都认为视觉是实现目标的核心路径[27][28] 视觉推理的核心价值与市场机会 - 真正的推理底层基质是视觉和多模态，文字推理是建立在其上的高级抽象，当前大模型建立在文本空间，天然缺少现实世界中的许多关系（如物体旋转不变性、物体恒存性）[29] - 视觉推理不仅帮助视觉任务，还可能助力更复杂的软件系统设计、数学几何问题、长文档生成等，因为人类复杂思考本质需要视觉落地[31] - 视觉推理是优秀机器人系统中的关键路径之一，当前机器人视觉语言动作模型在视觉推理层依然非常薄弱[32][33] - 目标合作领域是工程、建筑、工业设计等“视觉推理能力直接决定公司核心竞争力”的行业[38][40] 开源与闭源的未来趋势 - 2023年是“开源模型之年”，开源模型快速逼近闭源能力，为新公司降低了门槛，但Andrew认为这是一个特殊的“黄金机会窗口”，不会长期存在[18] - 随着算力投入高达百亿美元级别，商业模式必须考虑回报，未来最强模型的开源策略会变化，时间差可能从几个月变为一年[34] - 未来最强大的模型会越来越深入垂直领域（如药物研发、工业设计），创造巨大商业价值，因此会更闭源；开源模型更多存在于应用层与日常场景[35] - 开源不会消失，但形态可能不会像2025年那样，开源社区在迭代新架构等方面依然有价值[35] 创业公司Elorian AI的策略与规划 - 公司从注册到签署投资条款书（term sheet）整个过程不到一个月，融资速度特别快，因为认为AI发展速度连一周都不能浪费[21] - 强调“人才密集、低ego”的团队文化，认为真正高效的AI团队不一定需要巨大规模，而是专注、世界级的小团队加上充足算力[19][20][22] - 注重“照顾员工”，认为融资太多、初始估值过高对早期员工未必是好事，会使其失去“从0到10亿美元”的成长空间[10][21] - 计划在2024年晚些时候公开发布其前沿视觉推理模型，发布前会在更多视觉推理基准上达到领先（SOTA），并给部分合作伙伴提供早期访问[36][37]