大一统模型
搜索文档
至简贾鹏:最快具身独角兽半年融资 20 亿,做 “六边形战士” 才能活
晚点Auto· 2026-03-23 16:50
公司概况与融资 - 至简动力是一家具身智能创业公司,成立于2025年7月,在半年内完成5轮融资,累计融资额达20亿元人民币,创下最快具身智能独角兽记录 [4] - 投资方包括元璟资本、蓝驰创投、红杉中国等一线财务投资机构,以及腾讯、阿里巴巴两家大型互联网公司 [4] 创始团队背景 - 创始人兼CEO贾鹏出生于1987年,创业前是理想汽车智驾技术研发负责人,曾于2016年初作为英伟达中国智驾团队一号员工亲历产业拓荒,后加入理想汽车带领智驾团队实现逆袭 [4] - 联合创始人是贾鹏的前上司、理想汽车前CTO王凯,以及并肩作战五年的理想智驾前量产负责人王佳佳 [4] - 投资方评价创始团队经历了自动驾驶从学术研究到产业落地的完整链路,具备很强的心性和组织力 [5] 创业动机与时机判断 - 贾鹏在2024年底开始思考创业,触发点是看到特斯拉FSD v14和理想汽车自研的“双系统”验证了数据驱动范式,认为自动驾驶技术方法已走到终局,是时候做新的事情 [7] - 在评估大模型、AI Agent、AI硬件等方向后,认为具身智能终局规模足够大、AI是核心驱动力,且与自身软硬件算法结合的背景最契合 [8] - 行业目前正处于从学术研究(to A)向商业落地(to B)转换的阶段,创业窗口期可能持续到2025年底或2026年初,仍有新公司入场空间 [9] - 具身智能相比大模型创业窗口期更长,原因在于其技术范式未收敛、先天缺乏数据、且物理任务容错率极低,机器人任务成功率必须接近100%才能工作 [10] 公司战略与定位 - 公司核心理念是“大道至简”,认为越简单的东西越容易规模化,致力于追求结构简单的模型、产品和组织 [6][22] - 公司定位是成为“六边形战士”,即具身大脑、本体、产品、品牌、组织、战略都要强的深度集成型玩家,参考了特斯拉、华为在自动驾驶领域的成功路径 [6][23] - 公司判断具身智能的终局格局将是“分散垄断”:人形机器人会占据最大市场,但在各种垂直领域和场景中,也会存在大量比人形高效的机器人形态,每个垂直领域可能产生几家头部公司 [6][24] - 公司认为行业未来可能存在水平分工:巨头可能提供底层的通用多模态模型作为生态底座,而具身智能公司则基于此,利用自有数据、具身模型与硬件进行落地应用 [25] 技术路径与研发重点 - 研发分为三层:最底层是Infra(基础设施),包括云端世界模型、关键零部件、本体及训练推理框架;中间层是具身基础模型;最上层是面向工厂、商超、物流等场景的应用层 [27][33] - 公司坚持研发“大一统”的一体化模型,旨在整合双系统、端到端VLA、世界模型等多种技术流派的能力,参考了OpenAI GPT-4o/5和谷歌Gemini的演进路径,以及特斯拉FSD v14和理想汽车i8量产方案的技术思路 [6][28][29] - 公司相信AI竞争的本质是体系效率的竞争,因此创业前半年主要专注于构建数据处理、训练、推理优化等Infra地基能力 [27][52] - 在硬件形态上,公司目前采用上半身双臂、下半身轮式的“半人形”设计,认为在现有应用场景下这是效率最高、最通用的方式,并坚持根据当前模型需求定义硬件,避免过度设计 [40] 数据获取与认知 - 公司认为真实数据是模型迭代的主力,商业化与数据获取是一体的,只有把产品卖出去才能获得无可替代的“真实用户的真实场景数据”,用于解决最后10%的长尾问题 [30] - 合成数据的作用被认可为“扩增”,即在捕获罕见真实案例后,通过合成管道构造更多相似数据,但绝非主力 [6][31] - 公司借鉴了特斯拉的“影子模式”进行模型评估,即在真实场景中用额外算力对比测试新老模型与人类驾驶行为 [30] - 行业已找到通过可穿戴设备大规模采集多样化半真机数据的方式来解决数据来源问题 [30] 商业化落地策略 - 公司判断具身智能商业化的条件是:基于60-70分的具身基础模型,能将单一任务成功率做到接近100% [34] - 公司优先选择“端到端”的任务场景,例如从仓库取料、上料、下料、质检到去毛刺的完整流程,这类任务标准化程度高、能获得多样化数据、节拍要求不过快,且便于模型统一迭代技能集和跨场景快速落地 [35] - 明确排除现阶段进入成熟流水线替代工位,因为当前硬件在速度、散热、寿命上无法满足高节拍要求,且容错率太低、动作单一 [35] - 公司现阶段技术可实现的是“通用的移动”+“物品泛化”+“简单通用操作”的结合,目标应用领域包括柔性生产、散件生产以及商超的理货、补货、整理仓库等任务 [36] - 公司预估这类端到端任务的市场规模可达一年几十亿元人民币收入 [37] - 进入家庭(to C)场景的前提是解决安全交互问题,技术路径上需先后解决物品泛化、通用操作、环境泛化、灵巧手操作,最后是与人交互的泛化;场景路径上则从工业、物流、商业逐步过渡到家庭 [38] 组织管理与文化 - 公司目前约80人,采用极度扁平化的“开荒”模式,没有固定组织架构,人员直接挂在三位创始人之下,鼓励员工跨领域尝试,每人可能同时覆盖两到三件事 [41] - 三位创始分工明确:贾鹏负责算法、基模和推理框架等Infra;王佳佳负责硬件、底层软件和产品;王凯负责融资、财务、法务等战略管理与资源把控;重大决策由三人组成的战略委员会讨论,最后由贾鹏拍板 [39][41] - 公司文化强调战斗力,旨在打造能打硬仗的特种兵团队,并借鉴了特斯拉Autopilot团队和OpenAI产品团队的小体量、快迭代模式 [44][48] - 公司从理想汽车CEO李想处学到的重要经验包括:“技术要服务产品,产品要服务商业”;重视组织文化以凝聚团队;以及决策权需要集中 [10] 行业挑战与展望 - 当前行业最大挑战之一是硬件不成熟,存在一致性差(同型号本体行为不同)、可靠性低(返修率近100%)等问题,机器人硬件尚处于“手搓”阶段,缺乏工业化标准 [45] - 预期到2026年底,硬件的一致性和稳定性会有显著提升 [46] - 行业可能在未来一两年经历“百家争鸣”的泡沫阶段 [46][47] - 到2026年,行业技术范式和数据路径预计将逐渐收敛,各公司在模型和数据闭环上的思路会趋同 [49] - 公司认为具身智能的竞争本质是体系的竞争,最终比拼的是体系能力,任何单点长板都不足以支撑公司持续经营 [3][48] - 公司希望在未来两三年达到类似2020年特斯拉的状态,即当产品市场契合点跑通时,公司的Infra和技术储备能立刻跟上,甚至成为新范式的创造者 [52]
至简贾鹏:最快具身独角兽半年融资 20 亿,做 “六边形战士” 才能活
晚点LatePost· 2026-03-23 10:06
公司概况与融资 - 至简动力是一家中国具身智能创业公司,自2025年7月成立以来,半年内融资20亿元人民币,创下最快具身智能独角兽记录[2] - 公司已完成5轮融资,投资方包括元璟资本、蓝驰创投、红杉中国等一线财务机构,以及腾讯、阿里两家大型互联网公司[2] 创始团队背景 - 创始人兼CEO贾鹏为1987年出生,创业前是理想汽车智驾技术研发负责人,2016年初成为英伟达中国智驾团队一号员工[2] - 两位联合创始人是贾鹏的前上司、理想前CTO王凯,以及与其并肩战斗五年的理想智驾前量产负责人王佳佳[3] - 投资方认为创始团队经历了自动驾驶从学术研究到产业落地的完整链路,有很强的组织力,并亲历了产业从拓荒、低谷到再次崛起的周期[3] 创业动机与行业判断 - 贾鹏在2024年底开始思考创业,触发点是看到特斯拉FSD v14和理想自研的“双系统”验证了数据驱动范式,认为自动驾驶技术方法可能已走到终局[5] - 在评估大模型、AI Agent、AI硬件等选项后,认为具身智能终局规模足够大,AI是核心驱动力,且与自身软件、硬件、算法强结合的背景最契合[6] - 李想(理想汽车创始人)对其创业的评价是:此刻做具身创业问题不大,方向、时间都OK,行业里第一个做的通常会死,但最后成功的一定是第一批[4][7] - 判断具身智能正处于从to Academic到to Business的转换阶段,新公司入场空间可能持续到2025年底至2026年初,其窗口期比大模型长,因为具身智能范式未收敛、先天缺数据、且容错率极低[7][8] 公司定位与发展策略 - 公司定位为“六边形战士”,强调具身大脑、本体、产品、品牌、组织、战略都要强,目标是成为像特斯拉、华为那样的深度集成型玩家[3][21] - 公司名称“至简动力”(英文名Simplexity Robotics)体现了“大道至简”的理念,认为越简单的东西越容易规模化,因此追求模型结构、产品和组织的简单[4][20] - 公司研发分为三层:最底层是Infra(基础设施),中间层是具身基础模型,最上面是面向工厂、商超、物流等场景的应用层[25][31] - 当前阶段主要专注于建立扎实的Infra能力,在几个小场景实现闭环,收敛方法论后再进行扩张[3][51] 技术路径与模型选择 - 坚持做“大一统”的模型,希望将双系统、端到端VLA、世界模型等能力整合在一起,参考了特斯拉FSD v14、理想i8量产方案以及OpenAI GPT-4o/5、Google Gemini的发展路径[3][26][27] - 认为简单改造大语言模型(LLM)或视觉语言模型(VLM)做不好具身,因为VLM缺乏空间理解、推理和生成能力,但大公司探索的通用基础模型可以为具身行业所用[23] - 在数据获取上,强调真实数据是主力,合成数据主要用于“扩增”罕见的长尾问题。商业化与数据获取是一体的,只有把产品卖出去才能获得“真实用户的真实场景数据”[28][29] - 借鉴了特斯拉“影子模式”的数据评估方法,即在真实场景中用额外算力对比测试新老模型与人类驾驶行为[28] 市场判断与终局展望 - 认为具身智能最大的机会是家庭机器人,会进入每个家庭甚至一人一台,其驱动力包括社会服务将因人口结构变化(如新生儿从1700万降至900万)而变得昂贵和稀缺[22] - 判断行业格局将比智驾、手机更分散,可能形成“分散垄断”:人形机器人占据最大市场,但在各种垂直场景中,也会有大量比人形高效的机器人形态,几十个垂直领域可能每个都有几家头部公司[3][22] - 巨头可能去做生态底座,提供底层的通用模型,而上层则由不同具身智能公司用自有数据、模型与硬件去落地[23] - 预测到2026年底,硬件的一致性和稳定性会提升很多,技术范式和数据路径会逐渐收敛[45][48] 产品与场景选择 - 优先选择“端到端”的任务,例如从仓库取料、上料、下料、质检、去毛刺再回仓库的全流程,而非替代成熟流水线上的单一工位[33] - 选择标准包括:任务标准化未来可规模化、能拿到多样化数据迭代模型、节拍不能太快。避免节拍要求高、容错率极低、动作单一的场景[33] - 现阶段技术能做到的是“通用的移动”+“物品泛化”+“简单通用操作”,聚焦于移动能力已相对成熟、需要物体泛化但不需要高难度灵巧操作的场景,如商超的理货、补货、整理仓库[34][35] - 预估这类端到端任务的市场规模可达一年几十亿人民币收入[35] - 进入家庭(to C)的前提是解决安全交互问题,技术上需先解决物品泛化、通用操作、环境泛化、灵巧手操作,最后是和人交互的泛化;场景上会遵循先工业、物流、商业,最后是家庭的路径[36] 硬件策略 - 目前硬件形态为半人形:上半身双臂,下半身轮式,认为在现有应用场景下这是效率最高、最通用的方式[38] - 坚持根据当前模型需求定义硬件(Simplexity),避免硬件团队在无意义的地方过度设计。例如,现阶段模型用不起高自由度的全人形硬件[38] - 认为硬件是行业目前重要但少被讨论的问题,典型问题包括一致性差(同型号本体行为不同)、可靠性低(返修率近100%),机器人硬件还处于“手搓”阶段[44] 组织与文化 - 公司目前80多人,没有固定组织架构,人员直接挂在三位创始人(贾鹏、王佳佳、王凯)之下,处于“开荒”阶段,鼓励员工跨领域尝试,每个人可能同时负责两三件事[39][41] - 分工明确:贾鹏负责算法、基模和推理框架等Infra;王佳佳负责硬件、底层软件和产品;王凯负责融资、财务、法务。重大决策由三人组成的“战略委员会”讨论,贾鹏拍板[39] - 组织对标特斯拉的Autopilot团队和OpenAI产品团队,追求小团队、扁平化、快速迭代,不讲究复杂流程[43] - 从李想身上学到的重要经验包括:“技术要服务产品,产品要服务商业”;要在意组织文化;决策权要集中[8] 行业挑战与竞争 - 认为行业总会经历“百家争鸣”的泡沫阶段,可能就在当前这一两年[45][46] - 具身的量产落地是体系化作战,必须建立全栈能力,不能有短板,任何单点长板都不足以支撑一家公司持续经营[47] - 担心的风险包括头部公司上市后的虹吸效应,它们融资效率更高、确定性更强,对人才吸引力更大[51] - 公司的目标是,在两三年后达到类似2020年特斯拉的状态,即当行业产品市场契合点(PMF)跑通时,公司的Infra和技术储备能立刻跟上,甚至成为范式的创造者[51]
贾鹏GTC2026讲灵巧手的强化学习框架完整图文版/压缩版/视频版
理想TOP2· 2026-03-16 14:34
公司概况与核心方法论 - 至简动力是一家专注于具身智能的初创公司,在半年内完成5轮融资,累计融资额达20亿人民币[1] - 公司核心团队拥有深厚的行业背景,CEO为前理想智能驾驶技术研发负责人贾鹏,董事长为前理想CTO王凯,COO为前理想智驾量产负责人王佳佳[1] - 公司提出了一套解决具身智能落地核心矛盾的方法论,包含四个关键方面:构建更高上限的一体化模型、采用更高效的数据采集方式、使用更高效的强化学习框架、实现端侧推理和训练[3][42][44][120] 行业挑战与公司目标 - 当前具身智能面临的核心难题是模型的**泛化能力差**与**用户要求100%成功率**之间的巨大现实鸿沟[2][36][37][40] - 在工厂等应用场景中,只有达到100%的成功率才能真正形成生产力,但现有模型在物体位置或光照条件改变时都可能失败[37][39] - 具身基础模型规模大、机器人硬件结构复杂,导致系统执行效率不高,难以满足工厂等高节拍场景的需求[38] 基座模型技术路线与设计理念 - 行业基座模型技术路线尚未收敛,存在三大流派:**双系统VLA**、**端到端VLA**和**世界模型**[4][49] - **双系统VLA**:用一个较大的视觉语言模型(VLM)进行理解和任务拆解,再用一个较小的模型快速执行,可处理长程任务,但两个模型协同和联合训练困难[4][5][52] - **端到端VLA**:将指令理解、任务拆解及动作生成合为一体,但基于预训练VLM继续训练时易发生**视觉能力**和**语言CoT能力**的灾难性遗忘,严重影响泛化能力[6][7][53] - **世界模型**:不以VLM为基础,基于视频或高斯生成模型,实现了从以语言为中心到以视觉为中心、从理解为主到生成为主的范式转变,泛化能力强但伴随幻觉问题,且在灵巧操作上性能未超越VLA,算力要求高[8][53] - 至简动力的模型设计理念是 **“Simple Scalable”**,追求结构简单以获得更好的扩展效率[8][53] - 公司认为具身基座模型需要四种核心能力:1) 对多模态信息(语言指令、任务逻辑、3D时空变化、本体状态)进行统一建模和理解[9][10][54];2) 与世界进行闭环交互,实现多模态联合生成[11][55][56];3) 具备高实时性[11][56];4) 具备自我状态评估并调整动作的能力[11][56] 至简动力的“大一统”模型架构 - 公司认为具身基座模型的发展趋势是 **“Unification”(大一统)**,即未来通用模型将是一个大一统模型[12][57] - “大一统”包含四个层面的一体化:**多模态理解一体化**、**多模态生成一体化**、**快慢思考一体化**(模型自适应选择深度思考或快速执行)、**Policy和Critic一体化**(模型能执行动作也能评估和调整策略)[13][58][59][60] - 公司采用 **MoT(Mixture-of-Transformers)** 架构来实现单一Transformer处理多模态,其核心是不同模态通过共享Attention实现信息交互,同时保留独立的子网络[15][16][63][64] - MoT的优势在于能复用单模态基础模型,**成本非常低**,且扩展新模态**非常灵活方便**,这对需要多种模态的具身智能至关重要[17][18][65][66] - MoT天然兼容**自回归**和**扩散**两种生成方式,实践中发现扩散模型在3D动作生成上效果优于自回归模型[19][20][67] 核心模型:LaST-0 的性能与特点 - 至简动力推出的具身基座模型名为 **LaST-0**,它初始化自一个理解生成合一的基座模型,引入了 **Latent CoT**,结合了VLA和世界模型的优点[20][69] - LaST-0在紧凑的潜在空间中同时自回归地预测二维图像、3D点云及本体感知状态,实现**多模态的CoT**,并将隐式CoT扩展到未来关键帧,实现时空预测和生成[21][69][70] - 模型设计发现,每个模态仅需一个token即可,增加token数量对成功率提升不显著;时序预测越长,模型效果越好,且模型能自适应调整不同任务所需的预测时长[21][73][74][75] - 在仿真和真实场景的评估中,LaST-0均实现了SOTA(State-of-the-Art)性能,并且**比显式CoT的方法实现了约14倍的加速**[21][78] - LaST-0具备良好的容错和恢复能力,并能从桌面操作泛化到移动操作、双臂协作及高自由度人形机器人的复杂关节操作[79] - 该模型已成为北美顶尖实验室对比的基线模型[80] VLA模型泛化能力问题的根源与解决方案 - 基于VLM进行后训练会导致**灾难性遗忘**,尤其是视觉能力的遗忘,严重影响泛化能力和精细操作[7][53][81] - 分析发现,随着Transformer层数加深,**视觉特征逐渐减弱甚至消失**,这是VLA模型泛化能力差的根本原因[22][82] - 至简动力通过**MoT架构**,将视觉特征注入到更深层的Transformer层,从而大幅提升模型性能[23][84] 数据采集策略 - 行业获取数据主要有四种方法:**合成数据**、**真机数据采集**、**半真机采集**(如UMI)、**人类第一视角(Ego-centric)视频数据**[24][25][26][27][92][93][94] - 合成数据可快速规模化,但在模拟柔性物体、触觉力觉等方面不足[24][92] - 真机数据效果好,但采集效率低下[25][93] - 半真机采集效率高,但硬件(末端执行器)需与真机一致,限制使用范围[26][94] - 人类第一视角视频数据来源广,但质量不高,缺乏力觉、触觉等精细信息[27][94] - 至简动力选择使用**便携式手套**进行数据采集,该方案能保证数据效果和质量,方便扩展触觉、力觉等模态,是公司认为目前数据规模化的最佳方案[28][94] - 便携式手套采集的数据不仅能满足海量预训练需求,其高质量也能满足**SFT(监督微调)** 的要求,且工厂工人配合意愿高,不影响工作效率还能获得额外收入[28][95][96][99] 强化学习框架:Twin-RL 与 Double-L RL - 为实现单一任务100%的成功率,行业共识是使用强化学习,但当前面临**效率低下**和**容易过拟合**两大问题[102] - 至简动力提出 **Twin-RL虚实结合框架**,通过3DGS(3D Gaussian Splatting)将场景重建为虚拟数字孪生,在虚拟环境中放大模型探索空间并并行训练以提升效率,同时锁定易出错位置来指导真机强化学习,提升Human-in-the-loop效率[30][31][105] - 针对强化学习监督信号稀疏(只有成功/失败)的问题,公司提出 **Double-L强化学习框架**,利用基座模型生成的稠密时空潜在特征,在**Latent Feature生成**和**Action生成**两个层面进行双重强化,提升学习效果和效率[32][107] - 采用该方法,在大多数下游任务中,公司可以在**两分钟内实现100%的成功率**,且该成功率具备泛化性[110] 端侧部署与训练 - 为满足工厂对节拍、延迟的高要求及保密需求(不允许接入网络),系统必须具备**端侧实时推理和训练**能力[44] - 在英伟达的帮助下,公司进行了大量端侧优化,**全球第一个实现大模型在端侧部署并大规模量产**,并**在行业内第一个实现了端侧训练**[45][117] - 使用英伟达FP16、FP8混合精度训练和Video-training框架,训练效率提升,显存需求大幅减少[32][117] - 在产品上,普通工人**无需编程**,仅通过简单的拖动和语音指导,就能教会机器人完成新任务,提升了产品力和性价比[32][117] 总结与愿景 - 至简动力形成的方法论旨在推动具身智能从演示走向真实生产力,核心是:更高上限的一体化模型、更高效的数据采集、更高效的强化学习框架、端侧推理和训练框架[120] - 通过该方法论,公司能在保证模型泛化性的同时,在最短时间内实现单一任务100%的成功率[120] - 未来公司将通过**数据飞轮效应**持续提升基座模型的通用能力,实现各种场景下的泛化,最终实现通用具身智能[120]
Gemini灵魂人物、传奇工程师Jeff Dean最新访谈:未来人均50个虚拟实习生,用不上专家了!
AI前线· 2026-02-17 15:03
文章核心观点 - 谷歌首席AI科学家Jeff Dean认为,AI发展正进入“大一统模型”时代,通用模型的能力将超越专用模型,未来将是专用模块与模块化基座模型组合的形态,模型知识将可像软件包一样安装和调用 [57][59][62] - 模型能力的持续提升将改变人机协作模式,未来个人可能管理由大量AI智能体组成的“虚拟实习生”团队,从而极大提升生产力 [75][77] - 行业发展的关键驱动力在于通过硬件与模型的协同设计、算法创新(如蒸馏、推测解码)以及系统级优化,来突破当前以能耗和延迟为核心的瓶颈,实现成本下降和能力跃迁 [14][35][43][48] 模型战略与架构演进 - 公司采取双线并行的模型策略:一方面研发高端前沿模型用于深度推理等复杂任务,另一方面通过蒸馏等技术将大模型能力迁移至低成本、低延迟的轻量模型,以服务更广泛的场景 [7] - 蒸馏是模型能力迁移和Flash系列模型性能突破的核心技术,其本质是将大模型(或集成模型)的知识“压缩”到小模型中,使得新一代轻量模型能达到甚至超越上一代大型模型的效果 [9][10] - 公司认为,长上下文处理能力具有真实价值,但当前基于注意力机制的方案存在平方级复杂度瓶颈,未来的突破在于构建能营造“处理万亿token”效果的系统,而非单纯扩大窗口 [17][18] - 多模态是模型的根本设计原则,不仅包括文本、图像、视频、音频等人类模态,也应涵盖机器人传感器数据、医疗影像、基因组信息等非人类模态,以建立对世界的广泛理解 [20] 硬件协同设计与能效瓶颈 - 能耗而非纯粹算力正成为AI发展的真正瓶颈,数据在内存层级间搬运的能耗(可达1000 pJ)远高于实际计算操作的能耗(约1 pJ),这从根本上解释了批处理(batching)等技术对提升能效的重要性 [34][35][37] - 公司通过硬件(TPU)与前沿机器学习研究的协同设计来保持领先,芯片设计需提前预测未来2-6年的计算需求,同时模型架构也会根据硬件特性进行反向调整以实现最高效的训练和推理 [43][46] - 极低精度计算(如三值精度)是降低能耗的关键方向之一,结合权重缩放因子可在保持模型效果的同时大幅减少数据比特传输 [47] - 推测解码(Speculative Decoding)等算法能有效提升推理效率,其原理是用小模型草稿预测多个token,再由大模型验证,从而摊薄权重加载的成本,实现几倍的提升 [48] 研发、评估与规模化部署 - 公司使用不公开的内部基准来推动模型能力升级,这些基准确保训练数据无泄露,代表了模型尚未具备但希望获得的能力,以此指导数据、架构或训练方法的改进 [16] - 模型规模化部署的历史经验表明,当系统规模发生数量级变化时,架构可能发生根本性变革,例如谷歌搜索在2001年将全量索引放入内存,从而从字面匹配转向语义理解,这为当前大模型系统的设计提供了思路 [24][25][26] - 在资源分配上,公司曾意识到分散化研发会导致算力和人才碎片化,因此通过整合团队和资源,集中力量打造了从头设计、统一多模态的Gemini项目 [73] 未来方向与行业影响 - 通用模型的能力正在快速泛化,过去需要专门系统(如AlphaProof)解决的复杂任务(如国际奥数),现在仅靠统一大模型增加推理资源即可应对,这降低了对领域专家的依赖 [52][56][57] - 未来理想的模型架构是“基座模型+可安装知识模块”的组合,用户可根据场景调用不同的专业模块(如超强医疗模块、机器人模块),同时结合检索系统来获取最新或私有知识,而非将所有知识都预训练进参数 [59][61][62] - 个性化模型能访问用户授权的个人数据(邮件、文档、照片等),相比通用模型将带来巨大的价值提升 [86] - 低延迟交互体验至关重要,公司预测未来硬件和系统的进步可能将延迟降低20-50倍,达到每秒数千甚至上万token的生成速度,这将使得多轮、复杂的思维链推理成为可能,彻底改变编程等工作方式 [85][86]
Diffusion 一定比自回归更有机会实现大一统吗?
机器之心· 2025-08-31 09:30
Diffusion架构与自回归架构在多模态大一统模型中的对比 - 多模态能力被视为实现人类级别智能的必要条件 构建大一统模型成为关键目标 旨在用单一架构统一处理文本 图像 音频 视频 3D模型及机器人动作信号等异构数据类型[8] - 自回归架构长期主导多模态领域 Transformer系列LLM从NLP扩展至多模态 催生LLaVa Qwen-VL InternVL Ovis和GPT4等模型[8] - 扩散架构原主要应用于视觉生成领域 如Stable Diffusion和DiT 但近期扩散语言模型在NLP任务突破 重新引发对其实现多模态大一统潜力的关注[8] Diffusion架构的理论优势与潜力 - 扩散范式天然支持并行生成 精细化控制和动态感知 这些是自回归模型难以实现的能力[9] - 离散扩散架构被强调为替代自回归实现多模态统一处理的潜在方案[9] - 扩散语言模型通过并行生成和迭代式去噪解决自回归模型推理速度瓶颈 具有扩展至其他模态的潜力[9] 生成式建模的信息论基础 - 自回归模型本质是预测下一个token 通过最小化序列描述长度实现无损压缩 尤其适应NLP任务[9] - 多模态自回归模型需将输入转换为一维序列 早期使用双编码器架构分别处理图像文本 后转向仅解码器架构并通过连接器转换图像嵌入[10] - 扩散架构本质是纠错机制 正向加噪和反向去噪过程同样构成强大压缩框架 且支持两种压缩模式[11]