文章核心观点 - 智源人工智能研究院研发的多模态大模型Emu3在《自然》正刊发表,标志着公司在原始创新上取得里程碑式突破,并押注以自回归统一架构为核心的技术路线,该路线被认为具有架构极简、扩展潜力大和研发门槛低的优势,为人工智能迈向物理世界和具身智能提供了关键基础 [1][3][5] - 公司认为2025-2026年将是多模态模型实现重大突破并开始产业化的关键阶段,同时预判AI发展将从单智能体向多智能体协同演进,而世界模型和具身智能是未来的重要研究方向 [1][11] 技术路线与模型优势 - 技术战略选择:公司在2024年初判断语言模型技术成熟,但人工智能发展远未到尽头,因此将多模态模型和具身智能列为未来重点科研方向,并选择了以视频为主进行训练的“终极技术路线” [2][3] - 核心架构优势:Emu3采用极其简单、统一的架构,仅使用一个Transformer模型并遵循“预测下一个token”的基础学习原则,统一处理文本、图像、视频,避免了当前主流方案中组合不同模型带来的效率损耗和性能不稳定 [3] - 带来的益处:这种统一路线带来了巨大的扩展潜力和更低的研发门槛,能够充分利用大语言模型的成熟基础设施,使能力随数据算力增长可预测地提升,同时降低了技术复杂性和成本,让更多研究者能参与前沿探索 [3] - 原生多模态能力:模型从训练伊始就将多模态数据统一处理,能更深刻理解不同模态间的内在关联,并自然地完成图文并茂的教程等交错生成任务 [4] 模型迭代与性能提升 - Emu3.5的升级:后续版本Emu3.5在超过10万亿token的大规模多模态数据集上训练,视频数据训练时长从15年提升至790年,参数量从80亿(8B)上升至340亿(34B) [6] - 能力跃迁:Emu3.5展示出通过长视频学习物理世界演变规律的能力,实现了从“预测下一个词或帧”到“预测下一个状态”的跃迁,能够对时空、因果关系进行初步模拟 [6] - 达到产品级:Emu3.5相比Emu3各方面能力大幅提升,已从科研级系统达到产品级多模态模型系统 [6] 研发团队与人才理念 - 团队构成:Emu3研发团队非常年轻,负责人当时仅29岁,体现了公司“青年人挑大梁”的核心理念,公司认为AI是年轻人的事业,年轻人是推动颠覆性创新的关键力量 [1][7] - 研发过程:研发过程是一场“技术豪赌”,2024年初团队约五十人押注了与当时行业焦点(扩散模型和组合式架构)不同的自回归统一路线,并顶住了内外的质疑压力 [7][8] - 人才吸引与培养:公司对人才不看资历和“帽子”,更看重“代表作”,如高影响力论文或开源项目,公司现有230名全职研究员,团队(包括实习生)约500人,研究员平均年龄仅30岁 [8] - 资源支持:对于青年人才提出的、通过评估的项目,公司会直接给予大量算力和资金等充足资源支持,这些支持是青年学者在高校难以获得的 [9] 公司运营与体制机制 - 经费管理:公司作为新型研发机构,实行科研经费“包干制”,科研经费的自主权和使用权完全在公司,除规定红线外,从立项到购买设备再到实施完全自主,类似企业化运作但无盈利压力 [9] - 机制优势:这种体制机制创新使公司能敏锐捕捉AI发展趋势并早于其他机构进行先期布局,过往的成功案例也吸引了更多AI人才加入 [10] 行业趋势与未来展望 - 多模态发展阶段:多模态模型正处于技术开始收敛的阶段,2025年和2026年将是其实现重大突破并开始逐步进入产业化的阶段 [1][11] - 智能体演进:大语言模型已进入基座模型相对成熟、赋能千行百业的阶段,AI落地速度加快,并从单智能体向多智能体发展,多智能体通过协作能达到产品级落地效果 [11] - 前沿研究方向:世界模型的研究和重大突破正在酝酿,但其定义和技术路线尚未收敛,而模型与硬件结合的具身智能虽然火热,但在稳定性、安全性、耐用性和高质量数据方面仍面临挑战,需要扎实解决 [11]
专访王仲远:智源多模态大模型登上《自然》,背后有群年轻人
新京报·2026-02-03 22:17