行业趋势与拐点 - 人工智能正处于第三次浪潮的关键拐点,大模型正推动AI从弱智能向通用智能跨越,并有望推动机器人从1.0专用时代迈入2.0通用具身智能时代 [3][13][17] - 行业发展的核心方向是推动人工智能从数字世界进入物理世界,实现深度交互需突破多模态理解与具身执行的核心技术瓶颈 [4][7] - 2025年往后,第三代Scaling范式的关键在多模态,人工智能将从“语言学习”进入“多模态世界学习”的新阶段 [17][23] 多模态世界模型:悟界·Emu3.5 - 全球互联网的文本数据已基本挖掘完毕,但视频作为包含时间、空间、物理、因果关系及意图的高效载体,其数据尚未被充分利用,是多模态Scaling的广阔空间 [1][17][20][24] - Emu3.5是一个从长视频中学习的多模态世界模型基座,其核心是将大语言模型的Next-Token Prediction升级为在多模态数据上的Next-State Prediction [2][17][22] - 相比上一版本,Emu3.5训练数据集中视频总量从15年提升至790年,参数量从8B提升至34B [23] - 模型采用全自回归架构,并通过自研的DiDA技术将每张图片的生成速度提升约20倍,使文生图速度媲美世界顶级模型 [23] - 在图像编辑、虚拟转现实、视角转换及下一个状态预测等任务上,Emu3.5展现出强大的多模态理解、推理与生成能力,与业界领先模型相比表现可圈可点 [25][27][28][29] - 该模型具备长时空序列视觉故事生成、视觉指导生成等能力,并且已全开源 [31][32] 具身智能与全栈技术 - 当前具身大模型面临“不好用、不通用、不易用”的挑战,即未达ChatGPT时刻、跨本体适配性差、大脑小脑与本体适配难度高 [17][34] - 公司构建了以具身大脑Robo Brain为核心的自底向上全栈技术体系,旨在破解上述难题 [35] - 发布了RoboBrain2.0,能拆解人类复杂指令并根据环境分配给不同类型机器人执行 [35] - 发布了具身小脑基座模型RoboBrain-X0及其升级版X0-Pro,为零样本泛化和少样本微调下驱动多种真实机器人完成复杂任务提供了跨本体基座 [36] - 在人形机器人全身控制方面,其BAAI Thor框架驱动35千克的机器人拉动了1.4吨的汽车,并实现了连续28个空翻 [36] 开源开放与产业贡献 - 公司坚持开源开放,过去两年多开源了200多个模型(涵盖语言、多模态、具身模型等),全球下载量突破6.9亿次 [17][38] - 开源了100多个数据集(涵盖语言、语音、图像、视频和具身智能等),全球下载量超过400万次 [17][38] - 近期开源的一个高质量双臂操作数据集,在20天内全球下载量突破130万次 [37] - 在具身智能领域,已与国内头部30余家机器人企业和机构开展合作,旨在协同推动产业发展 [38]
训练仍有巨大的Scaling空间!智源研究院王仲远:视频数据还未被充分利用 | MEET2026
量子位·2025-12-24 15:20