行业趋势与战略定位 - 人工智能正处于第三次浪潮的关键拐点,大模型正推动AI从弱人工智能迈向通用人工智能,并有望推动机器人从1.0专用时代进入2.0通用具身智能时代 [1][3][5] - 全球互联网的文本数据已基本挖掘完毕,大语言模型的预训练进入缓慢阶段,而海量的视频等多模态数据尚未被充分利用,这构成了下一代AI发展的关键 [1][9][27] - 公司判断AI正从数字世界进入物理世界,并为此发布了“悟界”系列大模型,其名称中的“界”代表对虚实世界边界的突破,以区别于此前开启中国大模型时代的“悟道”系列 [5][28][33] 多模态世界模型:悟界·Emu3.5 - Emu3.5是一个从长视频中学习的多模态世界模型基座,其核心是将大语言模型的Next-Token Prediction范式升级为在多模态数据上进行Next-State Prediction,以预测下一个时空状态 [8][12][37] - 与上一版本相比,Emu3.5的训练数据集中视频总量从15年大幅提升至790年,参数量从8B提升至34B [13][38] - Emu3.5采用全自回归架构,并通过自研的DiDA技术将每张图片的生成速度提升约20倍,使其文生图速度可与世界顶级模型媲美 [13][38] - 该模型具备强大的多模态理解与生成能力,例如图像编辑中的语义推理、视角转换,以及在虚拟转现实、预测下一状态等任务上表现优于部分业界知名模型 [14][16][18][41][43] - 公司认为Emu3.5开启了第三代Scaling范式,即多模态Scaling,由于自回归架构可复用大语言模型基础设施,且参数量仅34B,未来仍有巨大扩展空间 [13][14][39] 具身智能与全栈技术体系 - 当前具身大模型面临“不好用、不通用、不易用”三大难题,即未达“ChatGPT时刻”、仅适用特定机器人本体、以及大脑/小脑/本体间适配难度高 [3][21][46] - 公司构建了以具身大脑Robo Brain为核心的自底向上全栈技术体系,涵盖跨异构本体的数据采集与标准化、具身大脑/小脑模型、评测及部署框架 [22][47] - 已发布RoboBrain2.0,能拆解人类复杂指令并根据环境分配给不同类型机器人执行,同时发布了具身小脑基座模型RoboBrain-X0及其升级版X0-Pro,支持零样本泛化与跨本体控制 [22][23][47] - 在人形机器人全身控制领域,公司的BAAI Thor框架驱动了35千克的G1机器人拉动1.4吨汽车,并实现了连续28个空翻 [23][48] 开源开放与产业合作 - 公司坚持开源开放,过去两年多已开源200多个模型,全球下载量突破6.9亿次,并开源了100多个数据集,全球下载量超过400万次 [3][25][50] - 近期开源的具身智能数据集表现突出,例如一个双臂操作数据集在20天内全球下载量突破130万次,11月底开源的一个具身数据集下载量已超百万次 [3][24][49] - 在产业合作方面,公司已与国内头部30余家机器人企业和机构在具身智能领域开展合作,旨在共同推动技术发展 [25][50]
训练仍有巨大的Scaling空间!智源研究院王仲远:视频数据还未被充分利用 | MEET2026
新浪财经·2025-12-24 17:47