原生多模态世界模型Emu3 - 财报，业绩电话会，研报，新闻

原生多模态世界模型Emu3

搜索文档

机器之心· 2025-06-06 17:36

AI技术发展趋势 - AI技术从理解文字进化到建模世界、操控实体、模拟大脑、解构分子 [1] - 2025年AI领域热点包括DeepSeek R1、OpenAI o3、智能体Manus、英伟达Cosmos世界基础模型等 [2] - 智源大会聚集四位图灵奖得主、三十余位大模型企业创始人及CEO、一百多位青年科学家探讨AI前景 [3] 智源「悟界」系列大模型 - 智源推出全新「悟界」系列大模型，突破虚实边界，向物理AGI迈进 [4] - 「悟界」系列包含原生多模态世界模型Emu3、脑科学模型见微Brainμ、具身智能框架RoboOS 2.0/RoboBrain 2.0、全原子微观生命模型OpenComplex2 [6] - 大模型发展从文图视频主导的数字世界进入物理世界，理解尺度从宏观跨越到微观 [8] 原生多模态世界模型Emu3 - Emu3是全球首个原生多模态世界模型，支持文本、图像、视频、声音、脑信号等多模态统一建模 [12] - 通过新型视觉tokenizer实现多模态同构表征，支持端到端多模态输入输出映射 [14] - Emu3推动AI从单一模态理解向多模态协同跃迁，加速创意生成、智能搜索等应用落地 [14] 脑科学多模态通用基础模型见微Brainμ - 见微Brainμ基于Emu3架构，统一处理MRI、EEG、双光子成像等神经信号，累计处理超100万单位数据 [15] - 支持跨任务、跨模态、跨个体建模，性能超越专用模型，成为神经科学领域的AlphaFold [15] - 具备跨物种能力，兼容人类、小鼠、狨猴、猕猴数据，推动脑机接口技术实用化 [17] 具身智能框架RoboOS 2.0与RoboBrain 2.0 - RoboOS 2.0是全球首个具身智能SaaS平台，支持无服务器轻量化部署，性能提升30%，响应时延压缩至3毫秒以下 [22][24] - RoboBrain 2.0任务规划准确率提升74%，空间推理能力提升17%，新增深度思考与闭环反馈能力 [27][28] - 开源框架降低开发门槛，代码量仅为传统方式的1/10，与全球20多家具身智能企业合作 [24][31] 全原子微观生命模型OpenComplex2 - OpenComplex2突破生命尺度，可预测生物分子静态结构及动态构象分布 [34][35] - 基于FloydNetwork图扩散框架与多尺度原子级精度表示，精准捕捉分子动态特性 [35] - 在CASP16竞赛中唯一成功预测蛋白质T1200/T1300构象分布，推动生物医药研发加速 [36][38] 行业影响与未来展望 - 智源「悟界」系列从语言建模转向世界建模，为多模态、具身智能、AI for Science注入活力 [40] - 四大方向协同布局是认知智能走向具身智能与科学智能的关键一步 [40] - 大模型时代将深入理解与改变世界的系统，不止于提示框 [41]

智源发布“悟界”系列大模型，宣布围绕物理AGI进行布局

新浪科技· 2025-06-06 10:51

北京智源人工智能研究院发布"悟界"大模型 - 公司发布"悟界"大模型系列聚焦物理AGI领域包含四个子模型：原生多模态世界模型Emu3 脑科学多模态通用基础模型见微Brainμ 具身大脑RoboBrain 2 0 全原子微观生命模型OpenComplex2 [1] - "悟界"系列突破虚实世界边界实现对物理世界的赋能标志公司在物理AGI方向取得重要进展 [1] 原生多模态世界模型Emu3技术细节 - Emu3采用下一代token预测范式统一多模态学习无需扩散模型或组合式架构通过新型视觉tokenizer将图像/视频编码为与文本同构的离散符号序列 [1] - 模型构建模态无关的统一表征空间实现文本图像视频的任意组合理解与生成支持多模态输入输出的端到端映射 [1] - 该模型验证自回归框架在多模态领域的普适性为跨模态交互提供技术基座于2024年10月首次发布 [1] 脑科学模型见微Brainμ研发进展 - Brainμ基于Emu3底层架构将fMRI EEG等神经信号统一token化利用预训练模型实现多模态脑信号与文本图像的多向映射 [2] - 模型完成超过100万单位神经信号预训练整合多个大型公开数据集和实验室数据可支持从基础研究到临床应用的多个方向 [2] - 公司正与北京生命科学研究所清华大学北京大学等机构合作拓展Brainμ在神经科学和脑机接口领域的应用 [2]