Workflow
原生多模态世界模型Emu3
icon
搜索文档
刚刚,智源全新「悟界」系列大模型炸场!AI第一次真正「看见」宏观-微观双宇宙
机器之心· 2025-06-06 17:36
AI技术发展趋势 - AI技术从理解文字进化到建模世界、操控实体、模拟大脑、解构分子 [1] - 2025年AI领域热点包括DeepSeek R1、OpenAI o3、智能体Manus、英伟达Cosmos世界基础模型等 [2] - 智源大会聚集四位图灵奖得主、三十余位大模型企业创始人及CEO、一百多位青年科学家探讨AI前景 [3] 智源「悟界」系列大模型 - 智源推出全新「悟界」系列大模型,突破虚实边界,向物理AGI迈进 [4] - 「悟界」系列包含原生多模态世界模型Emu3、脑科学模型见微Brainμ、具身智能框架RoboOS 2.0/RoboBrain 2.0、全原子微观生命模型OpenComplex2 [6] - 大模型发展从文图视频主导的数字世界进入物理世界,理解尺度从宏观跨越到微观 [8] 原生多模态世界模型Emu3 - Emu3是全球首个原生多模态世界模型,支持文本、图像、视频、声音、脑信号等多模态统一建模 [12] - 通过新型视觉tokenizer实现多模态同构表征,支持端到端多模态输入输出映射 [14] - Emu3推动AI从单一模态理解向多模态协同跃迁,加速创意生成、智能搜索等应用落地 [14] 脑科学多模态通用基础模型见微Brainμ - 见微Brainμ基于Emu3架构,统一处理MRI、EEG、双光子成像等神经信号,累计处理超100万单位数据 [15] - 支持跨任务、跨模态、跨个体建模,性能超越专用模型,成为神经科学领域的AlphaFold [15] - 具备跨物种能力,兼容人类、小鼠、狨猴、猕猴数据,推动脑机接口技术实用化 [17] 具身智能框架RoboOS 2.0与RoboBrain 2.0 - RoboOS 2.0是全球首个具身智能SaaS平台,支持无服务器轻量化部署,性能提升30%,响应时延压缩至3毫秒以下 [22][24] - RoboBrain 2.0任务规划准确率提升74%,空间推理能力提升17%,新增深度思考与闭环反馈能力 [27][28] - 开源框架降低开发门槛,代码量仅为传统方式的1/10,与全球20多家具身智能企业合作 [24][31] 全原子微观生命模型OpenComplex2 - OpenComplex2突破生命尺度,可预测生物分子静态结构及动态构象分布 [34][35] - 基于FloydNetwork图扩散框架与多尺度原子级精度表示,精准捕捉分子动态特性 [35] - 在CASP16竞赛中唯一成功预测蛋白质T1200/T1300构象分布,推动生物医药研发加速 [36][38] 行业影响与未来展望 - 智源「悟界」系列从语言建模转向世界建模,为多模态、具身智能、AI for Science注入活力 [40] - 四大方向协同布局是认知智能走向具身智能与科学智能的关键一步 [40] - 大模型时代将深入理解与改变世界的系统,不止于提示框 [41]
智源发布“悟界”系列大模型,宣布围绕物理AGI进行布局
新浪科技· 2025-06-06 10:51
北京智源人工智能研究院发布"悟界"大模型 - 公司发布"悟界"大模型系列 聚焦物理AGI领域 包含四个子模型:原生多模态世界模型Emu3 脑科学多模态通用基础模型见微Brainμ 具身大脑RoboBrain 2 0 全原子微观生命模型OpenComplex2 [1] - "悟界"系列突破虚实世界边界 实现对物理世界的赋能 标志公司在物理AGI方向取得重要进展 [1] 原生多模态世界模型Emu3技术细节 - Emu3采用下一代token预测范式统一多模态学习 无需扩散模型或组合式架构 通过新型视觉tokenizer将图像/视频编码为与文本同构的离散符号序列 [1] - 模型构建模态无关的统一表征空间 实现文本 图像 视频的任意组合理解与生成 支持多模态输入输出的端到端映射 [1] - 该模型验证自回归框架在多模态领域的普适性 为跨模态交互提供技术基座 于2024年10月首次发布 [1] 脑科学模型见微Brainμ研发进展 - Brainμ基于Emu3底层架构 将fMRI EEG等神经信号统一token化 利用预训练模型实现多模态脑信号与文本 图像的多向映射 [2] - 模型完成超过100万单位神经信号预训练 整合多个大型公开数据集和实验室数据 可支持从基础研究到临床应用的多个方向 [2] - 公司正与北京生命科学研究所 清华大学 北京大学等机构合作 拓展Brainμ在神经科学和脑机接口领域的应用 [2]