Emu3
搜索文档
我国科研机构主导的大模型成果首次登上Nature
观察者网· 2026-02-07 09:15
核心观点 - 北京智源人工智能研究院在《Nature》上发表的Emu3模型,证明了仅使用“下一词预测”这一统一范式,即可让机器同时掌握看、听、说、写乃至行动等多模态能力,挑战了当前AI领域依赖专用模型拼接的主流技术路线 [1][21] 技术架构与突破 - **统一范式**:Emu3采用极简设计,仅通过“下一词预测”任务训练一个decoder-only Transformer模型,统一处理文本、图像、视频和机器人动作指令,无需复杂的编码器拼接或模态融合机制 [1][10] - **视觉分词器**:模型核心是一个高效的视觉分词器,能将512×512图像压缩为4096个离散符号(压缩比64:1),并将4帧视频片段同样压缩至4096个符号,使用包含32768个“词汇”的码本,通过三维卷积核原生捕捉视频时空信息 [8][9] - **性能表现**:在多项基准测试中,Emu3性能与专用模型持平或超越:图像生成人类偏好评估得分70.0,超越Stable Diffusion XL的66.9;视觉语言理解12项测试平均分62.1,与LLaVA-1.6的61.8持平;视频生成VBench评估得分81.0,超过Open-Sora-1.2的79.8 [11] - **规模定律**:研究证实多模态学习遵循可预测的规模定律,当训练数据翻倍时,文字到图像、图像到文字、文字到视频等任务的验证损失均以0.55的指数下降,基于小模型数据可高精度预测大模型性能(拟合优度>0.99,误差<3%) [12] 行业比较与定位 - **与Meta Chameleon比较**:两者均尝试统一多模态学习,但Emu3通过优化视觉分词器和训练策略,弥合了统一模型与专用模型之间的性能差距 [17] - **与OpenAI Sora比较**:Sora基于扩散模型,擅长视频生成但本质是生成器,需额外嫁接模型以实现理解;Emu3的自回归范式则天然统一生成与理解于单一模型内 [17][18] - **与Google Gemini比较**:Gemini整合多模态但仍依赖预训练视觉编码器和复杂融合机制;Emu3采用从零训练策略,虽计算成本更高,但获得了更纯粹、一致的多模态表征 [18] - **开放性优势**:团队承诺开源视觉分词器、训练代码和预训练权重,与OpenAI的封闭策略形成对比,为全球AI社区提供了可复现、可改进的新技术路线 [18] 应用潜力与商业化 - **部署效率**:模型基于标准Transformer架构,可复用大语言模型成熟的推理基础设施(如vLLM、PagedAttention),团队已开发支持无分类器引导的推理后端,实现低延迟高吞吐 [19] - **应用统一性**:单一模型架构可支撑图像生成、视觉问答、视频理解等多种能力,降低多模型部署带来的运维复杂度和资源浪费 [19] - **交互变革**:模型同时具备生成与理解能力,能处理图文视频任意组合,支持如根据产品视频生成图文说明书、描述场景生成视频并实时问答等新型交互 [20] - **垂直领域**:在教育、电商、医疗等领域有应用潜力,例如作为统一助手生成教学内容、处理电商产品图片与问答、辅助医疗影像分析与报告 [20] 行业意义与影响 - **范式挑战**:Emu3的成功是对当前主流多模态技术路线的根本性挑战,证明了一条更简洁、统一的道路可行,可能引发AI领域的范式转移 [21] - **中国AI研究标杆**:此项原创性工作为中国AI研究树立了新标杆,展示了在顶级学术期刊提出并验证不同于海外巨头的技术路线的能力 [21] - **具身智能路径**:在CALVIN机器人操控基准测试中,Emu3在“连续完成五个任务”上达到87%成功率,展示了其作为通往具身智能捷径的潜力 [14][15] - **世界模型前景**:模型能够根据烹饪视频前两秒预测后续画面,展现了“世界模型”的潜力,为整合感知、语言和行动的通用人工智能提供了有希望的道路 [15][22]
专访王仲远:智源多模态大模型登上《自然》,背后有群年轻人
新京报· 2026-02-03 22:17
文章核心观点 - 智源人工智能研究院研发的多模态大模型Emu3在《自然》正刊发表,标志着公司在原始创新上取得里程碑式突破,并押注以自回归统一架构为核心的技术路线,该路线被认为具有架构极简、扩展潜力大和研发门槛低的优势,为人工智能迈向物理世界和具身智能提供了关键基础 [1][3][5] - 公司认为2025-2026年将是多模态模型实现重大突破并开始产业化的关键阶段,同时预判AI发展将从单智能体向多智能体协同演进,而世界模型和具身智能是未来的重要研究方向 [1][11] 技术路线与模型优势 - **技术战略选择**:公司在2024年初判断语言模型技术成熟,但人工智能发展远未到尽头,因此将多模态模型和具身智能列为未来重点科研方向,并选择了以视频为主进行训练的“终极技术路线” [2][3] - **核心架构优势**:Emu3采用极其简单、统一的架构,仅使用一个Transformer模型并遵循“预测下一个token”的基础学习原则,统一处理文本、图像、视频,避免了当前主流方案中组合不同模型带来的效率损耗和性能不稳定 [3] - **带来的益处**:这种统一路线带来了巨大的扩展潜力和更低的研发门槛,能够充分利用大语言模型的成熟基础设施,使能力随数据算力增长可预测地提升,同时降低了技术复杂性和成本,让更多研究者能参与前沿探索 [3] - **原生多模态能力**:模型从训练伊始就将多模态数据统一处理,能更深刻理解不同模态间的内在关联,并自然地完成图文并茂的教程等交错生成任务 [4] 模型迭代与性能提升 - **Emu3.5的升级**:后续版本Emu3.5在超过10万亿token的大规模多模态数据集上训练,视频数据训练时长从15年提升至790年,参数量从80亿(8B)上升至340亿(34B) [6] - **能力跃迁**:Emu3.5展示出通过长视频学习物理世界演变规律的能力,实现了从“预测下一个词或帧”到“预测下一个状态”的跃迁,能够对时空、因果关系进行初步模拟 [6] - **达到产品级**:Emu3.5相比Emu3各方面能力大幅提升,已从科研级系统达到产品级多模态模型系统 [6] 研发团队与人才理念 - **团队构成**:Emu3研发团队非常年轻,负责人当时仅29岁,体现了公司“青年人挑大梁”的核心理念,公司认为AI是年轻人的事业,年轻人是推动颠覆性创新的关键力量 [1][7] - **研发过程**:研发过程是一场“技术豪赌”,2024年初团队约五十人押注了与当时行业焦点(扩散模型和组合式架构)不同的自回归统一路线,并顶住了内外的质疑压力 [7][8] - **人才吸引与培养**:公司对人才不看资历和“帽子”,更看重“代表作”,如高影响力论文或开源项目,公司现有230名全职研究员,团队(包括实习生)约500人,研究员平均年龄仅30岁 [8] - **资源支持**:对于青年人才提出的、通过评估的项目,公司会直接给予大量算力和资金等充足资源支持,这些支持是青年学者在高校难以获得的 [9] 公司运营与体制机制 - **经费管理**:公司作为新型研发机构,实行科研经费“包干制”,科研经费的自主权和使用权完全在公司,除规定红线外,从立项到购买设备再到实施完全自主,类似企业化运作但无盈利压力 [9] - **机制优势**:这种体制机制创新使公司能敏锐捕捉AI发展趋势并早于其他机构进行先期布局,过往的成功案例也吸引了更多AI人才加入 [10] 行业趋势与未来展望 - **多模态发展阶段**:多模态模型正处于技术开始收敛的阶段,2025年和2026年将是其实现重大突破并开始逐步进入产业化的阶段 [1][11] - **智能体演进**:大语言模型已进入基座模型相对成熟、赋能千行百业的阶段,AI落地速度加快,并从单智能体向多智能体发展,多智能体通过协作能达到产品级落地效果 [11] - **前沿研究方向**:世界模型的研究和重大突破正在酝酿,但其定义和技术路线尚未收敛,而模型与硬件结合的具身智能虽然火热,但在稳定性、安全性、耐用性和高质量数据方面仍面临挑战,需要扎实解决 [11]
智源多模态大模型Emu3首登《自然》
科技日报· 2026-02-02 13:23
核心观点 - 北京智源研究院主导的多模态大模型“Emu3”成果发表于《自然》正刊,这是中国科研机构主导的大模型成果首次登陆该期刊,标志着中国在人工智能原始创新领域取得重大突破 [2] 技术性能与突破 - Emu3在文生图任务中性能比肩扩散模型,视觉语言理解能力媲美CLIP与大语言模型融合方案 [6] - Emu3能以纯自回归方式生成高保真视频,并支持视频延展、图文交错生成及机器人操作建模等多元任务 [6] - 团队通过大规模消融实验验证了多模态学习的规模定律,证实直接偏好优化(DPO)可无缝适配自回归视觉生成 [6] - 后续迭代的Emu3.5实现了“预测下一个状态”的能力跃迁,展现出泛化世界建模能力 [6] 行业地位与意义 - Emu3的突破确立了自回归路线在生成式AI中的统一地位 [6] - 《自然》编辑点评称,该成果对构建可扩展、统一的多模态智能系统具有重要意义 [6] - 作为“悟界”大模型系列核心成果,此次突破进一步彰显了中国在人工智能基础研究领域的国际竞争力 [6] 公司背景与战略 - 智源研究院自2020年启动“悟道”大模型研究,持续深耕原始创新 [6]
登上Nature!智源研究院推出AI全能选手——Emu3,一统多模态学习
生物世界· 2026-01-31 11:05
研究背景与意义 - 北京智源人工智能研究院在《Nature》正刊发表了一项关于多模态大模型Emu3的研究,这是我国科研机构主导的大模型成果首次在《Nature》正刊发表[2] - 多模态学习指AI同时处理文本、图像、视频等多种信息的能力,开发统一的算法一直是该领域的“圣杯”[6] - Emu3模型基于“预测下一个词元”的简单核心理念,统一了大规模文本、图像和视频的多模态学习,对构建可扩展、统一的多模态智能系统具有重要意义[3][6] 技术原理与框架 - Emu3的秘诀在于“词元化”,它使用统一的视觉分词器将图像或视频片段压缩成离散词元序列,例如将一张512x512图像转为4096个词元,文本则通过BPE编码为词元,所有词元被输入Decoder-Only的Transformer模型,通过预测下一个词元来学习多模态关系[7] - 该设计消除了对扩散模型或外部编码器的依赖,实现了端到端训练[7] - 训练过程分为三个阶段:1) 使用大规模多模态数据进行预训练,并平衡文本和视觉词元的损失权重;2) 针对生成任务进行质量微调,并结合人类偏好优化提升输出质量;3) 推理时支持分类器无关引导,实现低延迟、高通量的生成[10][11] - 研究在训练中发现了稳定的规模定律,模型性能随数据量和参数增加呈幂律提升,这意味着其扩展可预测[11] 模型性能表现 - 在图像生成任务中,在MSCOCO、GenEval等基准上,Emu3的人类偏好得分达70.0,优于Stable Diffusion v1.5的59.3和SDXL的66.9[13] - 在视频生成任务中,在VBench评估中,Emu3得分81.0,与主流扩散模型相当,例如Open-Sora-1.2的79.8,且能预测未来帧,实现视频扩展[13] - 在视觉语言理解任务中,在12个基准测试中平均得分62.1,媲美LLaVA-1.6的61.8等组合模型[13] - 在机器人操作任务中,在CALVIN模拟环境中,Emu3将语言、视觉和动作表示为统一词元序列,完成5个连续任务的成功率达87.0%[13] 研究影响与未来展望 - Emu3证明了“预测下一个词元”这种单一目标足以统一多模态学习,无需复杂设计,具有简单性、可扩展性和通用性[15][17] - 该框架有望推动原生多模态助手、世界模型以及具身智能等方向的发展[15] - 研究团队在Emu3基础上推出了Emu3.5,其通过大规模长时序视频训练,学习了时空与因果关系,展现出随规模增长而提升的物理世界建模能力,并观察到多模态能力随规模扩展而涌现的趋势,实现了从“预测下一个词元”到“预测下一个状态”的范式升级[15]
架构解耦是统一多模态模型所必须的吗?全新AIA损失:No
机器之心· 2025-12-02 13:07
统一理解与生成模型的发展现状 - 近一年来统一理解与生成模型发展迅速,但视觉理解和生成任务在网络层间存在冲突[2] - 早期完全统一模型(如Emu3)与单任务方法性能差距巨大,Janus-Pro、BAGEL通过解耦架构显著缩小了性能差距[2] - 后续方法通过直接拼接现有理解和生成模型达到极致性能,但这种方式可能背离统一模型的初衷[2] 统一模型的初衷与架构解耦的缺点 - 统一模型的初衷是通过透明化、合理化的图文交错思考过程提高单任务性能,例如走迷宫时生成每一步图像、做数学题时画辅助线等[3] - 架构解耦模型如BAGEL实现图文交错思考需要经历隐空间解码到文字/像素空间再编码到隐空间的复杂过程,存在计算开销大和信息丢失问题[3] - 架构解耦虽然带来可观性能提升,但随着研究深入可能成为重大问题[3] AIA方法的核心发现 - 研究发现不管如何解耦架构,理解和生成任务在同一层网络中始终呈现负相关关系,这与输入模态、长度和类别无关[8] - 模型自发学习分配两个任务在每层中的占比来缓解冲突,说明架构解耦本质上没有解决任务冲突问题[8] - 随着模型解耦程度增强,其跨模态交互模式会趋向单任务表现,这是性能提升的主要原因[8] AIA方法的技术创新 - 研究者设计Attention Interaction Alignment (AIA)损失,将单任务模型的跨模态交互模式作为学习目标,显式约束统一模型的交互模式[10] - AIA在Emu3和Janus-Pro上实验表明,无需其他trick即可提升模型性能,缩小与高解耦程度模型的差距[12] - 加入AIA损失后,Emu3和Janus-Pro的交互曲线都向单任务模型靠近,证明AIA有效性[14] AIA方法的性能表现 - Emu3 + AIA在多项指标上提升:MMMU从31.6提升至35.7,MMBench从61.4提升至64.8,MMVet从15.1提升至18.7,POPÉ从77.3提升至82.7[14] - Janus-Pro + AIA在MMBench从65.54提升至75.6,POPÉ从87.4提升至89.8[14] - 生成任务指标也有提升:Emu3 + AIA的GenEval从0.60提升至0.67,DPG从79.24提升至81.20[14] AIA的训练特性与优势 - AIA在不同模型上训练表现不同:Emu3预训练知识薄弱,AIA在很大范围内都能稳定收敛;Janus-Pro预训练知识强,AIA需要合适比重才能达到好效果[17] - AIA可减少数据配比工程问题,在生成与理解数据配比1:1情况下达到更好效果,说明两个任务产生协同优化效果[19] - AIA证明任务冲突可能是统一模型的天然特性,而非需要避免的问题[21] 统一模型的未来发展方向 - 完全统一方法与高解耦模型存在很大差距,但随着Emu3.5等模型出现,差距预计会缩小[15] - 另一条路径是移除所有任务区分线索(统一分词器、消除特殊token、使用交错数据),但会显著增加训练难度[22] - 统一模型的理论和架构远未成熟,需要更多研究者关注其真正意义而非单纯追求单任务基准性能[24]
对话智源王仲远:机器人的大小脑可能会“合体”,但不是今天
AI前线· 2025-06-11 16:39
智源研究院"悟界"系列大模型发布 - 推出原生多模态世界模型Emu3、脑科学多模态通用基础模型Brainμ、跨本体具身大小脑协作框架RoboOS2.0与具身大脑RoboBrain2.0以及全原子微观生命模型OpenComplex2 [1] - Emu3基于下一个token预测范式统一多模态学习 构建模态无关的统一表征空间 实现文本、图像、视频的任意组合理解与生成 [3] - Brainμ基于Emu3架构 引入脑信号模态数据 实现单一模型完成多种神经科学任务 在自动化睡眠分型等任务中性能显著超越现有专有模型 [4] 原生多模态世界模型技术突破 - Emu3支持多模态输入输出的端到端映射 验证自回归框架在多模态领域的普适性 为跨模态交互提供技术基座 [4] - Brainμ整合超过100万单位神经信号预训练 支持从基础研究到临床研究和脑机接口应用 有望成为神经科学领域的"AlphaFold"模型 [5] - 与强脑科技BrainCO合作 首次在便携式消费级脑电系统上重建感觉信号 展现脑机接口应用潜力 [5] 具身智能技术进展 - RoboOS2.0是全球首个基于具身智能SaaS平台的开源框架 支持无服务器一站式轻量化机器人本体部署 整体性能提升30% 全链路平均响应时延低至3ms以下 [6][7] - RoboBrain2.0在多项空间推理与任务规划指标上超越主流大模型 任务规划准确率相较1.0版本提升74% 空间智能性能提升17% [8][9] - 新增多本体时空记忆场景图共享机制和深度思考能力 支持动态环境下的实时感知与建模 提升任务执行稳定性与成功率 [7][9] 微观生命模型突破 - OpenComplex2实现从静态结构预测到动态构象分布建模的突破 能表征生物分子系统的连续演化能量景观 [11] - 在CASP16竞赛中成功预测蛋白质T1200/T1300的空间构象分布 成为23支参赛队伍中唯一取得该突破的团队 [12] - 突破静态结构预测瓶颈 为原子级结构生物学提供全新建模工具 有望显著缩短生物医药研发周期并降低成本 [12] 技术发展趋势 - 人工智能正加速从数字世界走向物理世界 原生多模态世界模型是实现物理AGI的重要发展路径 [2][3] - 公司预判大模型技术将从大语言模型向多模态尤其是原生多模态世界模型方向发展 当前工作布局围绕该趋势展开 [2] - 未来5-10年可能出现大小脑融合模型 但当前数据受限不具备融合条件 现阶段采用大小脑协作框架 [7]
聚焦多模态:ChatGPT时刻未到,2025大模型“变慢”了吗
北京商报· 2025-06-08 21:27
多模态大模型技术发展 - 智源研究院发布原生多模态世界模型Emu3 实现文本、图像、视频任意组合理解与生成 通过单一模型捕捉世界规律[1] - Emu3采用原生多模态训练路径 在模型初始阶段即纳入文字、图像、声音等模态数据 区别于先强语言后多模态的传统路径[3] - 当前多模态模型技术路线未收敛 视频生成能力处于GPT-2到GPT-3过渡阶段 与产业预期存在显著差距[1][5] 视频生成技术现状 - 视频生成领域存在叙事性、稳定性、可控性三大挑战 目前无法满足影视级专业内容制作需求[6] - Sora展现高质量视频生成潜力 但DiT训练方案存在可扩展性问题 类似2018年BERT模型的技术瓶颈[5] - 行业专家认为视频生成技术仍处早期 相当于语言模型的GPT-2阶段 尚未迎来"ChatGPT时刻"[5][6] 商业化应用进展 - 多模态模型商业化面临两大挑战:技术能力与市场需求未完全统一 成本收益比尚未达到临界点[7] - 智象未来商业模式持续迭代 从PaaS模型服务(2023)到SaaS工具(2024) 再到直接交付结果(2025)[8] - 全球多模态AI市场规模2024年达24亿美元 预计2025年将快速增长至1280亿美元 年复合增长率62.3%[8] 行业竞争格局 - 2024年大模型行业关键词为价格战 2025年转向应用多元化 表面发展"变慢"实为技术沉淀期[1] - 传统CV模型应用成熟 多模态模型需在视觉理解能力和泛化能力提升后 才能替代现有解决方案[7] - 企业技术路线差异明显 智源采用原生多模态训练 其他厂商多采用语言优先的渐进式路径[3]
对话智源研究院院长王仲远:AI正加速从数字世界走向物理世界
21世纪经济报道· 2025-06-08 19:49
AI技术发展趋势 - AI技术从数字世界加速向物理世界转化,重点应用于人形机器人训练和落地[1] - 大语言模型性能提升遇到瓶颈,强化学习优化推理能力、合成高质量数据替代人类标注、激活海量多模态数据成为三大解法[1] - 多模态数据规模可达文本数据的"百倍乃至万倍",将成为未来技术突破的关键[1] 世界模型技术路线 - 大模型技术路线从大语言模型转向原生多模态世界模型,以实现对物理世界的感知和理解[2] - 智源研究院推出"悟界"系列大模型,包括Emu3、见微Brainμ、RoboOS 2.0、RoboBrain 2.0和OpenComplex2[2] - Emu3的核心突破在于建立对物理因果关系的理解,而非简单的多模态信息拼接[2] 具身智能发展现状 - 人形机器人长期价值显著,因其更易融入社会基础设施且利于模型训练,但短期内四足、轮式等形态将共存[3] - 具身智能面临"硬件能力不足限制数据采集,数据稀缺制约模型进化"的循环困局,可通过互联网视频数据训练基础能力再微调解决[3] - 工厂场景成为具身智能优先落地领域,因其封闭环境可规避安全风险且存在重复任务刚需[3] 大小脑融合与泛化性 - 当前具身智能数据量不足以支持大小脑融合模型训练,预计5-10年内可能成熟[3][4] - 具身智能VLA模型泛化性不足,未来需突破专有任务达到跨领域泛化性[4] - 具身大模型发展处于早期阶段,类似GPT-3前的探索期,面临技术路线分歧和产业落地挑战[5][6] Agent与产业应用 - Agent成为产业界发力领域,类比移动互联网APP,基于可用基础大模型开发[4][5] - 基础大模型竞争已收敛至少数玩家,未来可能出现基于基座模型+垂类数据的"千模大战"[5] - 具身智能需解决"感知-决策-行动"协同、多模态数据融合等基础问题才能实现大规模商用[6] AGI发展里程碑 - 物理AGI的重要标志是机器人能真正理解物理因果关系,如"咖啡杯放桌沿会摔碎"[7] - 当前AGI刚过起跑线,具身智能仍需突破技术路线共识和产业落地障碍[5][6]
从预训练到世界模型,智源借具身智能重构AI进化路径
第一财经· 2025-06-07 20:41
AI发展趋势 - AI发展速度被低估 技术进步呈现非线性特征 大模型作为基础设施未来将更关注上层应用 [1] - AI重点从大语言模型预训练转向世界模型培育 智源研究院宣布进入"具身智能"探索阶段 [1][3] - 大模型与机器本体深度耦合 推动机器人从1.0时代迈向2.0时代 加速数字与物理世界融合 [3] 世界模型技术 - 世界模型尚无统一定义 智源通过"悟界"系列产品体现技术理解 包括Emu3/Brainμ/RoboOS 2.0等 [3][4] - Emu3实现多模态技术突破 通过视觉tokenizer统一处理图像/视频/文本 简化跨模态知识迁移 [4] - 大模型需突破时空感知隔阂 才能实现数字世界向物理世界的跨越 [4] 底座大模型发展 - 大语言模型性能提升放缓 突破路径包括强化学习/数据合成/多模态数据 [5] - 多模态数据规模可达文字数据百倍至万倍 但利用率低下 成为技术突破重点 [5] - 原生多模态世界模型本质是让AI感知物理世界 通过与硬件结合解决实际问题 [5] 具身智能挑战 - 存在"数据-能力"循环悖论:具身能力不足限制数据采集 数据稀缺又制约模型发展 [6] - 技术路线尚未收敛 不同厂商采用差异化探索方式 智源方案仅为"一家之言" [6] - 跨本体小脑技能未达共识 需通过产业迭代实现硬件标准化 [8] 机器人行业痛点 - 场景泛化能力差 单一机器人难以适应多场景工作需求 [9] - 任务泛化能力差 需搭载不同程序完成同类场景不同任务 [9] - 本体泛化能力差 机器人设计高度依赖特定工作场景 [9] 控制技术现状 - MPC控制技术存在三大局限:仅适用结构化环境/固定流程/预编程任务 [10] - 具身大模型处于GPT-3前探索期 技术路径未统一 产业落地需突破多模态融合等基础问题 [10]
智源研究院发布“悟界”系列大模型:让AI看见并理解物理世界
经济观察网· 2025-06-07 10:55
智源研究院最新动态 - 北京智源大会开幕,吸引图灵奖得主约书亚·本吉奥、强化学习之父理查德·萨顿及谷歌、Meta、华为等全球知名AI机构学者参与[2] - 公司发布"悟界"系列四大模型,包括原生多模态世界模型Emu3、脑科学多模态通用基础模型Brainμ、具身智能框架RoboOS 2.0/RoboBrain 2.0及全原子微观生命模型OpenComplex2[2][3] - 院长王仲远提出大语言模型面临增长天花板,AI下一阶段需突破多模态世界模型以理解物理世界[2][4] 悟界系列模型技术细节 - Emu3采用视觉Tokenizer技术,实现文字/图像/视频的统一表征和生成[3] - Brainμ整合超100万单位神经信号数据,与清华、北大等机构合作验证脑疾病诊断等应用潜力[3] - RoboOS 2.0性能提升30%,全链路响应时延缩短至毫秒级;RoboBrain 2.0增强多机协同规划能力[3] - OpenComplex2实现原子级分子运动模拟,弥补AI静态结构预测短板[3] 战略方向与行业趋势 - 公司提出从语言模型转向世界模型,通过多模态技术让AI模拟物理世界运行与交互[4] - 具身智能短期面临商业化挑战,包括数据采集成本、伦理问题及适配成本[5] - 与香港投资管理有限公司达成战略合作,聚焦全球人才汇聚与技术全球化[6] 国际化与开源进展 - 坚持开源路线,累计开源200个模型,全球下载量达6.4亿次[7] - 通过新加坡"青源会"连接全球青年AI人才,加强欧洲合作并评估中东市场机会[6] - 历史模型"悟道"系列曾创1.75万亿参数纪录,2023年悟道3.0实现多模态突破并全面开源[6]