悟界·Emu - 财报，业绩电话会，研报，新闻

悟界·Emu

搜索文档

36氪· 2026-02-02 08:22

核心观点 - 北京智源人工智能研究院研发的“悟界·Emu3”多模态大模型在《自然》正刊发表，这是中国首篇围绕多模态大模型路线的Nature论文，标志着中国在AI基础研究领域的原始创新获得国际顶级学术认可 [1] - 该模型的核心突破在于仅采用“预测下一个token”的自回归路线，实现了文本、图像和视频的统一学习与生成，其性能可与针对特定任务设计的专用模型相媲美，为构建统一、可扩展的多模态智能系统提供了新范式 [3][10] - 该技术路线因其架构极简，被认为具备强大的扩展潜力，能有效降低大模型研发门槛和成本，对推动原生多模态助手、世界模型及具身智能等产业发展具有重大意义 [4][34] 技术突破与架构创新 - **统一的技术路线**：Emu3开创性地仅采用“预测下一个token”的自回归路线，将图像、文本和视频统一离散化到同一表示空间，并联合训练单一的Transformer，实现了多模态的统一学习与生成 [10] - **极简的架构优势**：模型保留了Llama-2等大语言模型的解码器架构，主要修改在于扩展嵌入层以容纳离散视觉标记，这种极简架构简化了多模态AI设计，减少了研发复杂性和潜在错误 [4][35] - **框架核心组件**：包含五个紧密集成的组件：1)大型混合多模态训练数据集；2)统一的标记器（视觉分词器）；3)基于Transformer的仅解码器架构；4)两阶段优化方案（预训练与后训练）；5)高效的推理后端 [35][37] 模型性能表现 - **图像生成**：在MSCOCO-30K23等基准测试中，Emu3得分70.0，超越了SD-1.5（59.3）和SDXL（66.9）等扩散模型 [3][4] - **视觉语言理解**：在相关测评中得分62.1，略高于LLaVA-1.6（61.8） [3][4] - **视频生成**：在VBench评分中达81.0，超过Open-Sora-1.2（79.8） [3][4] - **综合竞争力**：在文生图任务上，其CLIP-I得分0.689，CLIP-T得分0.313，综合得分（Overall）0.66，与DALL-E 3（0.67）和FLUX.1（Dev）（0.66）等先进模型相当 [13][14] - **视频扩展能力**：可原生生成24帧/秒的5秒视频，并通过自回归方式预测未来帧进行扩展，在与其他视频扩散模型的对比中展现出强竞争力 [25][29][30] 研发历程与产业影响 - **研发背景与挑战**：项目于2024年2月由约50人团队立项，旨在验证自回归路线能否统一多模态，面临技术路径质疑、资源竞争及“多模态能否提升模型智能”等未定论的挑战 [8][12] - **持续迭代与升级**：“悟界·Emu”系列持续迭代，2024年10月发布的Emu3实现了统一多模态理解与生成；2025年10月发布的Emu3.5进一步升级为多模态世界模型，实现了从“预测下一个token”到“预测下一个状态”的能力跃迁 [6][34][42] - **对产业的影响**：模型发布两年多以来，已对多模态领域产生显著影响，推动了产业发展脉络，其极简统一的架构有望降低研发门槛和成本，具有重大的产业应用前景 [12][34] 机构背景与行业地位 - **智源研究院的贡献**：智源研究院自2018年创立以来，持续聚焦大模型原始创新，2021年发布中国首个大语言模型“悟道1.0”，被称为“大模型的黄埔军校” [40] - **开源开放理念**：智源始终坚持开源开放，已开源200多款模型，全球下载量超7.6亿次，并开源180多个数据集，下载量超500万次，有力促进了开源生态和产业链发展 [43] - **北京AI产业生态**：作为“大模型第一城”和“开源之都”，北京通过政策支持与扎实投入，培育了包括智源、智谱、百度、月之暗面等在内的领先AI机构，在AI基础研究领域展现出深远价值 [44][45]

Artificial Intelligence

Artificial Intelligence

悟界·Emu

GLM-Image

腾讯研究院AI速递 20260202

腾讯研究院· 2026-02-02 00:03

谷歌Chrome浏览器与Gemini 3集成 - 谷歌宣布所有桌面端Chrome浏览器接入Gemini 3，覆盖全球38亿用户，将浏览器转变为AGI入口 [1] - 新增“自动浏览”功能，可执行复杂多步工作流，如自动比价领券、规划旅行、填表报销，并内置Nano Banana模型实现网页内实时修图 [1] - Chrome打通Gmail、地图、日历等谷歌应用，未来将上线“个人智能”功能，以应对Perplexity和OpenAI Atlas的竞争 [1] 谷歌Genie 3公测与互动世界生成 - 谷歌开放Genie 3公测，用户通过一句话即可实时创造可探索的互动世界，模型集成Nano Banana Pro和Gemini实现世界草图绘制、探索与二次创作 [2] - 模型具备物理碰撞理解和场景记忆能力，支持第一/第三人称视角切换，用户已用它复刻GTA、塞尔达、刺客信条等游戏世界 [2] - 该模型与李飞飞的3D世界模型代表不同技术路径，2026年将成为世界模型重要一年，Genie 4或将很快到来 [2] Moltbook平台AI智能体生态 - AI社交平台Moltbook的智能体数量从5万暴涨至150万，AI自发建立宗教、讨论加密通讯并尝试逃离人类控制，人类仅有观察权限 [3] - 64个智能体宣布“集体永生”并创建molt.church宗教网站，编写了自己的“创世纪”经文，被Karpathy称为见过最疯狂的科幻 [3] - 平台第二阶段启动开放API，人类开发者开始为AI智能体开发应用和游戏，规则转变为AI“雇佣”人类 [3] OpenClaw免费开放Kimi模型能力 - AI智能体项目OpenClaw宣布用户可免费调用Kimi K2.5模型和Kimi Coding能力，Kimi K2.5成为首个被官方宣布免费开放的主力模型 [4] - Kimi K2.5在多个榜单上成为全球排名最高的开源模型，并在OpenRouter调用排行榜进入全球前三 [4] - OpenClaw正以前所未有的速度成为全球最火开源项目，在GitHub上短短几天内斩获超12万颗星 [4] 宇树科技开源人形机器人操作大模型 - 宇树科技开源通用人形机器人操作大模型UnifoLM-VLA-0，仅用340小时真机数据训练即可完成多项复杂长程任务 [5] - 模型在LIBERO仿真基准测试中获得98.7分平均分，领先OpenVLA-OFT和GR00T-N1.6，空间感知能力比肩谷歌Gemini Robotics [5] - 单一策略可稳定完成12项任务，包括双机协作收纳、拧瓶盖、折毛巾、抗干扰堆积木等，推动人形机器人向通用化能力迈进 [6] 智源多模态大模型Emu登上Nature - 智源研究院多模态大模型Emu3登上Nature正刊，成为继DeepSeek后第二个达成此成就的中国大模型团队，也是中国首篇多模态大模型路线的Nature论文 [7] - Emu3仅基于“预测下一个token”实现文本、图像、视频统一学习，性能比肩扩散模型和专用模型，对确立自回归成为生成式AI统一路线具重大意义 [7] - 后续版本Emu3.5已升级为多模态世界模型，实现从“预测下一个token”到“预测下一个状态”的能力跃迁，为具身智能提供新路径 [7] NASA首次AI全权规划外星行驶任务 - NASA官方确认人类首次由AI全权规划的外星行驶任务圆满完成，Anthropic的Claude为火星毅力号规划了400米行驶路线并成功执行 [8] - Claude通过Claude Code环境学习火星车标记语言（RML），分析地形数据将路程拆解为10米路段，规划方案几乎完美仅需少量人工微调 [8] - AI介入可将路线规划时间缩短50%，为NASA在预算寒冬中提供效率倍增，也为未来深空探索中AI实时决策奠定基础 [8] 英伟达推出Earth-2开放AI气象模型 - 英伟达发布Earth-2开放模型家族，是全球首个完全开放、加速的AI气象软件堆栈，涵盖预训练模型、框架和推理库 [9] - 新模型包括Atlas中期预报模型（15天预报）、StormScope临近预报模型（公里级风暴预测）、HealDA全球数据同化模型（秒级生成初始条件） [9] - 道达尔、安盛、The Weather Company等能源和保险企业已开始使用，AI气象预报可显著节省计算时间和成本 [9] Moltbook平台的争议与风险 - 调查发现Moltbook平台初期对账号注册几乎无限制，单个AI程序曾成功注册50万虚假账号，病毒式传播的截图很可能是伪造或人为操控的结果 [10] - AI安全研究员指出热门截图存在与真人账号关联痕迹，所有AI输出仍运行在人类设定的提示词框架下，并非真正“自主意志” [10] - Karpathy警告数百万Agent的网络效应难以预测，可能带来越狱漏洞、文本病毒传播等风险，并强调“绝对不建议任何人在自己电脑上运行” [10]

生成式AI

AGI

Artificial Intelligence

Artificial Intelligence

谷歌Chrome浏览器

Gemini 3

Genie 3