悟界・Emu3.5 - 财报，业绩电话会，研报，新闻

悟界・Emu3.5

搜索文档

2026十大AI技术趋势报告

搜狐财经· 2026-01-12 16:10

文章核心观点人工智能正从参数竞赛转向重构物理世界，告别狂飙突进，向认知升维、集群协同、产业深耕方向演进，十大核心趋势勾勒出智能时代新蓝图 [1] 基础模型与认知范式演进 - 基础模型演进的核心是从“预训练+后训练”范式转向“Next-State Prediction”范式，使AI能学习物理动态、时空连续性和因果关系，实现“理解-预测-规划”的完整能力闭环，成为从“感知”迈向“认知”的核心标志 [1] - 海外方面，World Labs的RTFM模型可从单幅图像创建3D空间，OpenAI Sora 2展现出对真实世界规律的深度模拟 [2] - 国内方面，智源研究院作为NSP范式开创者，其悟界・Emu3.5将多模态数据统一编码为离散Token，实现对物理世界动态与因果关系的精准理解，蚂蚁百灵大模型系列也在NSP方向持续进化 [2] 具身智能产业发展 - 2024年是具身智能“百机大战”元年，2025年行业已迈入“出清”阶段，技术难度与资金需求远超以往，同质化竞争加速行业洗牌 [2] - 当前中国具身智能企业超230家，其中人形机器人企业过百家，商业进程已从实验室验证转向量产交付，客户主力从高校研究机构转向B端产业场景，人形机器人销量已突破万台，亿级订单频现 [2] - 海外市场，Physical Intelligence的n*0.6模型通过自主经验训练降低复杂任务失败率，特斯拉Optimus 2.5已应用于工厂生产、农场运营等场景 [3] - 国内市场，智源发布RoboBrain2.0具身大脑与RoboBrain-X0小脑基座，蚂蚁灵波科技推出的Robbyant-R1机器人已落地餐饮、导览、医疗问答等场景，多家企业加速推进IPO进程，行业格局即将成型 [3] 智能体系统演进 - AI应用正从单智能体系统向多智能体系统演进，Langchain报告显示当前客服、代码生成等SAS应用占比达63%，但复杂场景下MAS在工作流拟合、降低幻觉等方面优势显著 [3] - Anthropic数据显示，57%的组织已部署智能体处理多阶段工作流，2026年这一比例将升至81%，其中39%计划开发多步骤流程智能体 [3] - MAS的核心突破在于通信协议的统一，2025年MCP与A2A协议先后捐赠给Linux基金会并实现分层融合，成为微软、谷歌、Anthropic等头部厂商的原生支持选择，构成Agent时代的“TCP/IP” [4] AI for Science发展 - AI for Science已从辅助工具升级为AI Scientist，实现“假设提出—实验设计—数据分析—结论推断”的完整科研链路，推动科研模式发生质变 [4] - 2025年以来，谷歌Co-Scientist、斯坦福大学BOMARS等全球各类AI Scientist系统密集发布 [4] - 国际竞争激烈，美国2025年11月启动“创世纪计划”，依托17个国家实验室数据、AuroraGPT模型等存量资产，加速AI4S规模化落地 [5] - 中国呈现“应用强、基座弱”特征，在应用层面具备STEM人才与产业链优势，但在算力、数据、模型三大基础设施上仍有差距，截至2025年国家基础数据中心保有数据量达4.6PB，科学基础模型研发亟待资源整合 [5] C端AI应用竞争 - C端AI竞争聚焦“Super App”，以“All in One”为核心特征，通过一个入口实现信息获取、任务规划到问题解决的闭环 [5] - 海外方面，ChatGPT、Gemini等APP已达成过亿日活，谷歌Gemini已取代Maps原生语音助手，实现功能内化 [5] - 国内方面，蚂蚁灵光上线6天下载量破200万，支持30秒生成小应用与全模态输出，字节豆包依托生态优势MAU位居全球第二 [5] - 垂直赛道潜力巨大，多模态模型展现出“低频高价值”特征，Nano Banana Pro单次调用价格是文本模型的70-120倍，仅需1.5%的调用量即可实现同等收入 [6] - 国内市场，蚂蚁阿福月活超1500万，成为第一大健康管理APP，即梦AI、快对AI等在视频生成、教育等赛道成功突围 [6] ToB AI应用挑战与转机 - 2025年多数ToB AI应用仍停留在PoC阶段，MIT研究显示95%的GenAI Pilot项目未能产生可衡量影响，数据质量、MAS成熟度、成本失控成为主要瓶颈 [6] - 46%的企业将“现有系统集成”列为首要障碍，典型案例中4个Langchain智能体因死循环通信11天损失4.7万美元 [6] - Forrester预测，25%的AI支出将推迟至2027年，40%的Agentic AI项目可能失败 [6] - 反转信号已现，2026年H2将成为ToB应用MVP落地关键期，“Data Gov先行，OTel/MCP并行”的实施路径已明确，核心业务数据治理需3-4个月，简单API连接2-3周即可完成，三大模块并行推进下MVP产品至少需6个月投入 [7] - 医疗、电信、金融等行业已加速推进标准API建设，美国医疗行业CMS新规要求2026年1月部分功能上线，为规模化落地奠定基础 [7] 合成数据发展 - 合成数据正成为AI 2.0时代的“无限燃料”，有效破解真实数据短缺难题 [7] - NVIDIA通过合成数据优化3D检测与机器人轨迹生成，与Sandbox AQ合作构建含520万个新三维分子的训练集 [7] - 银河通用凭借10亿帧合成数据训练出GraspVLA模型，降低具身智能对昂贵真实数据的依赖 [7] - 群核科技基于4.41亿个3D模型构建空间智能飞轮，推动合成数据在工业设计等场景规模化落地 [7] - 合成数据的演进路线已清晰，模型作为反事实数据生成引擎，强化学习作为数据毒性过滤器，二者结合使合成数据的价值与安全性大幅提升，随着修正扩展定律的理论证实，合成数据有望在2026年彻底打破“数据枯竭魔咒” [8] 推理优化与硬件成本 - 推理优化仍是2026年AI大规模应用的关键支撑，算法层面微软BitNetb1.58模型验证了极端量化的可行性，DeepSeek V3.2将长序列推理复杂度从O(L2)降至O(Lk)，阿里Qwen3引入混合推理实现成本与质量的平衡 [8] - Epoch AI数据显示，消费级GPU上的开源模型仅需6-12个月即可追平前沿模型能力 [8] - 硬件领域变革加速，ASIC芯片因适配Transformer结构分流GPU负载，存算一体架构在边缘端落地，Google TPU、Groq芯片对英伟达形成挑战 [8] - 成本持续下降印证技术价值，2022年11月至2024年10月，每百万个token推理成本从20美元降至0.07美元，18个月内降幅达280倍 [8] 异构算力基础设施 - 当前全球超5%的AI训练负载依赖NVIDIA+CUDA体系，构建异构全栈基础设施成为破局关键 [9] - 2025年以来，算子开发语言从5种增至9种，MLIR技术的成熟形成“多语言汇一编译器”的漏斗型架构，实现从手写汇编到自动化编译的跨越 [9] - CUDA 13.1版本引入Tile功能提升易用性，Triton生态则凭借多元贡献者优势，实现对多厂商芯片的无缝支持 [9] - 国内方面，智源FlagOS平台构建全栈解决方案，FlagGems纳管18款异构芯片，FlagScale集成并行推理与训练加速能力，通过软硬解耦统领异构算力 [9] AI安全挑战与治理 - AI安全风险持续攀升，2024年全球报告安全事件233起，同比增长56.4%，2025年11月底前已超330起 [9] - 深度伪造、AI监控滥用等事件频发，8家头部企业大模型在“防范灾难性滥用”方面均未达标，Agent系统进一步引入外部模块不稳定性与通信安全风险 [9] - 技术层面，自演化攻防演练扩展监管边界，红蓝智能体集群通过持续博弈可发现人类认知盲区的未知风险 [10] - Anthropic发布回路追踪工具实现偏见精准修正，OpenAI推出Aardvark自动挖掘代码漏洞，“以AI治AI”成为常态 [10] - 产业端，70%的大企业将数据主权与抗注入攻击能力列为一票否决项，蚂蚁推出ASL智能体可信互连技术，360构建类脑分区协同安全大模型，场景化安全护盾加速形成 [10]

刚刚，智源悟界·Emu3.5登场，原生具备世界建模能力

机器之心· 2025-10-30 16:52

模型发布与定位 - 北京智源人工智能研究院发布多模态系列模型最新力作“悟界・Emu3.5”，并将其定义为“多模态世界大模型”[3][4] - 该模型被视为继语言预训练、推理和后训练之后的人工智能第三条Scaling范式，即“多模态Scaling范式”[5] - 公司相信“世界大模型”将开启全新的探索方向，此次发布不仅是常规迭代，更是一次方向性突破[6] 核心技术架构与创新 - 模型采用极简架构，基于一个340亿参数的稠密Transformer模型，创新性地将模型目标统一为“下一状态预测”[11] - 提出“离散扩散自适应”技术，将每张图像的推理速度提升近20倍，且几乎没有性能损失，使自回归模型在推理速度和生成质量上可与顶级闭源扩散模型媲美[6][24] - 模型具备“原生多模态”特性，能生成交错的视觉-语言输出，实现文本、图像、视频三种模态数据的理解和生成大一统[10][11] 训练数据与流程 - 模型在超过10万亿多模态Token（主要源自互联网视频，总时长约790年）上进行端到端预训练，以学习现实物理世界的动态规律[5][16] - 训练流程分为四个核心阶段：大规模预训练（分两步进行，分别在10万亿和3万亿Token的数据上）、监督微调（使用1500亿样本的高质量数据集）、大规模多模态强化学习以及高效自回归推理加速[17][21][22][24] - 使用视频数据作为训练主体，因其能教会模型现实世界的物理动态、时空连续性和因果规律，而静态图文对只能识别“这是什么”[16] 模型能力与表现 - 模型展现出高级功能，包括生成图文并茂的故事、长时程视觉指导、复杂图像编辑、世界探索和具身操作等[5][35][36] - 在图像编辑任务上达到与谷歌Gemini-2.5-Flash-Image相当的性能，并在文本渲染和交错内容生成任务上显著超越对手[6][28] - 具备视觉叙事能力，能生成逻辑连贯、画面风格统一的系列图文卡片；具备视觉指导能力，可生成分步的、带有视觉示例的教程[11][13] 行业影响与未来应用 - 模型标志着多模态模型从执行单一任务向能够进行连续、多步、跨模态创造的“世界学习器”迈出关键一步，为构建更接近人类自然学习方式的世界模型提供了范例[14][44] - 其世界建模与探索能力为具身智能领域补全关键拼图，可作为无限数据生成器，生成虚拟环境、任务和分步规划数据，助力训练更通用的具身智能体[35][36][39][41] - 公司宣布后续将开源Emu3.5，以支持全球AI研究社区的进一步研究，为其提供一个强大的新基座[7][45]

多模态世界大模型

多模态Scaling范式

具身智能

Artificial Intelligence

Artificial Intelligence

悟界・Emu3.5