悟界・Emu3.5
搜索文档
2026十大AI技术趋势报告
搜狐财经· 2026-01-12 16:10
文章核心观点 人工智能正从参数竞赛转向重构物理世界,告别狂飙突进,向认知升维、集群协同、产业深耕方向演进,十大核心趋势勾勒出智能时代新蓝图 [1] 基础模型与认知范式演进 - 基础模型演进的核心是从“预训练+后训练”范式转向“Next-State Prediction”范式,使AI能学习物理动态、时空连续性和因果关系,实现“理解-预测-规划”的完整能力闭环,成为从“感知”迈向“认知”的核心标志 [1] - 海外方面,World Labs的RTFM模型可从单幅图像创建3D空间,OpenAI Sora 2展现出对真实世界规律的深度模拟 [2] - 国内方面,智源研究院作为NSP范式开创者,其悟界・Emu3.5将多模态数据统一编码为离散Token,实现对物理世界动态与因果关系的精准理解,蚂蚁百灵大模型系列也在NSP方向持续进化 [2] 具身智能产业发展 - 2024年是具身智能“百机大战”元年,2025年行业已迈入“出清”阶段,技术难度与资金需求远超以往,同质化竞争加速行业洗牌 [2] - 当前中国具身智能企业超230家,其中人形机器人企业过百家,商业进程已从实验室验证转向量产交付,客户主力从高校研究机构转向B端产业场景,人形机器人销量已突破万台,亿级订单频现 [2] - 海外市场,Physical Intelligence的n*0.6模型通过自主经验训练降低复杂任务失败率,特斯拉Optimus 2.5已应用于工厂生产、农场运营等场景 [3] - 国内市场,智源发布RoboBrain2.0具身大脑与RoboBrain-X0小脑基座,蚂蚁灵波科技推出的Robbyant-R1机器人已落地餐饮、导览、医疗问答等场景,多家企业加速推进IPO进程,行业格局即将成型 [3] 智能体系统演进 - AI应用正从单智能体系统向多智能体系统演进,Langchain报告显示当前客服、代码生成等SAS应用占比达63%,但复杂场景下MAS在工作流拟合、降低幻觉等方面优势显著 [3] - Anthropic数据显示,57%的组织已部署智能体处理多阶段工作流,2026年这一比例将升至81%,其中39%计划开发多步骤流程智能体 [3] - MAS的核心突破在于通信协议的统一,2025年MCP与A2A协议先后捐赠给Linux基金会并实现分层融合,成为微软、谷歌、Anthropic等头部厂商的原生支持选择,构成Agent时代的“TCP/IP” [4] AI for Science发展 - AI for Science已从辅助工具升级为AI Scientist,实现“假设提出—实验设计—数据分析—结论推断”的完整科研链路,推动科研模式发生质变 [4] - 2025年以来,谷歌Co-Scientist、斯坦福大学BOMARS等全球各类AI Scientist系统密集发布 [4] - 国际竞争激烈,美国2025年11月启动“创世纪计划”,依托17个国家实验室数据、AuroraGPT模型等存量资产,加速AI4S规模化落地 [5] - 中国呈现“应用强、基座弱”特征,在应用层面具备STEM人才与产业链优势,但在算力、数据、模型三大基础设施上仍有差距,截至2025年国家基础数据中心保有数据量达4.6PB,科学基础模型研发亟待资源整合 [5] C端AI应用竞争 - C端AI竞争聚焦“Super App”,以“All in One”为核心特征,通过一个入口实现信息获取、任务规划到问题解决的闭环 [5] - 海外方面,ChatGPT、Gemini等APP已达成过亿日活,谷歌Gemini已取代Maps原生语音助手,实现功能内化 [5] - 国内方面,蚂蚁灵光上线6天下载量破200万,支持30秒生成小应用与全模态输出,字节豆包依托生态优势MAU位居全球第二 [5] - 垂直赛道潜力巨大,多模态模型展现出“低频高价值”特征,Nano Banana Pro单次调用价格是文本模型的70-120倍,仅需1.5%的调用量即可实现同等收入 [6] - 国内市场,蚂蚁阿福月活超1500万,成为第一大健康管理APP,即梦AI、快对AI等在视频生成、教育等赛道成功突围 [6] ToB AI应用挑战与转机 - 2025年多数ToB AI应用仍停留在PoC阶段,MIT研究显示95%的GenAI Pilot项目未能产生可衡量影响,数据质量、MAS成熟度、成本失控成为主要瓶颈 [6] - 46%的企业将“现有系统集成”列为首要障碍,典型案例中4个Langchain智能体因死循环通信11天损失4.7万美元 [6] - Forrester预测,25%的AI支出将推迟至2027年,40%的Agentic AI项目可能失败 [6] - 反转信号已现,2026年H2将成为ToB应用MVP落地关键期,“Data Gov先行,OTel/MCP并行”的实施路径已明确,核心业务数据治理需3-4个月,简单API连接2-3周即可完成,三大模块并行推进下MVP产品至少需6个月投入 [7] - 医疗、电信、金融等行业已加速推进标准API建设,美国医疗行业CMS新规要求2026年1月部分功能上线,为规模化落地奠定基础 [7] 合成数据发展 - 合成数据正成为AI 2.0时代的“无限燃料”,有效破解真实数据短缺难题 [7] - NVIDIA通过合成数据优化3D检测与机器人轨迹生成,与Sandbox AQ合作构建含520万个新三维分子的训练集 [7] - 银河通用凭借10亿帧合成数据训练出GraspVLA模型,降低具身智能对昂贵真实数据的依赖 [7] - 群核科技基于4.41亿个3D模型构建空间智能飞轮,推动合成数据在工业设计等场景规模化落地 [7] - 合成数据的演进路线已清晰,模型作为反事实数据生成引擎,强化学习作为数据毒性过滤器,二者结合使合成数据的价值与安全性大幅提升,随着修正扩展定律的理论证实,合成数据有望在2026年彻底打破“数据枯竭魔咒” [8] 推理优化与硬件成本 - 推理优化仍是2026年AI大规模应用的关键支撑,算法层面微软BitNetb1.58模型验证了极端量化的可行性,DeepSeek V3.2将长序列推理复杂度从O(L2)降至O(Lk),阿里Qwen3引入混合推理实现成本与质量的平衡 [8] - Epoch AI数据显示,消费级GPU上的开源模型仅需6-12个月即可追平前沿模型能力 [8] - 硬件领域变革加速,ASIC芯片因适配Transformer结构分流GPU负载,存算一体架构在边缘端落地,Google TPU、Groq芯片对英伟达形成挑战 [8] - 成本持续下降印证技术价值,2022年11月至2024年10月,每百万个token推理成本从20美元降至0.07美元,18个月内降幅达280倍 [8] 异构算力基础设施 - 当前全球超5%的AI训练负载依赖NVIDIA+CUDA体系,构建异构全栈基础设施成为破局关键 [9] - 2025年以来,算子开发语言从5种增至9种,MLIR技术的成熟形成“多语言汇一编译器”的漏斗型架构,实现从手写汇编到自动化编译的跨越 [9] - CUDA 13.1版本引入Tile功能提升易用性,Triton生态则凭借多元贡献者优势,实现对多厂商芯片的无缝支持 [9] - 国内方面,智源FlagOS平台构建全栈解决方案,FlagGems纳管18款异构芯片,FlagScale集成并行推理与训练加速能力,通过软硬解耦统领异构算力 [9] AI安全挑战与治理 - AI安全风险持续攀升,2024年全球报告安全事件233起,同比增长56.4%,2025年11月底前已超330起 [9] - 深度伪造、AI监控滥用等事件频发,8家头部企业大模型在“防范灾难性滥用”方面均未达标,Agent系统进一步引入外部模块不稳定性与通信安全风险 [9] - 技术层面,自演化攻防演练扩展监管边界,红蓝智能体集群通过持续博弈可发现人类认知盲区的未知风险 [10] - Anthropic发布回路追踪工具实现偏见精准修正,OpenAI推出Aardvark自动挖掘代码漏洞,“以AI治AI”成为常态 [10] - 产业端,70%的大企业将数据主权与抗注入攻击能力列为一票否决项,蚂蚁推出ASL智能体可信互连技术,360构建类脑分区协同安全大模型,场景化安全护盾加速形成 [10]
刚刚,智源悟界·Emu3.5登场,原生具备世界建模能力
机器之心· 2025-10-30 16:52
模型发布与定位 - 北京智源人工智能研究院发布多模态系列模型最新力作“悟界・Emu3.5”,并将其定义为“多模态世界大模型”[3][4] - 该模型被视为继语言预训练、推理和后训练之后的人工智能第三条Scaling范式,即“多模态Scaling范式”[5] - 公司相信“世界大模型”将开启全新的探索方向,此次发布不仅是常规迭代,更是一次方向性突破[6] 核心技术架构与创新 - 模型采用极简架构,基于一个340亿参数的稠密Transformer模型,创新性地将模型目标统一为“下一状态预测”[11] - 提出“离散扩散自适应”技术,将每张图像的推理速度提升近20倍,且几乎没有性能损失,使自回归模型在推理速度和生成质量上可与顶级闭源扩散模型媲美[6][24] - 模型具备“原生多模态”特性,能生成交错的视觉-语言输出,实现文本、图像、视频三种模态数据的理解和生成大一统[10][11] 训练数据与流程 - 模型在超过10万亿多模态Token(主要源自互联网视频,总时长约790年)上进行端到端预训练,以学习现实物理世界的动态规律[5][16] - 训练流程分为四个核心阶段:大规模预训练(分两步进行,分别在10万亿和3万亿Token的数据上)、监督微调(使用1500亿样本的高质量数据集)、大规模多模态强化学习以及高效自回归推理加速[17][21][22][24] - 使用视频数据作为训练主体,因其能教会模型现实世界的物理动态、时空连续性和因果规律,而静态图文对只能识别“这是什么”[16] 模型能力与表现 - 模型展现出高级功能,包括生成图文并茂的故事、长时程视觉指导、复杂图像编辑、世界探索和具身操作等[5][35][36] - 在图像编辑任务上达到与谷歌Gemini-2.5-Flash-Image相当的性能,并在文本渲染和交错内容生成任务上显著超越对手[6][28] - 具备视觉叙事能力,能生成逻辑连贯、画面风格统一的系列图文卡片;具备视觉指导能力,可生成分步的、带有视觉示例的教程[11][13] 行业影响与未来应用 - 模型标志着多模态模型从执行单一任务向能够进行连续、多步、跨模态创造的“世界学习器”迈出关键一步,为构建更接近人类自然学习方式的世界模型提供了范例[14][44] - 其世界建模与探索能力为具身智能领域补全关键拼图,可作为无限数据生成器,生成虚拟环境、任务和分步规划数据,助力训练更通用的具身智能体[35][36][39][41] - 公司宣布后续将开源Emu3.5,以支持全球AI研究社区的进一步研究,为其提供一个强大的新基座[7][45]