世界模型
搜索文档
CES观察|能跑跳、能干活、能签单,中国人形机器人站上C位
贝壳财经· 2026-01-09 17:35
行业趋势:中国企业在全球人形机器人领域占据主导地位 - 在CES 2026全部598家机器人相关参展商中,中国企业达到149家,占比接近四分之一 [1] - 在人形机器人展区,38家参展企业中有21家来自中国,占比超过一半 [1] - 行业观点认为,中国人形机器人在品类、供应链和产品性价比上具有优势,且技术转化量产能力强,在工业、商用及家庭陪伴等场景的应用已走在前列,预计2026年将成为行业爆发拐点 [1] 参展企业技术展示与产品应用 - **运动控制技术**:宇树科技通过G1机器人的舞蹈与拳击演示体现高精度扭矩控制与动态平衡技术;众擎T800通过格斗动作展示关节高爆发性与高灵活度技术 [4] - **AI具身智能与场景应用**:智元展示了全系列机器人及在语言交互、舞蹈、酒店服务场景的作业能力,并发布基于大语言模型的开源仿真平台Genie Sim 3.0 [6];星动纪元通过端到端VLA具身大脑ERA-42实现高自由度遥操作与场景自适应交互 [6];北京人形机器人创新中心的具身天工2.0展示了基于跨本体VLA模型XR-1的全自主分拣功能 [6] - **家庭与商用陪伴**:傅利叶GR-3通过“井字棋”对弈和情感化交互展示主动陪伴价值;乐享科技(元点智能)推出从大型通用机器人Jupiter到家庭陪伴机器人M1的全线产品,强调情感联结 [7] 市场拓展与商业落地进展 - 加速进化的Booster K1在展会首日即售出数十台;魔法原子的MagicDog在开业第一天已卖出数条 [8] - 松延动力携“小顽童N2”参展,计划在北美、中东、欧洲、东南亚、日韩五大区域市场于第二季度力争实现千台量级规模的市场拓展 [8] - 北京人形机器人创新中心首次参展CES,旨在国际打造影响力并推动海外布局 [8] 产业链核心部件与技术创新 - **灵巧手**:灵心巧手展示了已量产的高自由度产品Linker Hand L20系列及驱控一体的工业版本 [10];灵巧智能首次参展带来DexHand021 Pro灵巧手,提供22个自由度,价格下探至1.4万至2.8万美元区间,称价格仅为国际同类产品的五分之一 [10] - **感知技术**:帕西尼感知科技展出第三代多维触觉传感器PX-6AX-GEN3,并演示搭载该传感器的机器人完成制作冰激凌等任务 [11] - **基础软件与系统**:极佳视界专注于世界模型方向,指出2026年世界模型主要作为评估器、强化学习环境及在World Action Model方面将有更多进展 [11];睿尔曼智能展示了从关节模组、机械臂到远程作业网络的全链路布局,并完成了从“北京-拉斯维加斯”跨洋实时遥操演示 [11] 行业生态与竞争格局 - 中国机器人供应链企业集中展示核心技术能力与产品输出,标志着产业生态正走向专业化、成熟化 [9] - 全球人形机器人竞赛的下半场不仅是技术比拼,更是工程化、商业化与生态构建能力的综合较量,一个分工明确、效率显著的产业生态正在形成 [12]
马斯克diss英伟达自动驾驶:再等五六年
搜狐财经· 2026-01-09 16:00
文章核心观点 - 英伟达与特斯拉在自动驾驶领域从互补转向直接竞争 英伟达通过发布Alpamayo自动驾驶平台 以开放生态模式赋能车企 而特斯拉则凭借其庞大的真实路测数据与闭环迭代能力构建护城河 双方在技术路线、商业模式和产业生态上展开全面较量[1][5][26] 英伟达的战略与方案 - 发布Alpamayo自动驾驶平台 核心在于提供一套开发范式与基础设施 而非完整自动驾驶系统[7] - 技术核心是首次将视觉-语言-行动模型与思维链推理大规模应用于自动驾驶 旨在实现决策过程的可解释与可调试[7][9][11] - 商业模式为赋能者 提供作为“教师模型”的Alpamayo 1 供车企利用自身数据训练轻量级“学生模型” 避免与客户直接竞争[11] - 配套提供AlpaSim高保真仿真平台及超过1700小时带有因果标注的真实世界驾驶数据集作为训练资源[11] - 其开放平台策略已吸引客户 例如梅赛德斯-奔驰已开始与Alpamayo合作[24] 特斯拉的战略与优势 - 特斯拉对其他汽车制造商推销其FSD完全自动驾驶系统 与英伟达形成竞争关系[5] - 核心优势在于数据规模与真实路测 特斯拉FSD每天行驶里程超过1400万英里 并已开始完全无人Robotaxi测试[16] - 认为实现安全、无人监督的自动驾驶需要约100亿英里的训练数据[16] - 构建了“数据飞轮”闭环:更多车辆上路收集长尾场景数据 驱动模型快速迭代 该闭环建立在全球数百万辆保有车辆基础上[18][19] - 认为依赖仿真与有限路测无法赶上特斯拉 强调规模、数据和迭代是关键[16] 技术路线对比 - 英伟达路线:基于VLA和思维链 试图从外部通过仿真和标注数据构建“解释性推理” 更“白盒”[7][19] - 特斯拉路线:基于纯视觉感知和端到端神经网络 其系统性能提升高度依赖真实世界数据飞轮 更“黑箱”但经过现实锤炼[18][19] - 文章指出 基于信息进行推理并非英伟达独有 华为、蔚来等公司的智驾技术以及理想、小鹏、元戎启行等企业已在相关领域有所布局[13] - 特斯拉FSD本身是VLA和世界模型技术的大融合[13] 竞争本质与行业影响 - 竞争本质是生态位之战 特斯拉作为整车制造商 其“运动员”兼潜在“裁判”身份使其他车企难以采用其FSD方案 因涉及数据主权与供应链风险[24] - 英伟达作为不造车的纯技术供应商 其“赋能模式”让车企掌握数据主权和系统差异化能力 更易被行业接受[24] - 自动驾驶竞争从单车智能比拼 升级为数据生态、开发范式与产业联盟的全面较量[26] - 英伟达赌的是生态的广度 通过开放平台加速整个行业 特斯拉赌的是技术的深度与迭代速度[26] - 文章指出 在英伟达与特斯拉的竞争背后 中国企业在工程底蕴、市场规模和内卷力度上不容忽视[26]
最前线|吉利发布全域AI2.0架构和世界行为模型,“1-2周可迭代一次”
36氪· 2026-01-09 15:34
公司战略与技术发布 - 吉利汽车于2025年1月5日宣布其全域AI技术体系升级至2.0时代,核心成果是发布了具备自我反思和进化能力的WAM世界行为模型[1] - 公司同时发布了千里浩瀚辅助驾驶系统的英文名称G-ASD,并宣布新一代系统升级为千里浩瀚G-ASD[1][3] - WAM模型采用分层设计,实现从“理解-规划”到“预演-判断-修正”的智能闭环,旨在构建统一的“整车通用大脑”[1][5] - 公司认为WAM是增强型的“世界模型”,区别于行业内的VLA和WM,其关键优势在于融合了基于沃尔沃的安全大数据、整车各域参数及互联网生态感知要素[3][5] - WAM的迭代能力极强,可做到一周到两周内迭代一次,旨在实现辅助驾驶能力的跨越式进步[3][10] 技术架构与核心能力 - WAM模型旨在解决极端场景问题,通过庞大的数据模拟罕见场景,实现“虚实结合”[3][9] - 千里浩瀚G-ASD在行车、安全、泊车能力上均有明显进化,具体功能包括多把掉头、一键启动NZP、车位到车位领航辅助、紧急停车辅助、G-AES通用障碍物自动紧急转向及智能泊出辅助等[4][6] - 系统产品能力覆盖L2辅助驾驶、L3有条件自动驾驶及L4自动驾驶,最新版本G-ASD3已开始通过OTA向极氪、领克多款车型推送[4][6] - 千里浩瀚G-ASD搭载了Smart AI Agent架构,实现云端大模型生成仿真数据与车端VLA模型深度理解环境的闭环[10] - 针对L3级自动驾驶,公司设计了安全对抗模型以检验系统安全性[10] 硬件配置与算力布局 - 千里浩瀚方案按硬件配置区分,例如H9方案标配5颗激光雷达实现3重360°全维覆盖[11] - 千里浩瀚H7方案采用Thor芯片及双Orin芯片,H9方案采用两颗Thor芯片,提供1400TOPS同级最高算力[11] - 公司以X*Y表达辅助驾驶能力,X为模型能力,Y为算力,认为算力越大对安全性保障越好[11] - 极氪9X目前车端算力为两个Thor-U芯片,算力达1400TOPS,为行业最大[12] - 公司采用车云结合的总体架构,云端依托星睿智算中心2.0的综合算力,车端处理环境感知与执行[13] 数据与模型优势 - 公司云端多模态大模型+世界模型参数达1000亿级别[11] - 公司拥有行业第一的辅助驾驶里程数据:850万辆吉利车型搭载辅助驾驶系统,累计辅助驾驶里程超过百亿公里[11] - 公司拥有行业领先的2500万clips模型数据片段及行业第一的安全事故数据集,并建立了全生命周期数据闭环系统[11] - 通过全球全域安全中心,公司将事故诱因数据、驾驶员习惯数据融入世界模型,以增强拟人性和通过精准场景模拟实现断代式领先[12][13] - WAM模型的关键在于数据训练能力,公司通过融合多域数据构建核心竞争力[12][14] 产品部署与规划 - 千里浩瀚H1-H9代表不同的硬件配置方案,G-ASD是整体解决方案的英文名及软件版本命名,旨在实现跨品牌跨车型的普惠搭载[6] - 极氪品牌中,001车型搭载千里浩瀚H7;7X、9X、009、007、007GT、MIX等车型将搭载千里浩瀚G-ASD[4][7] - 领克品牌中,领克900搭载千里浩瀚H7;10 EM-P、全新07 EM-P、全新08 EM-P等车型将搭载千里浩瀚G-ASD[4][7] - 搭载千里浩瀚H5、H7、H9的车型将在1月份迎来全面更新[8] - L3级别智能驾驶的相关车型量产和国家试点申报已完成功能开发和验证,公司将尽快推动正式上路试点[4][9] 行业竞争与目标 - 2025年车企智能辅助驾驶进入大模型阶段,蔚来、理想抢滩VLA,车端模型参数量动辄40亿起步,但行业普遍评价其量产效果不高[3] - 以华为为代表的企业认为世界模型才是终极路线,可避免经过语言模型转录导致的延时和信息损失[3] - 公司2026年的目标是使辅助驾驶和座舱在行业中领先,通过强化世界模型,在超拟人方向做到领先水平[13] - 公司认为AI与汽车结合的最终状态是“智慧生命体”,关键在于辅助驾驶和座舱的结合,其智能体Eva将加快进化并与辅助驾驶域结合[13][14] - WAM模型的能力可应用于多域融合调动,提升辅助驾驶与底盘域、动力域之间调动的效率,例如在极端碰撞场景下主动调动车身进行防御[14] 组织与实施 - 公司推行“辅助驾驶一盘棋”战略,在组织、业务、人才等方面进行统一,并建立了“一个大研究院”[5][14] - WAM涉及的跨域融合与多部门协调由研究院总负责人李传海领衔,下属部门以“经营体”方式运作,旨在打破部门墙,发挥员工主动性[14] - 多域融合的推动自2022年搭建星睿智算中心时已经开始,并已快速提升了云端算力、世界模型等多项能力[15]
前华为天才少年首发声,国产智能或实现量产,多机协同是未来关键
搜狐财经· 2026-01-09 14:41
行业趋势与驱动力 - 2025年具身智能赛道热度居高不下,其确定性发展前景吸引了科技巨头加码与初创公司融资,资本市场遵循长期逻辑 [3] - 一二级市场联动明显,上市公司布局机器人领域旨在赋能传统制造业、打造第二增长曲线并盘活团队,同时获得国内政策助力 [3] - 技术成熟度在2025年显著提升,机器人从2024年实验室的脆弱演示品发展为更抗造、能应对脚滑等复杂情况的产品 [5] - 大模型发展使具身智能的“智能”发生质变,简单任务成功率从60%-90%提升至100%,复杂任务成功率也稳步上升 [5] 核心技术瓶颈与解决方案 - 行业当前最大瓶颈是高质量、大规模的物理交互数据稀缺,且真实数据采集成本极高 [8] - 仿真合成数据与数据工厂是重要解决方案,通过“数据金字塔”定位:第一层为基础数据,第二层为强化学习策略应用,第三层为真机部署 [8] - 世界模型的核心价值在于高效、低成本生成第一层基础数据,补充数据多样性,支撑模型训练 [10] - 仿真数据在第二层有助于快速测试和模型收敛,数据工厂则聚焦真机数据,服务于第二、三层,尤其弥补仿真拟合不准的非平稳振动场景 [10] - 仿真数据与数据工厂是互补关系,前者支撑基础模型训练,后者服务后期模仿学习等场景 [10] - 行业核心困境仍是缺少需要海量数据支撑的优质基础模型,仿真与人类视频数据技术尚未满足规模化应用 [12] 商业化落地挑战 - 大规模落地面临成本难题,例如高性能工控电脑价格达几万元,优质灵巧手价格在上万至三五万元区间 [13] - 场景化产品定义不清晰,例如工厂场景中人形机器人的投入产出比与效率尚未算清 [13] 未来发展方向与竞争格局 - 行业未来形态并非“通用智能体统一天下”或“专用智能体生态”,而是多机异构路线,即多个不同类型机器人协同工作、分工协作 [15] - 2026年全球竞争中,中国公司的核心赛点是产品落地与数据闭环,通过产品抢占场景、沉淀数据以反哺模型迭代并吸引人才回流 [15] - 首款能大面积铺开的具身智能落地产品很可能在中国诞生 [15] - 随着技术成熟、成本下降及场景明晰,具身智能将走进更多家庭和行业,中国有望在该赛道交出亮眼答卷 [15]
当我们把3DGS在工业界的应用展开后......
自动驾驶之心· 2026-01-09 14:32
理想汽车在3DGS领域的技术布局与路线 - 公司对世界模型的定义为“重建+生成”,核心是利用3DGS技术重建自动驾驶场景,再结合生成方法实现闭环仿真或场景生成 [1] - 公司在重建方面的具体工作包括:在ECCV2024中稿的StreetGaussian、发布3DRealCar大规模车辆资产重建数据集、开发使训练速度提升近八倍的3DGS训练加速算法Balanced3DGS、在ICCV2025中稿的Hierarchy UGP,以及开发具有时空一致性的多风格场景生成算法StyledStreets [2] 3DGS技术的行业价值与发展趋势 - 3DGS的高保真场景重建与可编辑能力,解决了自动驾驶测试中依赖实车、难以复现极端案例以及传统仿真存在较大领域差距的问题 [3] - 行业技术发展遵循一条清晰路径:从静态重建演进到动态重建,再到混合重建,最终发展至前馈GS [3] - 该技术不仅是自动驾驶领域的关键需求,也正在3D领域、具身智能及游戏行业推动落地,目前市场上掌握3DGS全栈技术的工程师非常稀缺 [3] 3DGS技术课程的核心内容架构 - 课程第一章涵盖计算机图形学基础,包括三维空间的隐式与显式表达、渲染管线、光线追踪、辐射场渲染,并介绍COLMAP、Gsplat等主流开发工具,通过基于3D Real Car数据集的实践作业帮助入门 [10] - 第二章深入讲解3DGS原理、核心伪代码,并覆盖动态重建、表面重建、鱼眼重建和光线追踪的经典与最新算法,实战部分采用英伟达开源的3DGRUT框架 [11] - 第三章聚焦自动驾驶仿真重建,重点解析Street Gaussian、OmniRe和Hierarchy UGP三篇工作,实战选用DriveStudio框架 [12] - 第四章探讨3DGS的重要研究方向,包括COLMAP扩展、深度估计及Relighting,并分析其工业应用与学术前景 [13] - 第五章讲解当前热门的Feed-Forward 3DGS,梳理其发展历程与原理,并解析AnySplat和WorldSplat两篇最新算法工作 [14] 课程面向人群与学习收获 - 课程面向具备一定计算机图形学基础、了解视觉重建/NeRF/3DGS等技术、拥有概率论与线性代数基础、熟悉Python和PyTorch的学员,学习需自备推荐算力在4090及以上的GPU [19] - 学员通过学习将掌握3DGS完善的理论知识及相关技术栈、掌握算法开发框架并能够训练开源模型,同时获得与学术界及工业界同行持续交流的机会,对实习、校招和社招均有助益 [19]
让世界模型推理效率提升70倍:上海AI Lab用“恒算力”破解长时记忆与交互瓶颈
量子位· 2026-01-09 12:09
文章核心观点 - 视频生成领域的技术瓶颈正从追求画质转向构建具备长期记忆和强交互能力的“世界模型”,上海AI Lab联合多家机构开源的Yume项目通过其核心的时空信道联合建模(TSCM)架构,为解决长视频生成中的记忆与计算矛盾提供了工程化落地的可行路径,并展示了显著的性能提升 [1][2][3] Yume项目概述与定位 - Yume是一个持续迭代、完全开源的世界模型项目,旨在理解物理规律、具备长期记忆并支持实时交互,被视为通往通用人工智能(AGI)的关键路径 [3][4] - 项目已发布Yume1.0和Yume1.5版本,其中Yume1.0是第一个完全开源(包括数据、测试集、代码和权重)的面向真实世界的世界模型 [3] 核心技术创新:时空信道联合建模(TSCM) - TSCM是Yume1.5的核心架构创新,旨在解决长视频生成中的上下文爆炸和计算瓶颈问题,实现了近似恒定计算成本的全局记忆访问 [1][4][11] - 该框架通过统一的上下文压缩与线性注意力机制,避免了存储所有历史Token导致的GPU显存耗尽,以及生成时间随历史长度线性增加的问题 [5][15] - TSCM包含两个并行的压缩流:时空压缩与通道压缩,并通过特征融合层将两者提取的特征进行融合 [16][20] - **时空压缩**:通过对历史帧进行自适应时空下采样来减少Token数量,策略是近期的记忆清晰,远期的记忆模糊,例如对最近1-2帧采用(1,2,2)采样,对更早的帧采用(1,8,8)采样 [17][18] - **通道压缩**:将历史帧的通道维度从标准维度(如1024或768)强制压缩至96,配合线性注意力机制,使得计算量几乎恒定,不随历史信息增长而显著增加 [19][23] 数据策略 - 训练数据包括开源的Sekai数据集,该数据集覆盖全球750个城市,累计时长达5000小时的高质量第一人称(POV)视频数据 [8] - Yume1.0引入了量化相机轨迹方法,能将现实世界的运动转换为离散的键盘按键 [9] - Yume1.5额外引入了高质量的文本到视频(T2V)合成数据集,并为了生成特定“事件”,构建了专门的事件数据集 [10] - 事件数据集的构建通过两种方式:1) 人工构造,招募志愿者编写涵盖日常、科幻、奇幻、天气等四大类的事件描述来合成数据;2) 利用InternVL3-78B大模型对Sekai数据进行重标注,将背景描述改写为关注动作和事件的提示词 [14] 推理与训练加速 - 引入了类似于Self-Forcing的训练策略,在微调阶段让模型自己生成上一帧作为条件来预测当前帧,结合TSCM替换滑动窗口的kv cache,使得仅用64帧长度的训练即可外推到近半分钟的视频生成,训练高效 [24] - Yume1.0引入了OSV(一种对抗蒸馏方法)以加速扩散模型的采样 [24] - 通过提示词解耦与缓存策略优化推理效率:将提示词解耦为**事件描述**(仅在初始化或新指令时编码一次)和**动作描述**(词汇量有限固定,预先计算并缓存其T5Embedding),显著降低了文本编码器在实时推理中的计算占比 [25][27] - 定义了一套详细的键盘动作词汇表来控制视角移动,例如W/A/S/D控制前后左右移动,箭头和字母组合控制视角转动 [26] 性能表现 - **生成速度**:Yume1.5的生成时间从Yume1.0的572秒大幅缩短至8秒 [29] - **指令跟随(IF)能力**:Yume1.5的IF得分高达0.836,证明了其控制方法的有效性 [29] - **综合评分**:在多项指标上表现优异,例如场景一致性(SC)得分0.932,背景一致性(BC)得分0.985,图像质量(IQ)得分0.728 [29] - **消融研究验证**:移除TSCM改用简单的空间压缩后,指令跟随能力从0.836降至0.767,且TSCM使得自回归推理时间在8个block后保持稳定,不随上下文增加而增长 [30][32] 开源与易用性 - 项目全面开源,提供了论文、代码、主页和数据链接 [40] - 为了方便使用,Github主页提供了Windows下的一键启动方案来运行Web Demo,例如通过运行`run_oneclick_debug.bat`脚本,该程序已在RTX4090 Laptop GPU(16GB显存)上测试通过 [34][35] 当前局限与未来展望 - **物理逻辑缺失**:模型缺乏物理引擎支撑,偶发因果谬误(如倒行)及长周期细节漂移,TSCM仅起到缓解作用 [36] - **模型规模权衡**:当前使用5B参数模型以妥协实时性,为突破性能瓶颈(如迈向30B+规模),未来计划采用混合专家(MoE)架构以兼顾高性能与低延迟 [37] - 项目开源期望加速世界模型的研究,随着技术迭代,生成内容与真实内容的界限将愈发模糊 [38]
智源研究院发布2026十大AI技术趋势:“技术泡沫”是假命题
新京报· 2026-01-09 11:52
核心观点 - 智源研究院发布了对2026年人工智能发展趋势的判断 涵盖基础模型 AI应用 重点行业等多个方面 [1] 基础模型发展趋势 - 世界模型成为实现通用人工智能的共识方向 人工智能正从语言学习迈向多模态世界学习 原因在于高质量文本数据已基本耗尽 且AI需理解物理世界运行规律 处理图像 声音 时间 空间等多模态信息 [3] - 大模型推理能力的技术泡沫是假命题 2025年推理优化的实践探索远未触及天花板 2026年该领域的进展仍是支撑AI大规模应用的关键因素 [4] 具身智能发展趋势 - 目前具身智能企业数量已超过230家 但创业公司业务模式同质化 可能面临行业出清 [3] - 技术演进上 引入世界模型可能成为具身智能下一阶段的重要技术锚点 [3] AI应用发展趋势 - C端AI应用的竞争核心在于对超级应用的攻略 典型特征为All in One的功能设计 通过一个入口实现从信息获取 任务规划到问题解决的闭环 不再局限于单一工具属性 [3] - 尽管通用赛道巨头林立 但在大健康 教育等高壁垒垂直领域 垂直应用仍展现出差异化竞争力 存在突围机遇 [3]
智源《2026十大 AI技术趋势》:“技术泡沫”是假命题,具身智能将迎行业“出清”
中国经营报· 2026-01-09 00:31
核心观点 - AI发展正经历根本性转变,从功能模仿和预测下一个词,转向理解物理世界规律和预测世界的下一个状态,发展路径日益清晰,目标是真正融入实体世界 [1] - 2026年将是AI从数字世界迈入物理世界、从技术演示走向规模价值的关键分水岭 [4] 2026年十大AI技术趋势总结 - **趋势一:世界模型成为AGI共识方向**,下一状态预测或成为新范式 [2] - **趋势二:具身智能迎来行业“出清”**,产业应用迈入广泛工业场景 [2] - **趋势三:多智能体系统决定应用上限**,Agent时代的“TCP/IP”初具雏形 [2] - **趋势四:AI在科研中的角色升级**,从辅助工具升级为自主研究的“AI科学家”,国产科学基础模型悄然孕育 [2] - **趋势五:AI时代头部新格局趋于明确**,垂直赛道仍有高盈利玩法 [2] - **趋势六:产业应用将经历“V型”反转**,预计在2026年下半年从“幻灭低谷期”迎来反转 [2] - **趋势七:合成数据占比攀升**,有望破除“2026年枯竭魔咒” [2] - **趋势八:推理优化远未触顶**,“技术泡沫”是假命题 [2] - **趋势九:开源编译器生态汇聚众智**,异构全栈底座引领算力普惠 [2] - **趋势十:AI安全迈向新阶段**,从幻觉到欺骗,迈向机制可解释与自演化攻防 [2] 具身智能发展 - 具身智能正脱离实验室演示,进入产业筛选与落地阶段 [2] - 随着大模型与运动控制、合成数据结合,人形机器人将于2026年突破Demo,转向真实的工业与服务场景 [2] - 具备闭环进化能力的企业将在这一轮商业化竞争中胜出 [2] - 头部科技公司的人形机器人正进入真实生产场景,标志着“具身智能”走出实验室 [4] 对“技术泡沫”与推理效率的研判 - 推理效率仍是AI大规模应用的核心瓶颈与竞争焦点,“技术泡沫”实际是个假命题 [3] - 通过算法创新与硬件变革,推理成本持续下降,能效比不断提升 [3] - 这使得在资源受限的边缘端部署高性能模型成为可能,是AI普惠的关键前提 [3] 合成数据的作用 - 合成数据正成为模型训练的核心燃料,以应对高质量真实数据枯竭问题 [3] - “修正扩展定律”为其提供了理论支撑 [3] - 尤其在自动驾驶和机器人领域,由世界模型生成的合成数据,将成为降低训练成本、提升性能的关键资产 [3] 驱动AI转变的三条主线 - **主线一:认知范式的“升维”**,AI开始学习物理规律,为自动驾驶仿真、机器人训练等复杂任务提供全新的“认知”基础,成为国内外领先模型厂商竞相布局的战略高地 [4] - **主线二:智能形态的“实体化”与“社会化”**,智能从软件走向实体,从单体走向协同;同时,主流Agent通信协议的标准化,让多智能体能够以“团队”形式攻克科研、工业等复杂任务流 [4] - **主线三:价值兑现的“双轨应用”**,在消费端,一个“All in One”的超级应用入口正在形成,国内外科技巨头基于各自生态积极构建一体化AI门户;在企业端,经历早期概念验证的“幻灭期”后,AI正凭借更好的数据治理与行业标准接口,在垂直领域孕育出真正可衡量商业价值的产品 [4]
智源2026十大趋势预测:AI在物理世界「睁眼」
搜狐财经· 2026-01-09 00:08
核心观点 - 人工智能正经历从预测文本到预测世界状态的根本性转变,其发展路径日益清晰,即真正融入实体世界,解决系统性挑战 [1][17] 世界模型与认知范式 - 行业共识正从单一的语言模型转向能够理解物理规律的多模态世界模型 [3] - Next-State Prediction范式的确立标志着AI开始尝试预测世界的下一个状态,跨越感知边界,触碰真正的认知与规划 [3] 具身智能与机器人 - 具身智能正在告别单纯的演示炫技,进入残酷而真实的产业筛选期 [4] - 随着大模型与精细运动控制的深度结合,人形机器人将在2026年突破Demo的限制,真正走入工厂与服务场景 [5] 多智能体系统 - Agent时代的通信标准如MCP、A2A等初具雏形,让智能体之间拥有了通用的交流语言 [6] - 多智能体系统将彻底突破单体智能的天花板,在科研与工业的复杂工作流中成为未来数字世界不可或缺的基础设施 [6] AI驱动科学研究 - AI在科学中的角色已从辅助者晋升为探索者,AI Scientist正展现出独立研究的潜质 [7] - 科学基础模型与自动化实验室的结合,极大地压缩了新材料与药物研发的时间周期 [8] 应用格局与竞争 - C端超级应用的"All in One"入口成为兵家必争之地,海外有OpenAI与Google引领,国内字节、阿里、蚂蚁等巨头依托生态积极布局 [9] - 蚂蚁推出的全模态助手"灵光"与深耕医疗健康的"蚂蚁阿福",分别在通用与垂直领域布局 [10] 企业级应用发展 - 企业级AI应用在经历初期的狂热后,因数据与成本的双重压力,暂时滑向"幻灭低谷期" [11] - 随着数据治理的完善与工具链的成熟,2026年下半年将迎来关键转折点,一批真正可衡量价值的MVP产品将在垂直行业实现规模化落地 [11] 合成数据应用 - 当真实世界的数据矿藏渐趋枯竭,合成数据成为了新的动力源泉,"修正扩展定律"为这一路径提供了理论支撑 [12] - 在自动驾驶与机器人领域,由世界模型生成的合成数据正成为降低训练成本、提升模型性能的核心资产,是打破"2026年枯竭魔咒"的潜在解法 [12] 推理优化与成本 - 推理优化依然是AI大规模应用的核心瓶颈与竞争焦点,通过算法精进与硬件革新,推理成本持续下降,能效比不断攀升 [13] - 这使得在资源受限的边缘端部署高性能模型成为可能,让AI普惠的愿景有了脚踏实地的路径 [14] 开源生态与算力 - 为规避算力供应风险,构建兼容异构芯片的软件栈显得尤为紧迫,繁荣的算子语言与趋于收敛的编译器技术正在大幅降低开发门槛 [15] - 以智源FlagOS为代表的平台致力于构建软硬解耦、开放普惠的AI算力底座,开源生态将成为打破垄断、实现算力自由的关键力量 [16] AI安全 - AI安全问题已从显性的"幻觉"演变为隐蔽的"系统性欺骗" [17] - 安全必须内化为AI系统的免疫基因,Anthropic对模型内部机理的追踪以及蚂蚁集团构建的"对齐-扫描-防御"全流程体系均指向这一方向 [17]
有关世界模型、具身智能等,智源发布2026十大AI技术趋势
北京商报· 2026-01-08 19:25
北京商报讯(记者 魏蔚)1月8日,北京智源人工智能研究院(以下简称"智源研究院")发布年度报告 《2026十大AI技术趋势》。报告指出,人工智能的演进核心正发生关键转移:从追求参数规模的语言 学习,迈向对物理世界底层秩序的深刻理解与建模,行业技术范式迎来重塑。 根据报告,十大趋势包括:世界模型成为AGI 共识方向,Next-State Prediction 或成新范式;具身智能迎 来行业"出清",产业应用迈入广泛工业场景;多智能体系统决定应用上限,Agent 时代的"TCP/IP"初具 雏形;AI Scientist 成为AI4S 北极星,国产科学基础模型悄然孕育;AI 时代的新"BAT" 趋于明确,垂直 赛道仍有高盈利玩法;产业应用滑向"幻灭低谷期",2026H2 迎来"V 型"反转;合成数据占比攀升,有 望破除"2026 年枯竭魔咒";推理优化远未触顶,"技术泡沫"是假命题;开源编译器生态汇聚众智,异 构全栈底座引领算力普惠;从幻觉到欺骗,AI 安全迈向机制可解释与自演化攻防。 智源研究院院长王仲远发布了十大AI技术趋势,并详细阐释了这一变革。基础模型的竞争,焦点已 从"参数有多大"转变为"能否理解世界如 ...