世界模型

搜索文档
WAIC 2025上海开幕,“绝影开悟”世界模型升级亮相
中国汽车报网· 2025-07-28 10:45
公司动态 - 商汤绝影在2025世界人工智能大会上展示全新升级的"绝影开悟"世界模型,该模型是行业首个已量产、可交互的生成式世界模型产品平台 [1] - 公司发布业内最大规模的生成式驾驶数据集"WorldSim-Drive",持续赋能辅助驾驶行业 [1] - 商汤绝影与上汽集团旗下智己汽车深度合作,已打通Cut-in、碰撞等场景的数据生成链路,未来将共同打造数据工厂加速辅助驾驶系统落地 [4] - 公司正式发布辅助驾驶领域首个生成式世界模型产品平台,面向B/C端用户开放试用,基于"绝影开悟"世界模型构建 [4] 技术突破 - "绝影开悟"世界模型具备强大的物理规律理解与场景控制生成能力,是业内首个应用于真值训练数据生产的世界模型 [4] - 公司20%的数据通过世界模型生产,生产效率很高 [4] - 商汤绝影展示虚实融合的数据范式,以人、物体、场景为核心生成时空一致的第一视角和第三视角数据,赋能具身智能领域 [3] - 公司技术可生成千万级场景数据,打造实时交互训练场,同时构建具身智能的数据引擎 [3] 行业影响 - 商汤绝影深度参与上海自动驾驶实训场建设,以世界模型的数据生成和仿真测试能力赋能实训场 [3] - 公司在WAIC 2025展台提供世界模型实时交互体验,观众可通过简洁界面生成场景视频体验领先数据集性能 [7] - 商汤绝影CEO表示世界模型将AI创造力转化为生产力,搭建AI从数字世界通往物理世界的桥梁 [3]
具身智能迎来实力派!十年多模态打底,世界模型开路,商汤「悟能」来了
量子位· 2025-07-27 19:57
商汤科技具身智能平台发布 - 公司在WAIC 2025论坛正式发布「悟能」具身智能平台 标志着其入局具身智能领域[1][2] - 该平台是公司从感知视觉、多模态走向物理世界交互的必然结果 依托超过十年的行业落地经验积累[13] - 平台架构包含感知、决策与行动等多个层次 支持自动驾驶、机器人等具身场景的功能实现[27] 日日新V6.5多模态模型 - 新模型独创图文交错思维链 使图像以本体形式参与推理 跨模态精度显著提升[4][6] - 在MathVista等数据集上超越Gemini 2.5 Pro 如MathVista得分83.1 vs Gemini的80.9[8][9] - 相比6.0版本性能提升6.99% 推理成本降至30% 性价比提升5倍[10] 开悟世界模型技术特点 - 包含10万3D资产 支持多视角视频生成 最多11个摄像头角度并保持150秒时空一致性[16] - 支持参数化编辑 可一键变换天气、光照等环境要素[20] - 同时处理人、物、场信息 构建4D真实世界 融合第一与第三视角[21][23][25] 具身智能商业化路径 - 采取"软硬协同"路线 已与人形机器人、物流搬运等厂商达成合作预装模型[29] - 通过硬件销售积累视觉、语音和操作数据 形成正向数据飞轮[30] - 验证"通用大脑+场景闭环"双轮路径 多模态大模型与垂直应用相互促进[39] 行业痛点解决方案 - 通过虚拟环境合成99%数据 配合1%真机样本解决数据稀缺问题[32][33] - 同步生成并标定第一和第三视角数据 确保时空一致性 缩短仿真与现实落差[35] - 感知层多传感输入 决策层LLM+世界模型协同 行动层端到端控制形成闭环[34]
上海徐汇揭牌建立模速空间海归人才创新创业基地
新华财经· 2025-07-27 18:38
行业动态 - 2025世界人工智能大会"归潮新声:青年海归科技对话"活动在上海西岸智塔启幕,模速空间海归人才创新创业基地正式揭牌发布 [1] - 上海人工智能实验室有限公司、上海未来产业基金、上海临港科创投资管理有限公司、徐汇资本四方签署科技成果转化战略框架协议,推动人工智能领域顶尖科研力量与资本、产业资源精准对接 [1] - 上海徐汇区相关负责人表示徐汇的今天因人工智能而重塑,徐汇的明天靠青年人才而定义 [1] 技术发展 - 中国工程院外籍院士张建伟展示具身智能在未来的广泛应用场景,认为应通过产学研国际合作应对全球重大挑战 [2] - 商汤科技联合创始人王晓刚分享与世界模型协同交互的生成式智驾方案,通过4D仿真复现、强化学习等方法实现数字世界向物理世界的跃进 [2] - 智平方科技创始人郭彦东指出中国正成为科技制造业创新的沃土,具备辽阔的机器人市场,未来希望用中国的人工智能与硬件供应链做世界的新终端 [2] 产业生态 - 专家呼吁构建"政府引导-高校支撑-企业主体-专家助力"的协同生态,让智慧种子结出产业硕果 [2] - 圆桌讨论探讨"协同筑生态·智汇共发展——海归人才与产业创新的共生之路",共话打破壁垒、建立常态化的沟通协作机制、加速成果转化的新思路 [2]
实现 Agent 能力的泛化 ,是否一定需要对世界表征?
机器之心· 2025-07-27 09:30
实现 Agent 能力的泛化,是否一定需要对世界表征 - 现代AI智能体定义为能够感知环境、自主行动并提升性能的实体,其核心在于具备泛化能力,区别于仅响应预设规则的机器人[5] - 学界存在两大思想脉络:无模型范式认为智能行为可通过感知-行动循环直接涌现,无需构建显式世界模型;基于模型范式则认为灵活目标导向行为必须依赖内部世界表征[5] - DeepMind通过数学框架证明,具有泛化能力的智能体必然内化世界表征,且从策略本身可恢复环境转移函数的近似模型[6] - 研究区分短视行为与长远规划:短视智能体无需世界模型,而需长远规划的通用智能体必须比较不同行动引发的未来轨迹优劣[7] - 当前AI领域涌现多种世界模型构建方法,但现有范式存在缺陷且实践层面仍存非共识,焦点已从"是否需要表征"转向"如何表征"[8] 技术狂飙下的AI Assistant发展现状 - 当前多数AI Assistant仍停留在对话器阶段,与真正的通用行动体存在差距,需突破场景深度与交互延迟等瓶颈[2] - 技术架构上,Cross-Attention与MoE有望降低语音交互延迟,提升实时性[2] - 商业化路径存在争议:AI Assistant可能成为企业新盈利入口,但增量流量价值尚未验证;未来形态可能介于"第二手机"与"个人操作系统"之间[2] OpenAI前产品VP的产品方法论 - Peter Deng强调产品本身并非核心,产品品味才是企业护城河,其对当前AI产品的评价未公开但隐含高标准[3] - 打造爆款产品的超级团队需具备特定特征,不同团队对产品经理的特质要求存在差异化[3] 行业数据概览 - 本期通讯覆盖3项专题解读及27项AI&Robotics赛道要事,含10项技术动态、8项国内进展、9项国外进展[3] - 通讯总字数达22439字,免费试读比例8%,完整版需消耗99微信豆(约9.9元人民币)[4]
出现断层了?ICCV2025的自动驾驶方向演变...
自动驾驶之心· 2025-07-24 17:42
多模态大模型 & VLA - ORION框架提出端到端自动驾驶方案 通过视觉语言指令生成动作 华科与小米联合研发 [5] - DriveMM构建全合一大型多模态模型 中山大学与美团合作开发 支持自动驾驶多任务处理 [6][7] - MCAM模型实现自我车辆级驾驶视频因果分析 重庆大学团队开源代码 [9] - AdaDrive/VLDrive双系统实现语言驱动的自适应驾驶 轻量化设计提升效率 [10] 仿真 & 重建 - ETA框架采用大模型双路径决策 科奇大学与港大合作提升自动驾驶效率 [13] - InvRGB+L实现复杂场景逆向渲染 清华与UIUC联合建模色彩与激光反射 [14] - AD-GS通过B样条高斯泼溅技术 南开与UIUC实现自监督场景重建 [16][18] - BézierGS动态重建城市场景 复旦大学采用贝塞尔曲线高斯泼溅技术 [19] - RGE-GS利用扩散先验引导场景重建 清华与菜鸟网络联合开发 [21][24] 端到端 & 轨迹预测 - Epona世界模型基于自回归扩散 清华与地平线合作生成驾驶轨迹 [25] - World4Drive构建意图感知潜空间模型 中科院自动化所与理想汽车联合研发 [30] - MagicDrive-V2实现高分辨率长视频生成 港中文与华为诺亚方舟实验室合作 [32][35] - DiST-4D解耦时空扩散生成4D场景 清华与旷视科技联合开发 [36] 占用网络 - B2S模型将二值占用数据升级为语义预测 丰田汽车公司研发 [44] - DISC模型解耦实例与场景上下文 华科团队实现3D语义场景补全 [45] - GaussRender采用高斯渲染学习3D占用 Valeo AI与索邦大学合作 [52] - GaussianOcc基于高斯泼溅自监督估计3D占用 东京大学团队开发 [54] 目标检测 - PI3Det实现透视不变3D检测 新国大与复旦联合研发 [59] - MambaFusion多模态3D检测框架 中科院自动化所与上海交大合作 [64] - OcRFDet基于神经辐射场多视角检测 南京理工大学开发 [69] 数据集与评估 - ROADWork数据集专注施工区场景识别 卡内基梅隆大学发布 [73] - VLADBench细粒度评估大视觉语言模型 中科大与华为诺亚方舟实验室联合推出 [81] - LiMA跨视角蒸馏提升LiDAR表征 新国大与南航合作 [88][89] 其他技术 - Dynamic-DINO实时开放词汇检测 浙大与中兴通讯联合开发 [83] - DepthForge增强域泛化语义分割 集美大学与中山大学合作 [87][90]
AI落地难?这场对话揭开真相,给出破局“三板斧”
21世纪经济报道· 2025-07-24 15:02
人工智能正以前所未有的速度重塑全球产业格局,从底层算法的演进到产业生态的重构,AI已经成为 推动新一轮产业革命的核心力量。在第八届世界人工智能大会(WAIC 2025)开幕前夕,工信部国家人 工智能标准总体组专家、上海人工智能产业研究院院长朱兆颖,与施耐德电气副总裁、中国及东亚区市 场营销部负责人古月,围绕"人工智能如何加速落地、企业如何借势AI打开发展格局"等关键话题,展开 了一场深度对谈。 世界模型与产业智能:AI发展迈入新阶段 2025年,全球AI大模型竞相迭代,技术标准与产业需求也在加速更新。朱兆颖院长指出,全球人工智 能正从大语言模型(LLM)快速迈向"世界模型"(World Model)的新阶段,这标志着AI能力从语言理 解延伸至对真实世界的感知、预测与决策,以支撑其在具身智能、自动驾驶等复杂场景中的加速落地。 与此同时,AI在产业端的落地应用,也正在从通用模型,转向针对垂直领域的智能体开发,例如金 融、交通、制造、营销等专用AI模型和智能体,正逐步实现与具体场景的深度融合,推动众多产业生 态、生产流程、商业模式的革新和重构。 朱兆颖院长表示:"人工智能如何推动和引领产业变革,正是今年世界人工智能 ...
连狗都看得懂的世界,AI却还在学!世界模型到底牛在哪儿?
电动车公社· 2025-07-22 23:27
人工智能技术发展历程 - 37年前贝尔实验室的杨乐昆开发出世界上第一个用于文本数字识别的卷积神经网络 证明神经网络可以像人类一样学会"看见" [1][2][3] - 当前人工智能正经历从"工具智能"到"认知智能"的跃迁 神经网络通过类似人类学习的过程找到数据关联性 构成AI算力基础 [5][6] 辅助驾驶技术演进 - 2016年前系统仅能处理静态环境 定位精度以米为单位 功能限于ACC自适应巡航和车道保持 [12][14] - 2020年深度学习技术带来空间认知范式转变 但仍依赖标注数据和高精度地图 存在逆光/遮挡场景误判问题 [15][16][18] - 激光雷达普及后形成摄像头互补 行业开始采用轻地图+实时感知混合架构 但BEV二维模型高度信息不足 [20][21][22] - 2023年引入OCC 3D栅格环境模拟 摆脱地图依赖 可识别施工栏杆等异形障碍物 [23][25] 世界模型的核心突破 - 世界模型使AI具备空间想象重构和时间推演能力 实现从被动执行到主动决策的跨越 [46][47][48] - 蔚来NWM可在100毫秒内推演216种事故轨迹 每0.1秒动态更新模拟世界寻找最优解 [61][62] - 实际应用场景包括自主寻找停车场出口 无车道线道路的智能避让 被追尾预防辅助等 [51][54][56] 行业技术发展现状 - 蔚来/小鹏等车企正重点布局世界模型 以解决AI缺乏因果推理能力的核心缺陷 [30][65] - 当前技术仍处早期阶段 存在算力消耗大 模拟精度待提升等问题 需持续迭代优化 [63][66] - 行业类比1980年代神经网络发展初期 当前处于AI技术爆发前夜的关键积累期 [67][68][69]
汽车行业专题报告:辅助驾驶的AI进化论:站在能力代际跃升的历史转折点
国海证券· 2025-07-22 19:26
报告行业投资评级 - 维持辅助驾驶行业“推荐”评级 [1][8][110] 报告的核心观点 - 辅助驾驶行业现状是平均水平提升、技术路线收敛,车企难差异化,向高级别跃迁时细分安全功能待提升,人机交互边界模糊带来商业化落地焦虑和安全隐患 [5] - 建立辅助驾驶能力研究框架,从企业组织战略、技术能力、消费者感知三个维度梳理全栈自研主机厂辅助驾驶能力及潜力 [6][7][111] - 大算力芯片上车元年,世界模型持续优化,辅助驾驶行业能力迎来迭代拐点,头部厂商解决方案逐步完善,车企展开战略合作推动智能化渗透率普及,供应链格局显现,国内供应商向软硬件一体化发展 [8][110][111] 根据相关目录分别进行总结 前言:辅助驾驶技术进展及研究框架构建 - 全栈自研主机厂发展进程:介绍特斯拉、小鹏、华为、理想、蔚来、小米等车企辅助驾驶研发进展、硬件配置、车型发布等情况 [11][15][28] - 第三方解决方案玩家格局:车企与头部智驾厂商合作可节省成本、抢占市场,Momenta、元戎启行、地平线等厂商端到端方案推进有节奏且合作覆盖广泛 [45][46] - 构建辅助驾驶技术研究框架:从企业经营、技术能力、用户感知三个维度衡量辅助驾驶能力,分析各车企研发投入、战略重心、传感器方案、算力、模型等情况 [48][49][50] 维度一:企业组织和战略 - 辅助驾驶战略布局:研发方向从早期模块化分工向端到端融合、全域架构与跨域协同发展,车企动态调整团队架构与研发重心 [53][54][55] - 辅助驾驶研发投入:2022 - 2024年技术驱动型企业研发费用普遍高于15%,规模效应型企业随销量增长费率降低,小米集团2021 - 2023年研发费用率逐步攀升 [60] 维度二:技术能力三要素 - 传感器、算力、模型 - 传感器:技术降本与规模量产推动多感知方案并行,形成“数据输入 - 算法进化 - 硬件适配”正向循环,国产厂商在传感器供应链格局中份额稳步提升 [64][66][67] - 算力军备赛:云端智算中心肩负模型训练等任务,头部车企建立EFLOPS级超算中心,车端驾驶域控芯片向大算力化跃迁,国产芯片2025年集中量产 [75][78][85] - 车云模型:技术路径收敛,架构由决策规划模型化向模块化端到端发展,引入多模态数据信息,世界模型运用数据驱动提升类人化决策能力 [7][111] 维度三:消费者感知 - 辅助驾驶功能表现能力 - 驾驶辅助功能:“车位到车位”功能融合行车与泊车功能,实现全场景连续驾驶目标,各车企相关功能不断迭代升级 [97][98][105] - 安全辅助功能:AEB性能边界优化,车辆避撞方式与车速有关,蔚来等车企安全辅助功能不断提升 [99][103][105] - 消费者感知力:辅助驾驶产品标签化,成为新车卖点,各车企驾驶及安全辅助功能落地进程有差异 [105] 投资建议 - 建议关注车企研发及功能落地进展,如特斯拉、小鹏、鸿蒙智行合作车企、理想汽车、蔚来汽车、小米集团;以及头部第三方解决方案供应商,如Momenta、元戎启行 [8][111] - 建议关注供应链国内供应商,如速腾聚创、禾赛科技、舜宇光学科技、联创电子、德赛西威、华阳集团、均胜电子、知行科技、地平线机器人、黑芝麻智能等 [8][111]
具身智能前瞻系列深度一:从线虫转向复盘至行动导航,旗帜鲜明看好物理AI
国金证券· 2025-07-22 16:17
报告行业投资评级 未提及 报告的核心观点 报告认为具身智能发展处于早期,当前缺乏模拟学习能力,物理AI是构建模拟学习的核心;世界模型约等于空间智能加物理AI;建议重视3D数据资产和物理仿真引擎双主线,看好中国物理AI稀缺资产索辰科技 [4][37]。 根据相关目录分别进行总结 从生物智能五阶段映射具身智能,模拟、规划能力是当前缺失环节 - 阶段一(关联性学习):生物智能起源于早期两侧对称生物学会“行动导航”,如线虫学会“转向”,“行动导航”是扫地机器人落地前提;早期两侧对称生物具备两侧对称结构、效价神经元、大脑和“情感”雏形;“关联性学习”是对未来初步“预测”的前提 [10][11][13]。 - 阶段二(强化学习):早期脊椎动物学会“试错”,构成“强化学习”基础;“基于预期奖励的时序差分强化学习”有助于缩短试错时间、建立更长预测时间窗口;该机制形成涉及时间感知和空间感知 [15][17][18]。 - 阶段三(模拟学习):早期哺乳动物学会“规划”,即“模拟学习”;构建基于模型的强化学习困难,因真实世界动作连续、信息嘈杂不完整、奖励复杂;大鼠在“不确定性”情况下触发模拟 [22][24][29]。 - 阶段四(模仿学习):灵长类动物学会“模仿学习”,映射到具身智能,“模仿学习”分为“主动教学”与“逆向强化学习”两种策略 [32]。 - 阶段五(语义处理):人类掌握“语言”,形成大规模协作;具身智能产业中,模拟学习应用相对初级,未来拥有3D空间智能的机器人具备“仿真”能力后将进化为硅基生命 [35][36]。 复盘智能驾驶模型算法演绎历史,世界模型≈空间智能+物理AI - 智能驾驶VS具身智能:智能驾驶是具身智能现阶段落地可行性及商业闭环被验证的场景,众多人形机器人核心创始团队有智能驾驶从业经验;智能驾驶“反物理交互”,人形机器人需高频“物理交互” [37][41]。 - 从特斯拉FSD说起:特斯拉FSD智能驾驶算法经历“模块化”规则驱动算法、感知模块引入BEV+OCC架构实现“端到端”、追求“一段式端到端”三个阶段;VLM、VLA等慢思考模型逐渐发展成熟 [44][46][53]。 - 谈及世界模型、物理AI:世界模型约等于空间智能加物理AI,英伟达Cosmos侧重视频世界模型;空间智能核心是让模型理解3D空间信息,获取3D空间数据有真实数据采集与仿真合成数据两条路线;物理AI解决机器人与物理世界交互及“缺数据”难题 [66][71][77]。 重视3D数据资产+物理仿真引擎双主线,看好中国物理AI稀缺资产索辰科技 - 群核科技:推出空间智能平台Spatial Verse,为空间智能算法提供产业级工具;2024年前三季度营收5.53亿元,经调整亏损率收窄至17%;毛利率持续提升,业务以订阅收入为主 [80][84][86]。 - 索辰科技:发布索辰开物平台,将发布“机器人虚拟训练平台”;2024年营收3.79亿元,2020 - 2024年营收CAGR达23.7%;业务分工程仿真软件与仿真产品开发两部分,研发投入强度较高 [92][95][100]。
可以留意一下10位业内人士如何看VLA
理想TOP2· 2025-07-21 22:36
自动驾驶技术发展现状 - BEV感知方案已完全成熟并广泛应用于量产车型 基于BEV的动态感知、静态感知、OCC感知均实现技术落地 [16][24] - 端到端方案仍处于验证阶段 实际效果未显著超越传统两阶段模型 存在数据收集难度大、训练成本高等实操问题 [11][31] - 行业面临的核心挑战是corner case处理能力 非结构化道路、复杂路口等场景通过率不足99% [16][24] 新兴技术路线争议 VLA/VLM技术 - **看好派**:认为VLA通过大模型推理能力实现场景理解 可突破传统规则引擎的迭代瓶颈 是下一代技术重点方向 [2][28] - **质疑派**:指出当前VLA基座多依赖开源模型魔改 缺乏专用预训练体系 且车端算力限制导致性能与延迟难以平衡 [1][27] - **中立派**:认为对话功能仅提供情绪价值 控车逻辑需独立设计 量产可行性存在但效果待验证 [3][18] 关键技术突破方向 - **世界模型**:三大应用场景包括预训练、仿真数据生成、端侧推理 目前数据生成领域已取得阶段性成果 [6][33] - **强化学习**:仿真精度是核心瓶颈 若能解决sim2real域差距 配合端到端架构将实现性能飞跃 [6][32] - **扩散模型**:适配多模态轨迹生成特性 地平线DiffusionDrive方案已实现实时性突破 [7][26] 行业竞争格局演变 - 数据闭环能力成为竞争焦点 头部公司重点构建AI驱动的数据流水线 涵盖采集、清洗、标注全流程自动化 [20][22] - 仿真技术呈现两极分化:L4企业侧重世界模型构建安全验证体系 L2+厂商聚焦VLA提升泛化能力 [18][30] - 芯片算力制约技术落地 7B参数以下模型成主流 量化加速与轻量化算法需求迫切 [27][28] 学术与产业协同 - 学术界研究滞后于产业落地 BEV从论文发表到量产应用耗时2年 当前VLA等技术尚未形成理论共识 [31][9] - 产学研割裂问题突出 工业界数据壁垒导致学术界缺乏真实场景验证数据集 [13][31] - 3D高斯等新型表征方法有望重构世界模型架构 球谐函数替换等基础研究具备潜力 [6][33] 技术路线选择建议 - 短期优先完善一站式端到端方案 长期需突破鲁棒性瓶颈以实现L4 [18][26] - 平价车型可采用BEV+蒸馏方案过渡 等待芯片成本下降支撑大模型部署 [24][26] - 自动驾驶与具身智能技术互通 建议选择迁移性强的研究方向 [34][22]