世界模型
搜索文档
对话任少卿:2025 NeurIPS 时间检验奖背后,我的学术与产业观
雷峰网· 2025-12-05 18:24
文章核心观点 文章通过报道任少卿及其团队获得NeurIPS时间检验奖,回顾了其奠基性工作Faster R-CNN的深远影响,并深入探讨了任少卿加入蔚来后,在自动驾驶全栈自研、芯片定义、数据闭环体系构建以及技术路线(如世界模型)探索等方面的实践与思考,展现了蔚来在智能驾驶领域从零开始构建核心能力的过程与战略布局 [1][2][11][13][27] 根据相关目录分别进行总结 Faster R-CNN的成就与影响 - 任少卿、何恺明、孙剑与Ross Girshick共同发表的Faster R-CNN荣获2025年NeurIPS时间检验奖,该奖项表彰经过十年检验、对学科发展产生深远影响的奠基性工作 [1] - Faster R-CNN发表于2015年,将物体检测效率提升10倍以上,开创了端到端实时精准目标检测模式,其论文已被引用超9.8万次,是AI检测领域全球最高被引论文 [2] - 该模型的核心思想已深度融入人工智能基础技术,成为驱动自动驾驶、医疗影像、安防监控、工业检测、卫星遥感等关键领域的核心技术 [2] 研究理念与团队合作 - 孙剑坚持“simple but work”的研究理念,认为做核心工作需要远见、品位和坚持 [4][6] - 任少卿与何恺明的合作紧密且高效,日常节奏包括多次集中讨论与实验推进,何恺明几乎投入100%的精力,专注于研究问题、寻找方向与突破 [6][7][8] - 团队选择深度学习方向基于几个关键判断:方法有创新性、已有初步结果和进展、结果具备泛化能力而非技巧性(trick),验证了方向的可扩展性 [10] 加入蔚来与全栈自研启动 - 任少卿于2020年8月加入蔚来,首要任务是搭建团队并启动全栈自研L2产品,支持L3和L4,同时进行芯片选型 [13] - 蔚来第二代车是全球首个量产英伟达Orin芯片(使用4颗芯片)及高线束激光雷达的车型,于2022年3月在中国量产,半年后在欧洲量产 [14] - 团队在极短时间内(从拿到芯片到量产仅6-7个月)克服了Orin芯片作为新硬件在算力(比上一代增大8倍多)、架构、散热、功耗及工具链等方面的挑战,完成了复杂的自动驾驶域控制器(ADC)架构量产 [14][15] 自研芯片的定义与考量 - 作为需求方,团队参与了自研芯片的定义,基于对技术发展的判断,早在2021年就预见到Transformer将更广泛应用,这对芯片内存带宽提出了更高要求 [16] - 蔚来自研芯片具备行业最高的带宽,以支持Transformer等模型,并为支持更高级别自动驾驶(L3/L4)预埋了热备能力,可在百毫秒内实现芯片切换且用户无感 [17] 数据闭环与高效迭代体系 - 蔚来自2020年起重点建设数据能力,认为数据的价值在于针对特定模型筛选出的“corner case”,而非简单的数据拷贝,数据筛选过程消耗大量算力 [19][20] - 公司构建了灵活调度云端和车端算力的系统,并在此基础上建立了类似互联网行业的“AB test”系统,允许在量产车上并行测试下一代算法 [21] - 通过“AB test”系统,蔚来将主动安全功能的迭代效率大幅提升,即使面对高达200万公里一次误报(FP)的严格标准,也能实现三天迭代一次的速度 [22] - 针对超80万辆量产车的智驾接管数据,建立了自动化分析系统,能过滤掉99%以上的无效信息,仅返回0.1%-0.5%的有效数据供进一步分析,极大提升研发效率 [22] 对端到端与世界模型的技术思考 - Faster R-CNN本质是解决了物体检测任务的端到端问题,将检测速度提升至实时(10Hz、20Hz、30Hz),为视频处理和应用落地带来突破 [11] - 任少卿认为,端到端是自动驾驶技术演进的一个阶段,但并未解决所有问题,例如语言模型无法解决真实世界所需的时空认知问题 [24][25][26] - 世界模型旨在建立时空认知能力,学习物理规律和时空理解,以解决长时序决策问题,这是语言模型无法做到的 [26][27] - 蔚来于2023年决定All in世界模型,并于2024年7月首次公开发布,成为行业内率先拥抱此路线的公司之一,世界模型能支持长达10秒、1分钟甚至更长的时序推演,替代传统的规则代码(if else)处理长时序场景 [27][28][29][30]
大晓机器人将于12月18日正式对外亮相,商汤王晓刚出任董事长
新浪财经· 2025-12-05 08:42
公司动态 - 大晓机器人将于12月18日正式对外亮相并开源“开悟”世界模型3.0(Kairos 3.0)[1] - 公司称该模型是首个国内开源且已实现商业应用的世界模型[1] - 公司将同步发布具身超级大脑模组A1,搭载纯视觉无图端到端VLA具身智能模型,具备自主导航能力[1] - 商汤科技联合创始人、执行董事王晓刚将出任大晓机器人董事长[1] - 世界级AI科学家陶大程将担任大晓机器人首席科学家[1] 产品与技术 - 大晓机器人将开源“开悟”世界模型3.0(Kairos 3.0)[1] - 具身超级大脑模组A1搭载纯视觉无图端到端VLA具身智能模型[1] - 该具身智能模型具备自主导航能力[1]
另辟蹊径赴欧洲创办新AI公司,杨立昆:硅谷不是AGI的土壤
36氪· 2025-12-05 08:04
核心观点 - Meta即将离任的首席人工智能科学家杨立昆计划在欧洲创办一家AI初创公司 该公司将采用与当前科技巨头主导的生成式模型截然不同的技术路径 专注于开发能够理解物理世界的“世界模型” [1] 公司动向与战略 - 杨立昆将于2024年底离开Meta 专注于创建自己的公司 [1] - 新公司名为AMI(先进机器智能) 将是一个“全球实体” 并在世界各地设立研究机构 其中一处位于巴黎 [2] - 新公司将与Meta建立合作关系 Meta将向其开放创新技术 但Meta不会对其进行投资 [2] - 杨立昆将在新年时公布更多关于新公司的细节 [3] 技术路线与愿景 - 新公司将采取“非生成式”的AI架构 专注于开发“世界模型” 即能够理解物理世界而非仅仅生成文本的系统 [2] - 公司目标是带来下一场AI革命 让系统能够理解物理世界、拥有持久记忆、能够推理并能规划复杂的行动序列 [2] - 杨立昆认为当前基于文本的大语言模型缺少达到人类级别智能的关键要素 并直言通过扩展现有技术实现通用智能是“胡说八道” [2] - 新技术路径旨在开启一个全新的应用世界 使AI能够感知环境并理解物理世界 [2] 行业背景与人才观点 - 杨立昆批评硅谷完全被生成式模型所催眠 因此选择在巴黎开展此类工作 [1] - 他认为欧洲有大量未充分意识到自身潜力的人才 为其提供合适环境至关重要 [2] - 杨立昆长期以来一直支持欧洲的AI人才和初创企业 此前曾推动Meta于2015年在巴黎设立FAIR实验室 并在2023年催生了Meta的旗舰大语言模型Llama [1]
端到端时代下的自动驾驶感知
自动驾驶之心· 2025-12-05 08:03
自动驾驶技术范式转变:从模块化到端到端 - 行业技术热点已从BEV感知迅速转向端到端自动驾驶方案 [4] - 端到端并非新技术,早期因效果不佳而让位于模块化架构,但随Transformer与BEV发展正强势回归 [9] - 主流方案正将规划模块神经网络化,形成一段式或两段式端到端架构 [9] 端到端架构下的感知范式革命 - 传统感知-规划框架中,感知需提供全量、精确的场景信息供规划使用,因模块化设计使其无法获知规划具体需求 [11] - 端到端最大意义在于实现“规划导向”的感知,即从全量感知转向可学习的按需感知 [14] - 当前多数端到端方案仍沿用传统思路,将人为定义的感知任务作为辅助监督,这被视为感知模块的“手工特征算子”,可能限制模型上限 [13][14] - 感知模块需自我革新,摒弃对人为定义感知任务的依赖,转向可学习的隐式场景理解 [14] 导航引导的稀疏场景表征 - 提出“导航引导感知”概念,模仿人类驾驶员根据导航意图关注场景不同部分,而非进行全量感知 [17] - 基于BEV特征设计场景令牌学习器模块,引入导航信息并预测BEV注意力,将场景压缩为16个场景查询 [18][19] - 规划解码器仅与这16个查询交互即可输出轨迹,实现了对感知信息的极致压缩与高效利用 [19] - 该方案使模型在训练效率和推理速度上成倍提升,并大幅超越现有方案性能 [19] 世界模型作为隐式监督新方向 - 为减少对人为定义感知任务的依赖,引入基于BEV特征的自监督世界模型,通过预测未来帧特征增强场景理解 [20] - 设计在稀疏查询上做轨迹规划,在稠密BEV上做世界模型的方案,兼顾推理效率与训练一致性 [20] - 随着世界模型研究成熟,其有望完全替代人为感知任务,成为隐式场景表征最可靠的监督方式 [21] SSR方案性能与影响 - SSR框架仅用16个自监督可学习的查询作为场景稀疏表征,替代了传统方案中成百上千个人为监督的查询 [22] - 在nuScenes数据集开环测试中,SSR的3秒平均L2误差为0.75米,平均碰撞率为0.15%,推理速度达19.6 FPS,多项指标超越对比方案 [24] - 在Carla仿真闭环测试中,SSR的驾驶得分达78.9,路线完成率达95.5%,综合得分0.83,表现优异 [26] - 消融实验表明,使用16个场景查询在性能与效率间取得最佳平衡 [27] - 可视化显示场景查询能根据不同导航指令自适应关注与驾驶意图相关的区域,证明了可学习感知模块的有效性 [28] - 该方案被视为端到端感知的“AlexNet时刻”,标志着可学习感知模块首次大幅超越人为定义感知模块,可能引导行业新方向 [29]
字节端侧AI进展交流
2025-12-04 23:36
公司:字节跳动 * **AI战略重心与组织架构** * 公司AI战略聚焦三大方向:通用型AGI、具身智能和世界模型[1] * 研发由四大团队负责:C团队(基础模型孵化)、Follow团队(垂直行业应用)、Stone团队(AI工具链)、Cici团队(海外豆包产品)[2] * C团队和Follow团队承担了80%的产品及模型研发工作,人员规模分别超过1200人和1000人[2] * 公司AI战略核心思路是B端导向,90%以上的AI token消耗来自B端业务,C端流量主要用于吸引B端客户渗透产品矩阵[7] * **资本开支与算力布局** * 2024年资本开支预计约500亿元,2025年大幅提升至1600亿元,2026年初步规划达2200亿元[5] * 2025年资本开支中,900亿元用于购买GPU,700亿元用于共建AIDC及超算中心[1][5] * 2026年规划中,约70%(约1540亿元)用于购买GPU,其余30%用于共建超算中心[6] * GPU采购中,NVIDIA占比约75%,国内厂商占比约25%[1][6] * 现有总算力为1475亿FLOPS,相当于110万张H100D GPU的算力,其中H20型号已突破30万张[1][7] * **B端业务与火山引擎** * 公司整体收入主要来源于B端业务,通过提供AI解决方案、定制开发及私有化部署等服务获取收入[1][7] * 火山引擎2025年预计收入超过500亿元,侧重提供多元化AI处理解决方案及算力服务,以差异化优势与阿里云竞争[1][8] * **AI手机战略与进展** * 推出AI手机的战略目的是拓展硬件生态,通过AIOS 1.1.0通用型Agent平台掌控移动操作系统流量入口[1][10][11] * 公司与中兴、努比亚合作,计划2026年Q1末或Q2初推出量产机,目标出货量百万级别[1][14] * 预计2026年全球AI手机市场规模达8000万台,公司目标占据5%份额,即销售突破500万台[3][15] * 工程机使用骁龙8至尊版特供版芯片,算力400 TOPS;量产机预计算力达800 TOPS,可运行7B模型[3][25] * 工程机预备了3万台,70%分配给开发者渠道,C端预约量超出预期40%[13] * 计划通过语音控制和对话方式改变用户习惯,并渗透到衣食住行领域,高德地图已加入其生态系统[3][24] * **技术挑战与用户反馈** * FLO事业群面临主要技术问题:语义理解能力不足(单轮指令识别率低,多轮对话连贯性差,此类问题占比约60%)、触控物理触控失败率达24%、跨应用操作成功率低于50%、端侧模型延迟较大(用户侧达2-3秒)[16] * 用户反馈问题集中在:语义理解与多轮对话、跨应用操作(复杂任务如出行、住酒店、点外卖尤为明显)、端侧延迟、硬件资源占用(内存、耗电、发热)、数据隐私、个性化程度不高[18] * 线上存在3400多个P0级bug,团队每两天发布一个补丁版本进行热更新[18] * 技术问题基本可通过迭代解决,但部分特殊用户需求因硬件限制难以满足[19] * **应对第三方APP调用的技术方案** * 主流方法是模拟用户物理点击(类似按键精灵加RPA),通过视觉理解捕捉屏幕事件反馈,无需APP授权[20][21] * 其他方案包括:与公司直接合作获取底层授权、使用豆包录制视频重现用户行为、云端部署花生壳代理IP切换访问[23] * 未安装相应APP时,可通过浏览器激活方式(如WebDriver或Chrome V8引擎)实现自动化操作[22] * **未来展望与行业影响** * 系统级AI助手有潜力重塑移动端流量入口,终极目标是使用户无需安装APP即可获得服务,可能颠覆现有智能终端和操作系统格局[27] * AI手机可能改变互联网平台竞争格局,但目前各大公司均处于试水阶段,未来取决于技术突破与合作竞争[28] * 公司推动超级APP策略,旨在通过其内容生态(抖音、头条、TikTok等)构建统一管理的超级APP,通过语音交互满足用户需求[29] 行业:AI手机与算力服务 * **AI手机市场预期** * 字节跳动预计2026年全球AI手机市场规模将达到8000万台[3][15] * **云计算竞争格局** * 阿里云在SaaS和PaaS领域表现出色,生态系统成熟;火山引擎作为后起之秀,侧重AI处理解决方案及算力服务,寻求差异化竞争[8] * **技术发展趋势** * 端侧与云端协同推理是AI手机的重要技术路径,但面临延迟、资源占用等挑战[16][25][26] * 模拟点击、RPA、浏览器自动化等技术是解决跨应用操作和第三方调用限制的关键方向[20][21][22]
我们身处波涛汹涌的中心|加入拾象
海外独角兽· 2025-12-04 19:41
公司定位与团队背景 - 公司定位为专注于人工智能和基础模型研究的投资研究实验室(Investment Research Lab),既是基金也是研究实验室[5] - 团队由科技投资人、物理学博士和AI研究员组成,平均年龄低于30岁,强调高信任度、低自我和高人才密度的团队文化[5][6] - 公司在管资产规模超过15亿美元,包括5亿美元的长线基金,采用一二级市场联动投资策略[5] - 公司过去投资并见证了6家投资组合公司从数十亿、数百亿美元成长为千亿美元级别的企业[5] 投资理念与策略 - 投资理念受OpenAI、Anthropic和DeepMind启发,旨在成为投资领域的前沿研究实验室,关注全球最重要的技术变化[8] - 投资策略聚焦于少数关键机会,愿意在每一轮对优质公司持续加注,放弃多数琐碎机会[8] - 注重信息质量,拥有市场上最丰富、质量和密度最高的信息源,以提高投资胜率[8] - 强调长期关系建设,致力于与创始人和研究人员建立信任,投资AI原生时代的最佳创始人[8] 品牌建设与认知输出 - 坚持开源认知,通过内容输出为AI生态做贡献并构建品牌影响力[9] - 品牌代表公司与创始人之间的信任和审美观,吸引志同道合者[9] - 公司通过海外独角兽和AI讨论社群持续输出观点,影响中美两地华人创业者和AI从业者[6] 招聘需求与岗位要求 - 招聘岗位包括AI投资研究员和品牌策划(AI Narrative Specialist),工作地点覆盖硅谷、香港、北京和上海[12][15] - AI投资研究员需具备AI研究、工程或产品经验,熟悉技术趋势如Continual Learning、Proactive Agent等[12][13] - 品牌策划需熟悉硅谷AI内容,具备品牌叙事打造能力和创新表达方式经验[15] - 招聘不限资历和工作年限,对全职和实习生均开放,优秀实习生有转正机会[15][16] 行业关注领域 - 公司重点关注LLM新范式、强化学习、AI Agent、代码代理等前沿技术领域[19][21][23][25][27] - 技术趋势包括OpenAI o1、自玩强化学习、AI机器人、AI4S等方向[12]
第八届GAIR全球人工智能与机器人大会,议程正式公布
雷峰网· 2025-12-04 18:04
文章核心观点 - 第八届GAIR全球人工智能与机器人大会将于2025年12月12日至13日在深圳举办,大会将聚焦人工智能领域最前沿的变革,核心议题包括教育重塑、产业范式重构、世界模型及算力体系洗牌 [1][2] - 大会将汇聚全球顶尖专家,包括50多位院士/顶会主席/行业领袖、300多位AI学术青年及1000多位行业精英,共同探讨智能未来 [25] 大会议程与核心议题 AI之道:教育的重新定义 - 专场将探讨人工智能对高等教育的颠覆性影响以及未来教育的形态,核心报告包括“人工智能的兴起与高等教育的颠覆”和“人工智能与未来教育” [7] - 该专场由清华大学教授、鹏城实验室首任党委书记杨士强担任主席,主讲嘉宾包括深圳理工大学教务长赵伟及中国工程院外籍院士郭毅可 [7] AI之术:领域的范式重构 - 专场聚焦人工智能技术在各具体产业领域的应用与范式变革,涵盖从服装生产到科学基础模型等多个方向 [8][9] - 关键报告包括日本工程院院士Kazuhiro Kosuge关于AI机器人变革服装生产的分享,以及京东集团副总裁郑宇关于时空AI(人工智能进入物理世界的基础)的报告 [8][10] - 其他重要议题涉及高效大模型服务、科学基础模型、超智融合的地球系统模拟、AI赋能心血管疾病防治以及超越Transformer的硬件新定义等 [10][11] 世界模型专场 - 专场主题为“走向可交互的3D AI世界模型”,专注于具身智能、通用空间感知及3D数字人等前沿方向 [12][13] - 报告内容涵盖面向具身智能的通用空间感知技术、3D感知视频世界模型、三维数字人交互研究以及强化物理世界建模的基础模型创新 [13] - 圆桌讨论将汇集来自清华大学、腾讯、西湖大学、中山大学、浙江大学及香港中文大学(深圳)的研究者,共同探讨该领域发展 [13][14] 数据与具身智能专场 - 专场主题为“具身数据新范式&多形体进化”,探讨用于机器人的数据构建、智能飞行机器人及通用人形机器人控制等 [14][15][16] - 关键报告包括利用动作捕捉技术构建具身智能数据、智能飞行机器人的产业应用、空间智能在自动驾驶及具身机器人中的应用,以及从虚拟到现实的通用人形机器人控制策略 [15][16] AI算力专场 - 专场核心议题为“谁是下一个寒武纪”与“谁将定义中国智算未来”,聚焦国产AI算力的技术突破、生态挑战与服务体系 [17][18][20] - 报告将讨论XPU的软件生态、国产算力驱动的大模型全生命周期工具链挑战、破局国产AI算力技术生态、基于国产GPU的大规模训练实践以及国产AI芯片的新技术路线 [17][18] - 议题亦延伸至工业机理与大模型的结合、多云统一数字化底座、基于用户视角的算力服务以及AI算力服务的整合落地 [20] 参会嘉宾阵容 - 大会嘉宾阵容强大,涵盖学术界与产业界领袖,包括中国工程院院士高文、加拿大皇家科学院院士杨强、IEEE Fellow贾佳亚、上海人工智能实验室胡侠、之江实验室薛贵荣等 [27][28][29][30][31][34] - 产业界代表包括来自京东、腾讯、摩尔线程、燧原科技、云天励飞、诺亦腾机器人、微分智飞等公司的高管与创始人 [10][11][15][18][32][35]
世界太小,不够世界模型们用了
36氪· 2025-12-04 17:29
文章核心观点 - AI行业对“世界模型”的定义和技术路径存在显著分歧,但普遍认为其是超越大语言模型、通往通用人工智能的必经之路 [1][2] - “世界模型”概念正经历严重的通货膨胀,其外延被无限扩大,成为一个涵盖环境理解与模拟上下游技术的宽泛“筐” [2][3][18][19] - 世界模型的兴起背后交织着资本焦虑、技术瓶颈和对AGI的渴望,并被视为一场“反LLM中心主义”的运动 [20][22] 概念起源与演变 - “世界模型”的思想最早可追溯至1943年认知科学家Kenneth Craik提出的“心智模型”,即大脑通过构建外部世界的微缩模型来进行预测 [4] - 2018年Jürgen Schmidhuber等人的论文《Recurrent World Models Facilitate Policy Evolution》首次系统定义了神经网络世界模型的框架 [4] - 近两年,随着大语言模型的爆发和对AGI的渴望,该概念迅速繁殖,衍生出众多抽象定义,如“自主智能”、“空间智能”、“压缩即智能”等 [5] 主要技术流派:表征派 - 以杨立昆为代表,主张世界模型是一个在潜在空间运作、预测“抽象状态”的“大脑”,而非生成具体画面 [7] - 其定义的世界模型需同时输入四个变量来预测下一时刻的世界状态,追求逻辑上的因果推演,而非视觉逼真 [12] - 提出的I-JEPA和V-JEPA模型摒弃了生成式AI“预测每一个像素”的做法,以避免浪费算力在不可预测的噪音细节上 [12] 主要技术流派:生成派 - 与表征派的核心区别在于旨在重建和模拟视觉世界,认为“我若无法创造,便不能理解” [13] - OpenAI的Sora被视为世界模拟器,其通过在海量视频数据上预测下一帧像素,试图涌现出对物理规律的理解 [13] - 生成派进一步衍生出互动式生成视频,如谷歌DeepMind的Genie 3,支持生成720p分辨率、24fps帧率的实时互动画面,理解动作与环境的因果关系 [14] 主要技术流派:3D空间智能 - 以李飞飞为代表,主张通过构建持久、高精度的3D环境来实现“空间智能” [16] - World Labs发布的Marble采用类似“3D高斯泼溅”的技术,将世界表征为成千上万个高斯体,以生成符合物理规律的3D世界 [16] - 该路线旨在生成可下载、高精度且物理准确的3D空间,区别于Sora的视频流和Genie 3的实时生成 [16] 行业现状与驱动因素 - 当前各技术路线的成果均未达到理想的世界模型状态,但概念已广泛挂钩于具身智能、自动驾驶、游戏视频、多模态模型、3D模型乃至视觉信息压缩等领域 [18] - 热潮背后存在巨大泡沫,部分源于创投圈需要新叙事来突破大语言模型竞争已定的格局,将“视频生成”等工具概念提升至AGI高度以吸引投资 [20] - 科研人员大规模下场创业,使得学术上的“定义之争”蔓延至商业世界,不同定义直接关联数十亿级别的算力投入和产业链方向 [21] - 行业对大语言模型产生集体性技术焦虑,认为其存在“离身”的先天缺陷,且性能提升的边际效益递减,因此转向对物理现实的模拟与交互被视为关键 [23]
碾压π0.5,复旦团队首创「世界模型+具身训练+强化学习」闭环框架
机器之心· 2025-12-04 16:18
文章核心观点 - 研究团队提出ProphRL框架,通过将大规模预训练的世界模型Prophet作为视频级模拟器,并结合专为流式动作头设计的在线强化学习算法FA-GRPO与FlowScale,在虚拟环境中优化VLA策略,显著提升了机器人操作任务的成功率[4] - 该方法解决了当前VLA策略主要依赖模仿学习导致的分布偏移和长时序任务失败问题,以及直接在真实机器人上进行强化学习成本高昂、难以规模化的瓶颈[3][4][12] - 实验结果表明,ProphRL在多个公开基准上为各类VLA模型带来5–17%的成功率提升,在真实机器人实验中进一步取得24–30%的大幅度成功率提升[8] 研究背景与问题 - 当前大多数Vision-Language-Action策略仍主要依赖模仿学习,实质上是按示范轨迹复刻,在分布发生偏移、任务形式变化或操作时域拉长时,极易出现误差累积并导致任务失败[3][11] - 在真实机器人上开展在线强化学习成本高昂,并行执行受限,伴随大量重置与标注开销,难以规模化[12] - 基于传统物理引擎的强化学习难以同时兼顾逼真度、场景多样性与工程可用性,而现有数据驱动世界模型泛化能力有限,尚未形成能够真正支撑强化学习的通用模拟器[13][14] ProphRL技术框架 - Prophet世界模型采用视频扩散模型结构,通过双重动作条件(末端执行器位姿增量和动作帧)和FramePack历史记忆机制,学习从动作序列到未来操作视频的映射[17] - 研究团队提出光流引导的评估协议,通过对比真实视频与生成视频的光流一致性,以外观无关的方式评估末端轨迹和接触行为是否对齐[22] - FA-GRPO算法在动作层面而非流步层面构造PPO比例,使信用分配更贴近真实环境反馈;FlowScale利用噪声调度平衡各流步对整体梯度的贡献,提升训练稳定性[23][27] - 奖励模型基于视觉-语言模型,以任务文本和整段执行视频为输入,输出标量得分作为轨迹优势,替代手工设计的几何距离[26] 实验验证结果 - 在世界模型能力评估中,Prophet在AgiBot、DROID、LIBERO和BRIDGE等多数据集上,视觉逼真度和动作一致性均超越Nvidia的Cosmos与上海智元的Genie-envisioner[31][32][34] - 在仿真环境强化学习效果上,ProphRL为VLA-Adapter-0.5B模型带来最高25个百分点的成功率提升,为Pi0.5-3B模型带来最高16.7个百分点的成功率提升,为OpenVLA-OFT-7B模型带来最高19.4个百分点的成功率提升[37] - 在真实机器人验证中,基于UR30e机械臂的四个桌面操作任务显示,ProphRL相比纯监督微调在所有任务平均成功率上带来约24–30%的提升,其中Pi0.5-3B模型提升幅度最大,达到30个百分点[38]
从 LLM 到 World Model:为什么我们需要能理解并操作世界的空间智能?
海外独角兽· 2025-12-03 20:05
文章核心观点 - 大语言模型在语言理解和生成方面展现出强大能力,但仅依赖语言不足以支撑真正的智能,构建能够理解和操作世界的空间智能与世界模型成为下一代人工智能发展的关键方向[2][4] - 空间智能被定义为在三维空间中进行推理、理解、移动和交互的深层能力,与语言智能互补,是通往通用人工智能不可或缺的拼图[4] - 语言是对三维世界的“有损压缩”,而视觉和空间感知是更接近“无损”的表征方式,让AI理解像素和三维空间中的物理规律难度高于处理符号化语言[10][11] - World Labs公司推出的Marble模型是全球首个高保真度3D世界生成模型,旨在突破模型“只懂文本”的限制,具备在三维环境中定位、推理、模拟、生成和执行任务的能力[15][17] 空间智能的必要性与理论基础 - 从生物演化角度看,大自然花费5.4亿年优化动物的视觉感知与空间行动能力,而人类语言形成历史仅约50万年,忽视这5.4亿年的进化积淀仅通过语言构建通用人工智能是不合理的[7][8] - 空间智能是人类进行高级科学创造不可或缺的思维工具,DNA双螺旋结构的发现就依赖于高强度空间推理,通过在三维空间中对分子结构进行几何构建和逻辑验证而完成[12][13] - 根据多元智能理论,人类智能是多维度的,至少具备八种相互独立的智能,空间智能与语言智能并非对立而是互补关系[4][5] Marble模型的技术特点 - 模型采用多模态输入方式,用户可输入文本描述、单张图像或一组图像,并能基于照片在虚拟空间中重构3D模型[20] - 具备交互式编辑功能,用户可对生成场景下达具体修改指令,模型能根据新约束条件重新生成并调整整个3D世界,形成“生成-反馈-修改”的闭环[20][21] - 选择Gaussian Splats作为3D世界的基础原子单元,通过大量3D高斯体表示和渲染场景,实现了在移动设备上30fps甚至60fps的实时渲染能力[24][25] - 模型架构基于Transformer,其本质是集合模型而非序列模型,置换等变的特性使其天然适合处理3D空间数据[28][29] Marble模型的应用场景 - 在创意与影视领域提供精确的相机放置控制,能极大降低特效制作门槛和成本,成为电影工业强大的生产力工具[21][31] - 室内设计成为典型涌现用例,用户通过手机拍摄厨房照片即可在虚拟空间重构3D结构并随意尝试各种设计方案,无需掌握复杂CAD软件[31][32] - 在机器人领域可作为强大模拟器,生成高保真合成数据填补真实数据与互联网视频之间的鸿沟,为具身智能体提供零成本虚拟训练环境[34][35] 技术发展趋势与挑战 - 当前世界模型面临的最大挑战是视觉真实与物理真实的差距,生成看起来合理的3D场景不等于模型理解物理定律[27] - 公司正在探索将传统物理引擎与生成式模型结合的混合路径,包括通过物理引擎生成模拟数据训练模型,以及给Splats赋予物理属性等方式[27][28] - 在算力被巨头垄断的时代,学术界应专注于探索短期内看似不可行但具备长远颠覆性的研究方向,如打破硬件彩票现象,寻找替代矩阵乘法的计算原语[36][37][38]