世界模型
搜索文档
Google 新作背后:机器人测评Evaluation范式正在发生变化
具身智能之心· 2025-12-19 08:05
具身纪元 . 以下文章来源于具身纪元 ,作者具身纪元 见证具身浪潮,书写智能新纪元 编辑丨 具身纪元 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 姚顺雨的在人工智能下半场的文章《The Second Half》,他说:在AI的下半场,技术方案已经很成熟,瓶颈变成了评估。 在具身智能的下半场,模型评估更加重要,也更加复杂。 完整评估单一策略,本身就不容易。 传统的评估方法需要在真机上去测试 ,困难也接踵而至: 第一点,成本高 :在真实硬件上进行大规模测试既费时又费力 尤其是当需要对比多个不同的策略版本时。 如果要提升测试效率,多个硬件的部署在所难免,这又是额外的成本。 控制测评变量的沉默成本也不小,比如要减轻光照的影响,要挑同样光线的情况去做测评 第二点,覆盖面有限: 测评需要设置不同的情况来测试模型是否能够依旧表现出色,但在真实场景中很难穷尽所有现实的情况,比如干扰物、杂乱的桌面和光线等 第三点,安全性风险: 测试机器人的安全性,往往意味着要给机器人去尝 ...
《环球时报》记者探访2025人工智能创新大会:AI下一程,从“单点突围”到“生态共进”
环球网· 2025-12-19 06:49
【环球时报报道 记者 马俊】人工智能(AI)正成为驱动新质生产力发展的核心引擎。然而经过了前几年的跨越式发展后,单纯依靠堆规模的传统模式已经 不足以继续维持AI的高速迭代。在18日于江苏省昆山市举行的光合组织2025人工智能创新大会(HAIC2025)上,多名业内专家告诉《环球时报》记者,协 同、融合才是推动中国AI技术进步与产业升级的关键路径。 中国 AI 计算主打开放架构 如今中国在国家战略层面推动"AI+",不仅是对AI技术制高点展开的系统性布局,更是对技术快速发展背景下构建新型生产关系和发展新质生产力的全方位 谋划。据《环球时报》记者了解,在短短几年内,由大模型驱动的"AI+"就几乎渗透到我们身边的所有行业和产业。但随着AI沿着科学大模型、世界模型、 具身智能等前沿方向迅猛发展,对底层算力提出了前所未有的规模与性能要求。随之而来的是"性能墙"与"生态墙"双重制约——高端算力供给不足、软硬件 适配不畅、技术标准不一、应用成本高昂,这些已成为广大中小企业发展的显著壁垒。 光合组织秘书长任京暘18日接受《环球时报》记者采访时表示,HAIC2025的主题词之一就是"开放计算",通过打造AI计算开放架构,把AI ...
首创ACE具身研发范式 大晓机器人构建具身智能开放新生态
证券时报网· 2025-12-18 22:04
商汤科技联合创始人、执行董事、大晓机器人董事长王晓刚表示,当前,具身智能产业进入加速落地的 关键阶段。大晓机器人以生态协同为核心,与具身厂商、硬件、芯片、云服务、数据厂商等多领域伙伴 达成战略合作,共同搭建全链路自主可控的具身智能生态,将推动具身智能实现规模化商业落地与产业 蓬勃发展。 具身智能时代,行业面临数据量级的断崖式缺口。大晓机器人提出"以人为中心"的ACE具身研发范式, 将人类与物理世界的互动规律作为核心研究起点,以环境式数据采集为引擎,构建了一套从"环境式数 据采集—开悟世界模型3.0—具身交互"的全链路技术体系。在该范式中,环境式数据采集可实现一年千 万小时的数据收集,而开悟世界模型3.0则不断放大真实数据价值,使其达到上亿小时数据规模的效 果。 12月18日,商汤"1+X"架构新成员——大晓机器人正式发布行业首创的ACE(Ambient Capture Engine)具 身研发范式、首个开源且商业应用的开悟世界模型3.0(Kairos3.0)以及让具身本体拥有自主空间智能的具 身超级大脑模组A1,与行业伙伴共同构建全链自主可控、开放共赢的产业级生态体系。 复旦大学大数据学院教授、上海创智学院全 ...
特斯拉再一次预判潮水的方向
自动驾驶之心· 2025-12-18 17:35
文章核心观点 - 特斯拉通过其AI负责人发布的长文,系统性阐述了其FSD的技术方法论,核心是采用端到端神经网络模型,并融合了视觉重建(世界模型)和语言解释(VLA)技术来解决自动驾驶的长尾问题[4][6][8][10] - 行业对端到端、VLA(视觉-语言-动作)和世界模型三大技术概念存在争论,但文章提出反共识观点,认为三者并非对立,而是层层递进的关系:端到端是基座,VLA是升级,世界模型是终极形态[11][12] - 特斯拉的技术路径预判并整合了当前所有主流技术方向,其闭麦两年后通过一篇论文强势回归,再次引领行业技术潮流[4][20] 技术概念解析与关系 - **端到端神经网络**:是一个完全颠覆性的模型,需要将所有的设计思路、代码编写、验证方式全部推倒重来,被视为自动驾驶行业一次彻底的升级变革[11] - **VLA(视觉-语言-动作)**:本质上是端到端模型的延伸,在模型中加入了语言(Language)信息,其核心并非多一个信息输入,而是让模型通过语言方式将信息可视化输出[12] - **世界模型**:通俗理解是根据提示生成视频,目标是建立基于视频/图像的“时空认知”,以弥补语言模型在低带宽和信息描述上的短板[12][15][16] - **三者关系**:端到端是基座,VLA是在此基础上加入语言模型的升级,世界模型则是对空间的理解和重塑,与前两者不同,三者是层层递进而非非此即彼[12][19] 行业技术路线与玩家格局 - **端到端路线**:主要由智驾公司推动,如地平线、博世、Momenta,因其成本相对较低、稳定度高且易于规模化部署[13] - **VLA路线**:理想、小鹏、元戎启行是主要拥趸者,但该路线的长期价值遭到华为和蔚来高层的反对[13] - **世界模型路线**:华为和蔚来是主要拥趸者,认为自动驾驶更需要“时空认知”或“空间智能”,而非依赖语言通道[13][16] - **技术融合现状**:端到端与规则代码并不冲突,头部企业如华为在采用端到端方案时仍会使用规则兜底[11] 目前行业存在一段式和两段式端到端方案并存的局面[11] 在实际系统中,为保障高效运转,通常会组合使用多个模型,并可能加入强化学习[19] 特斯拉的技术方案与创新 - **解决端到端模型调试难题**:提出两种方法,一是利用“生成式高斯泼溅”技术在220毫秒内根据摄像头视频实时生成动态3D环境模型(视觉重建/世界模拟器)[8] 二是训练AI用自然语言解释自身行为,一个小型化语言推理模型已在FSD v14.x版本中运行[10] - **云端训练与仿真**:在云端开发“神经世界模拟器”,这是一个能实时生成以假乱真虚拟世界的强大AI,用于对FSD进行极端场景的压力测试和7x24小时训练,再将训练好的模型下放到车端实现降维打击[17] 技术发展的本质与趋势 - **端到端的意义**:标志着自动驾驶真正由人工规则进入智能学习的开始[19] - **VLA的争议核心**:争议焦点在于将所有信息转换为语言是否必要,反对者认为智能驾驶的本质更需要对空间的理解而非语言能力[16] - **世界模型的目标**:旨在补齐语言模型在“时空认知”上的短板,直接建立高带宽的认知系统[15][16] - **系统架构演进**:从理想早期包含端到端和VLM两个模型的“快慢思考”架构,到VLA的单一模型决策,再到世界模型与端到端等多个模型的组合,系统架构随技术演进不断变化[19] - **学习模式进化**:行业趋势正从模仿学习转向强化学习,让系统通过探索“好的行为”并获得奖励来超越人类驾驶水平[19]
2026产业预判:AI智能体接管互联网,认知差异将重塑贫富格局
钛媒体APP· 2025-12-18 12:20
核心观点 - 硅谷顶级风投机构a16z发布报告,指出过去十五年构建的互联网商业基石正在崩塌,互联网的“原住民”正从人类变更为AI智能体,这将引发基础设施的“递归风暴”并终结以“屏幕时长”为核心的注意力经济,企业若无法让业务逻辑被机器“读取”将在新时代沦为数字孤岛 [1] 基础设施危机与重构 - 互联网基础设施过去服务于人类(低并发、慢速、每秒点击一次鼠标),但2026年这一假设将被推翻 [2] - AI智能体为完成目标(如“帮我订票”)可能在毫秒级瞬间触发5000个子任务、数据库查询和API调用,这种流量对传统架构而言类似DDoS攻击,现有云服务和数据库架构将显得笨重脆弱 [3] - 行业将迎来关于算力与网络的基建竞赛,能解决机器产生的“递归风暴”和海量并发拥堵的公司将成为下一个时代的基建巨头 [3] - 对于深耕边缘计算、高性能数据库的企业而言,这是十年一遇的重构红利 [4] - 非结构化数据(如PDF、视频、日志)的治理是当前企业最大痛点,未来巨头将是能帮AI清洗并结构化这些数据以消除“幻觉”的公司 [4][5] 商业与变现模式剧变 - 过去互联网公司靠争夺用户注意力(Screen Time)和停留时长赚钱,AI时代屏幕时长KPI宣告死亡,取而代之的是结果导向的ROI [6] - 未来产品定价将从“按人头付费”转向“按结果付费” [7] - 搜索引擎优化(SEO)已死,生成式引擎优化(GEO)将主导未来,内容的受众将主要是AI智能体 [7] - 视觉设计重要性下降,“机器可读性”成为核心,企业需要优化智能体提取信息的效率,整个内容创作和营销体系的底层逻辑将发生根本逆转 [7] B2B与SaaS领域演进 - 在B2B领域,未来将出现“多智能体协作网络”,买方的AI、卖方的AI、律师的AI和银行的AI将在同一平台上自动谈判、核对合同、同步流程,人类仅做关键决策 [9] - 这种能高速处理信息不对称的协作网络将构建新一代软件极难被跨越的护城河,SaaS企业的核心竞争力将从功能堆叠转向生态连接能力 [9] 消费端体验与服务升维 - AI正在打破物理与虚拟的边界,a16z提出“世界模型”概念:视频将不再是流媒体,而是一个可以“走进去”的3D互动空间,基于物理规律和因果律,视频从一种媒介变成了一种有生命的环境 [9] - 这种技术将催生“绝对定制”的服务模式,从教育到医疗,世界不再为大众优化,只为你个人优化 [9] - 在教育领域,将诞生“AI原生大学”,课程表根据最新科研实时自动更新,教学路径根据学生反馈实时调整,实现真正的因材施教 [12] - 在医疗领域,将出现“健康MAUs”新人群,医疗将从“低频、高成本的救治”转变为“高频、订阅制的预防”,商业模式从维修身体转向保养生命 [12] 企业战略与个体能力要求 - 未来的企业护城河不再是精心设计的UI界面,而是数据结构的可读性以及对用户结果的“高效交付” [10] - 对于个体职场人,当死记硬背与基础执行的价值因AI介入而贬值时,定义问题、设计工作流以及驾驭多智能体协作的系统性能力将成为新的稀缺资源 [10]
世界模型是一种实现端到端自驾的途径......
自动驾驶之心· 2025-12-18 11:18
文章核心观点 - 世界模型并非端到端自动驾驶本身,而是一种实现端到端自动驾驶的技术途径[2][5] - 端到端自动驾驶定义为没有显式信息处理与决策逻辑,从信息输入直接输出决策结果的模型[3] - 世界模型定义为接受信息输入,内在建立对环境的完整认知,能够重建和预测未来变化的模型[4] - 行业正通过推出专业课程,系统性地传授世界模型在自动驾驶领域的算法、应用与实战经验,以推动技术落地和人才培养[5][15] 课程内容与结构 - 课程共分六章,从概述、基础知识到前沿模型、实战应用及行业经验,系统覆盖世界模型技术栈[10][11][12][13][14] - 第一章介绍世界模型与端到端自动驾驶的联系、发展历史、应用案例、不同技术流派及其在业界解决的问题环节[10] - 第二章讲解世界模型涉及的背景知识,包括场景表征、Transformer、BEV感知等,是求职面试高频技术点[10][11] - 第三章探讨通用世界模型,解析李飞飞团队Marble、DeepMind Genie 3、Meta JEPA、导航世界模型、DriveVLA-W0及特斯拉世界模型模拟器等热门工作[11] - 第四章聚焦视频生成类世界模型,涵盖Wayve的GAIA-1 & GAIA-2、上交UniScene、商汤OpenDWM、中科大InstaDrive等经典与前沿工作,并以商汤OpenDWM进行实战[12] - 第五章聚焦OCC生成类世界模型,涵盖清华OccWorld、复旦OccLLaMA、华科HERMES、西交II-World等三大论文及一个项目实战,该方法可扩展至自车轨迹规划[13][17] - 第六章分享世界模型在工业界的应用现状、行业痛点、解决目标以及相关岗位的面试准备与公司关注点等实战经验[14] 讲师与课程目标 - 讲师Jason拥有C9本科与QS50博士背景,发表多篇CCF-A/B论文,现任国内TOP主机厂算法专家,主持并完成多项自动驾驶感知与端到端算法的量产交付,具备丰富的研发与实战经验[7] - 课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端技术在工业界的落地,帮助学员真正理解端到端[15] - 课程期望使学员达到相当于1年左右经验的世界模型自动驾驶算法工程师水平,掌握技术进展并能复现主流算法框架[18] - 学员需自备推荐算力在4090及以上的GPU,并具备自动驾驶基础、Transformer大模型、扩散模型、BEV感知、概率论、线性代数及Python/PyTorch编程基础[18] 课程安排与形式 - 课程于1月1日开课,预计两个半月结课,采用离线视频教学,辅以VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日[19] - 章节内容按计划逐步解锁:第一章于12月10日解锁,第二章于1月1日解锁,第三章于1月20日解锁,第四章于2月4日解锁,第五章于2月24日解锁,第六章于3月1日解锁[20]
67页深度 | 智能驾驶行业专题:Robo-X的产业趋势、市场空间和产业链拆解【国信汽车】
车中旭霞· 2025-12-18 09:09
智能驾驶L4系列 车中旭霞 行业深度 《智能驾驶行业专题:Robo-X的产业趋势、市场空间和产业链拆解》——20251215 公司深度 《小马智行(PONY.O)-全球无人驾驶领先企业,Robotaxi商业化落地加速 》——20250628 《文远知行(WRD.O)-全球L4级自动驾驶产品及解决方案先行者 》——20250822 公司点评 《小马智行(PONY.O/2026.HK)-单三季度收入同比增长72%,Robotaxi商业化运营持续推进 》——20251207 《小马智行(PONY.O)-单二季度收入同比增长76%,Robotaxi规模化运营持续推进 》——20250908 《文远知行(WRD.O/0800.HK)-单三季度收入同比增长144%,L4产品商业化落地加速推进 》——20251209 核心观点 E \ = if > ● Robo~X:政策+技术+成本催化下,L4预计在2026年迎元年时刻。监管机构的支持和政策利好将推动无人驾驶汽车的商业化进程,强化学 习+世界模型构建L4技术底层,随着L2/L2+级自动驾驶汽车渗透率持续增长,带动智能驾驶相关的零部件成本下降,而J4和L2/L2+的零部 件 ...
未来智造局|当AI走进物理世界:从一场技能赛看具身智能的“能”与“不能”
新华财经· 2025-12-18 00:53
新华财经上海12月17日电(记者杜康、龚雯)在日前举办的2025全球开发者先锋大会上,机器人在插 花、搬运、救灾等真实场景中"各显神通"。冷冰冰的技术参数,在这里化作了鲜活的技能比拼。当然, 大赛也暴露了具身智能"笨拙"的一面:在叠衣服、拧螺丝等精细操作背后,不少机器人仍连着"遥操 作"的手柄。 恰恰是在这"能"与"不能"的缝隙中,公众得以窥见这一火热领域的技术边界与未来方向。 从机器人的"能"里看技术进阶 回望过去一年,中国具身智能领域"快步疾行":智元远征A2人形机器人完成无间断百公里跨省行走, 充分证明了机器人能够"走得稳";行业商业化"大单"频现,机器人真正进入工厂,负责分拣、上下料; VLA(视觉-语言-动作)模型的进化,则让机器人大脑更聪明,能够听懂人的需求。 在2025全球开发者先锋大会上,观众再一次真切看到了机器人的"能"。 更棘手的是环境干扰。"光照变化、桌子周边物体的摆放、强光下周边物体在桌子上的倒影等,都有可 能让机器人'智商下线',操作不准。这种难以将目标与'背景噪音'剥离的困境,折射出当下具身智能在 物理场景理解能力上的短板——泛化性不足。"参赛队员对记者表示。 ——拧螺丝等精细活儿 ...
深度解析世界模型:新范式的路线之争,实时交互与物理仿真
海外独角兽· 2025-12-17 15:53
文章核心观点 - 2026年将是多模态技术大年,视频生成将快速进步并推动应用大规模落地,世界模型将在研究上取得科学突破并开始从研究走向生产 [2] - 世界模型领域正分化为两条主要路线:一条以实时视频生成为核心,服务文娱、游戏等面向人类的消费者场景;另一条以显式3D结构为中心,服务机器人、自动驾驶等面向AI的领域 [2] - 世界模型相比视频生成模型,需要在交互性、实时性、长时记忆和物理合理性四个方面更进一步 [2] 世界模型定义与重要性 - 世界模型被定义为能理解时间和空间规律,并能根据当前环境和动作模拟未来世界演化的模型 [5] - 其重要性提升源于三大趋势:语言作为有损压缩的智能进步遇到局限,空间成为下一个重要智能来源;自回归Transformer与扩散模型的算法进步及融合,使生成模型具备智能层面的扩展定律;具身智能的需求倒逼,机器人行业需要高保真虚拟世界来满足指数级的数据需求 [5] 世界模型相比视频生成的关键进步方向 - **长时记忆**:需生成持续、连贯的长时间世界,保持全局一致性,当前视频模型通常只能生成十秒级片段 [6] - **交互性**:需支持在任意帧动态注入动作指令以影响后续画面,训练数据需同时包含视频帧序列和对应动作 [7][8] - **实时性**:交互式应用要求低延迟,游戏需低于0.1秒,VR理想情况应低于0.01秒,当前扩散模型推理难达30FPS以上,业界通过蒸馏和架构改进(如DMD将50步扩散压缩为4步)来提升实时性 [12] - **物理合理性**:对自动驾驶、机器人等高风险领域,模拟结果必须符合真实物理规律,当前模型在极端物理条件下易出现幻觉,研究者通过引入物理约束后处理或结合可微物理引擎进行校正 [16] 世界模型的两种发展路线 - **路线一:实时视频世界模型**:以实时性为核心优化目标,适用于文娱、游戏等to C场景,包括互动内容创作与新型“引擎”、直播和虚拟形象、AR/VR三大应用场景 [18][19][20] - **路线二:3D/4D结构化世界模型**:以物理准确性为核心,采用NeRF、3D高斯散点等显式3D表示,优势在于3D一致性强,适用于机器人、自动驾驶等for AI的领域,劣势在于数据获取和计算成本高 [18][21][22] 市场玩家四象限格局与代表公司分析 - 横轴表示表示形式(左侧Video-based,右侧3D/物理结构),纵轴表示服务对象(上部分面向人类,下部分面向AI与机器人) [24] - **World Labs**:位于右下象限,强调3D一致性与持久性,估值超10亿美元,融资总额约2.3亿美元,核心产品Marble是基于浏览器的交互式3D世界生成平台 [24][26][30][32] - **General Intuition**:位于左上象限,作为公益性公司,专注于利用游戏数据训练能进行时空推理的agent,其关联平台Medal每年可获得约20亿个游戏视频片段,拥有1000万MAU,公司已完成1.34亿美元种子轮融资 [24][33][35][38] - **Decart**:位于左下象限,推出可交互“开放世界”AI模型Oasis,该模型以Minecraft游戏视频训练,可实现端到端实时闭环,生成速度约25帧/秒,公司已完成3200万美元A轮融资,投后估值超5亿美元 [24][39][41][44] - **Odyssey**:位于右下象限,追求极致真实感与可编辑性,采用重装备采集数据和3D高斯泼溅技术,其Explorer模型可将单图像转化为高保真3D场景资产,公司已完成1800万美元A轮融资 [24][45][47][48]