世界模型
搜索文档
深度解析世界模型:新范式的路线之争,实时交互与物理仿真
海外独角兽· 2025-12-17 15:53
文章核心观点 - 2026年将是多模态技术大年,视频生成将快速进步并推动应用大规模落地,世界模型将在研究上取得科学突破并开始从研究走向生产 [2] - 世界模型领域正分化为两条主要路线:一条以实时视频生成为核心,服务文娱、游戏等面向人类的消费者场景;另一条以显式3D结构为中心,服务机器人、自动驾驶等面向AI的领域 [2] - 世界模型相比视频生成模型,需要在交互性、实时性、长时记忆和物理合理性四个方面更进一步 [2] 世界模型定义与重要性 - 世界模型被定义为能理解时间和空间规律,并能根据当前环境和动作模拟未来世界演化的模型 [5] - 其重要性提升源于三大趋势:语言作为有损压缩的智能进步遇到局限,空间成为下一个重要智能来源;自回归Transformer与扩散模型的算法进步及融合,使生成模型具备智能层面的扩展定律;具身智能的需求倒逼,机器人行业需要高保真虚拟世界来满足指数级的数据需求 [5] 世界模型相比视频生成的关键进步方向 - **长时记忆**:需生成持续、连贯的长时间世界,保持全局一致性,当前视频模型通常只能生成十秒级片段 [6] - **交互性**:需支持在任意帧动态注入动作指令以影响后续画面,训练数据需同时包含视频帧序列和对应动作 [7][8] - **实时性**:交互式应用要求低延迟,游戏需低于0.1秒,VR理想情况应低于0.01秒,当前扩散模型推理难达30FPS以上,业界通过蒸馏和架构改进(如DMD将50步扩散压缩为4步)来提升实时性 [12] - **物理合理性**:对自动驾驶、机器人等高风险领域,模拟结果必须符合真实物理规律,当前模型在极端物理条件下易出现幻觉,研究者通过引入物理约束后处理或结合可微物理引擎进行校正 [16] 世界模型的两种发展路线 - **路线一:实时视频世界模型**:以实时性为核心优化目标,适用于文娱、游戏等to C场景,包括互动内容创作与新型“引擎”、直播和虚拟形象、AR/VR三大应用场景 [18][19][20] - **路线二:3D/4D结构化世界模型**:以物理准确性为核心,采用NeRF、3D高斯散点等显式3D表示,优势在于3D一致性强,适用于机器人、自动驾驶等for AI的领域,劣势在于数据获取和计算成本高 [18][21][22] 市场玩家四象限格局与代表公司分析 - 横轴表示表示形式(左侧Video-based,右侧3D/物理结构),纵轴表示服务对象(上部分面向人类,下部分面向AI与机器人) [24] - **World Labs**:位于右下象限,强调3D一致性与持久性,估值超10亿美元,融资总额约2.3亿美元,核心产品Marble是基于浏览器的交互式3D世界生成平台 [24][26][30][32] - **General Intuition**:位于左上象限,作为公益性公司,专注于利用游戏数据训练能进行时空推理的agent,其关联平台Medal每年可获得约20亿个游戏视频片段,拥有1000万MAU,公司已完成1.34亿美元种子轮融资 [24][33][35][38] - **Decart**:位于左下象限,推出可交互“开放世界”AI模型Oasis,该模型以Minecraft游戏视频训练,可实现端到端实时闭环,生成速度约25帧/秒,公司已完成3200万美元A轮融资,投后估值超5亿美元 [24][39][41][44] - **Odyssey**:位于右下象限,追求极致真实感与可编辑性,采用重装备采集数据和3D高斯泼溅技术,其Explorer模型可将单图像转化为高保真3D场景资产,公司已完成1800万美元A轮融资 [24][45][47][48]
中国下一批千亿公司
投资界· 2025-12-17 11:08
文章核心观点 - 具身智能是当前贝塔最高的投资赛道,但其核心“大脑”部分的技术范式尚未收敛,仍处于探索突破阶段[3][4] - 中国在具身智能大脑的研发上存在独特的技术路径(如类脑计算),并有望实现领先,但国内在资金和数据投入上与国外差距正在拉大[8][14][24] - 解决数据稀缺和计算效率问题是具身大脑落地的关键,不同公司通过类脑解耦、世界模型预训练及自动化数据处理等不同方式应对挑战[12][14][16][17] - 具身大脑的成熟将实现本体无关和场景泛化,其技术范式有望在2年内初步收敛,并将催生比语言大模型更大的市场和更多的巨头公司[20][21][26][27] 行业现状与挑战 - 具身智能是过去几年最热、贝塔最高的投资方向,但“大脑”部分远未成熟,其“DeepSeek、ChatGPT时刻”尚未到来[3][4] - 国内与国外在具身大脑领域的差距不是在缩小,而是在变大,主要原因是国外企业获得更多资金用于数据Scaling,每周有上十万小时的数据持续回流[8] - 国内在大脑的投入远远不够,而技术范式已从去年年底、今年年初开始向视频预训练切换,特斯拉Optimus团队、Figure的Go-Big项目都在进行相关实践[8] - 具身智能的数据非常少,现有数据量仅对应3-5岁小孩的水平,远未达到成年人的能力预期[14][15] 公司技术路径与方案 千诀科技 - 公司孵化于清华类脑中心,致力于打造一个可让所有机器人使用的“缸中之脑”,该大脑不分形态,可持续学习、自我演化和分化分区[4] - 技术核心是类脑计算与解耦,模仿人脑分区独立优化与演化的机制,而非端到端模型,这种方式可将样本效率提高至少一万倍[5][16] - 已完成第三代模型的预训练,并在7大类、20多小类机器人形态上完成适配,与头部公司合作,预计明年将有10万台设备接入其大脑[4] - 已实现“四个跨”的自主智能泛化:跨场景、跨物体、跨任务、跨形态,机器人可在无人类指令下仅凭出厂设置和通识预训练工作[25] - 认为中长期解决方案是“类脑大模型+类脑芯片”,以解决端侧部署的功耗与性价比矛盾,中国在此技术路线上全球领先[24] 流形空间 - 公司聚焦于构建世界模型驱动的具身大脑,技术孵化自清华大学电子系的FIB实验室,团队是国内最早研究世界模型的工业界团队之一[6][7] - 已开发出对标李飞飞RT-M的、可单图生成可交互空间的基础世界模型,并应用于机器人大脑和无人机[6] - 技术范式区别于VLA,其通过空间智能的世界模型预训练再部署到机器人,认为VLA路线因通信带宽低、泛化性差,不适合作为大脑基座[6][7] - 拥有全栈自动化数据处理能力,内部有超过100个计算机视觉算子自动化处理视频标签,无需人工,旨在将数据变为公司资产[12][13] - 认为世界模型应是数据驱动的黑盒模型,以避免人为先验知识限制其能力上限,坚信机器智能最终将超越人类(ASI)[19] 关键技术范式探讨 - **世界模型的定位**:世界模型应是对世界的极致压缩,是机器人的Foundation Model,而不仅是环境模型[11] - **世界模型的类型**:主要分为两种范式,一种是构建人能看见的、输出视频的显空间世界模型;另一种是构建编码高维世界知识的隐空间世界模型,后者可能更具发展潜力[9][10] - **白盒与黑盒之争**:对于世界模型是否可解释存在分歧,一方认为基于因果推理的模型应是白盒;另一方则认为数据驱动的视觉模型必然是黑盒,其能力上限不应被人为理解所限制[18][19] - **实现路径**:要实现通用机器人,需要两个阶段:首先是世界模型预训练提供通识教育(0-60分能力),其次是结合具体场景的软硬一体后训练进行过拟合,兜底性能下界[21][22] 发展预期与落地展望 - 技术范式收敛时间预计在2年以内,前提是数据利用范式和管线得到提升[26] - 若追求处理更复杂的功能,具身大脑可能永远不会收敛到端到端范式,而是收敛到一个持续学习、动态变化的分区结构,类似于人脑[27] - 具身智能是比语言大模型更大的方向,未来将出现更多的创业公司和千亿级公司[27]
Alex Wang“没资格接替我”,Yann LeCun揭露Meta AI“内斗”真相,直言AGI是“彻头彻尾的胡扯”
36氪· 2025-12-17 10:45
对当前主流AI发展路径的批判 - 图灵奖得主Yann LeCun尖锐批评当前硅谷主流的人工智能发展路径,认为单纯依靠扩大语言模型规模、喂更多合成数据、雇佣数千人进行后训练以及强化学习微调,是一条“完全胡扯”且“根本行不通”的死胡同[1] - 其观点挑战了行业以语言能力和知识覆盖面为中心的评估体系,指出现实世界中的理解、预测和行动能力远比生成流畅文本复杂,而现有以语言为核心的模型并未触及问题本质[2] - 业界对大语言模型规模化的执念,正将人工智能引向一条看似高速、实则封闭的死胡同[1] 对AI发展关键瓶颈的判断 - 真正制约AI进步的关键,并非如何更快逼近“人类级智能”,而是如何跨越一个常被低估却极其困难的门槛——让机器具备“狗的智能水平”[2] - 从“狗水平智能”到“人类水平智能”的跨越相对容易,最难的部分是达到“狗水平”,一旦达到该阶段,绝大多数核心要素就已具备[34] - 从灵长类到人类,新增的关键能力可能主要是语言,而语言在大脑中只占据极小的区域,当前技术在这方面已做得相当不错[34] 关于AGI(通用人工智能)的见解 - “通用智能”这个概念本身站不住脚,它本质是以“人类智能”为参照定义的,但人类智能本身高度专用化[30] - 与其讨论“通用智能”,不如讨论“人类水平智能”,即机器在所有人类擅长的领域达到或超过人类,这个过程将是渐进而非突发的[31] - 如果一切顺利且无根本性障碍,最乐观估计在5到10年内,或许能看到接近人类或至少接近“狗水平”的智能系统,但历史表明AI发展中总会出现新瓶颈,可能需要20年甚至更久才能突破[32][33] 新公司AMI的技术路线与愿景 - 结束在Meta长达12年的职业生涯后,LeCun通过其新公司AMI(先进机器智能)推动构建“世界模型”的技术路线,旨在让机器理解和预测世界[2][5] - 与主流生成模型在像素或文本层面输出不同,AMI的核心思路是在抽象表征空间中对世界运行规律进行建模和预测,关注“世界将如何演化”而非“生成看起来像什么”[2] - 公司最终目标是推出围绕世界模型和规划等核心技术的实际产品,并希望未来成为智能系统的主要供应商之一[7] - 公司计划以开放的方式进行上游研究,认为公开发表成果是取得突破的必要途径[5][6] 世界模型的技术原理与优势 - 世界模型旨在处理高维度、连续且含噪声的数据模态(如图像、视频),而大语言模型对此完全无能为力[9] - 有效方法是学习一个抽象的表征空间,滤除输入中大量无法预测的细节(包括噪声),然后在该表征空间内进行预测,这是JEPA(联合嵌入预测架构)的核心思想[9] - 世界模型不需要是现实的逐像素模拟器,而是在抽象表征空间中,只模拟与任务相关的那部分现实,这类似于计算流体力学等科学模拟中使用的抽象层级[20][21][22] - 视频等真实世界数据在字节层面更冗余,这种冗余结构使得自监督学习成为可能,其结构远比文本丰富,仅靠文本训练永远不可能达到人类水平的智能[18][19] 对大语言模型局限性的分析 - 当前基于大语言模型的架构构建的智能体系统并不理想,需要海量数据模仿人类行为且可靠性有限[8] - 要训练一个性能尚可的大语言模型,需使用几乎整个互联网中所有可获取的文本数据,一个典型模型的预训练规模大约是30万亿token(约10¹⁴字节),模型需要极大存储能力来记忆并复述这些事实[18] - 大语言模型并不真正理解基础世界规律(如物体会下落),它们只是被微调到给出“看起来正确”的答案,这是复述而非理解[25] - 通过微调语言模型来解决安全问题存在根本缺陷,因为它们总可以被“越狱”绕过限制[37] 对合成数据与模拟环境的看法 - 合成数据具有价值,例如孩子通过游戏在受控模拟环境中学习[24] - 需警惕某些模拟的失真(如视频游戏中为“好看”而非真实的物理效果),不加控制可能会影响模型在现实世界中的泛化能力[24] - 关键不在于是否使用模拟,而在于在哪个抽象层级上训练模型,很多基础世界规律是在非常抽象的层面上学到的[24] 对AI安全与治理的立场 - 安全必须与发展同步进行,而不是先停下来等“绝对安全”,可类比喷气发动机通过不断工程改进达到高可靠性的发展路径[37] - 应转向以目标驱动为核心的AI架构,该系统拥有世界模型预测行为后果,可规划行动序列,并受到一整套硬性约束限制,在设计层面就是安全的[38][39] - 当前LLM领域通过生成大量候选输出再进行过滤排序来限制输出的方法,计算成本高得离谱,昂贵、低效且不可规模化[39] - 强大技术必然伴随风险(如汽车早期),但那是工程和治理问题,而非不可逾越的根本障碍,AI已在医疗影像等领域挽救大量生命[35][36][50] 对行业生态与竞争格局的观察 - 当前AI投资热潮让长期研究型创业成为可能,而以前这类研究只能依托于大企业或大公司的研究院[5] - 包括谷歌、OpenAI甚至Meta在内的许多实验室正从开放研究转向封闭[5] - 硅谷因竞争极端激烈,所有公司都被迫做同一件事(大语言模型),催生了技术单一化现象,OpenAI、Meta、Google、Anthropic几乎所有公司都在做同样的事情[47] - 这种环境导致公司拼命在同一条战壕里竞争,却很容易被来自“完全不同方向”的技术突破所颠覆[48] - 在硅谷大公司内部,也有不少人私下认同当前主流路径错误,LeCun的新公司正在招募这些人[49] 对其他相关公司与技术的评价 - 对大多数试图构建世界模型的公司(如SSI)具体在做什么不太清楚,SSI甚至成了行业笑话[44] - Physical Intelligence主要做几何一致的视频生成,但这仍是“生成像素”的思路,LeCun认为这是错误方向[44] - 认可Wayve公司在自动驾驶领域构建的世界模型,认为其做对了一半(预测发生在表示空间),但问题在于其表示空间仍主要通过重建训练得到[45] - 认可NVIDIA和Sandbox AQ的类似方向,Sandbox AQ提出的“大型定量模型”与LeCun的主张高度一致[46] - Google做了很多世界模型,但主要仍是生成式路径,Danijar Hafner的Dreamer系列模型走在正确道路上,但其已离开Google创业[47] 关于Meta内部AI方向的变动 - Alex Wang负责Meta所有AI相关的研发与产品整体运作,而非科研本身,他并不是在“接替”LeCun的科研角色[40] - Meta的“超级智能实验室”体系下分为四部分:FAIR(长期基础研究)、TBD Lab(前沿大语言模型)、AI基础设施、产品部门,Alex Wang统管这四个方向[40] - FAIR目前被明显推向更短期、更偏应用的研究方向,发表论文的重要性下降,更多是为TBD Lab的大模型工作提供支持,这意味着Meta整体正在变得更“封闭”[42] - 一些研究团队(如做SAM的团队)已被重新归类到产品部门[43]
数字科技产业观察 | 双周要闻(2025.12.02—12.16)
每日经济新闻· 2025-12-16 18:45
部委动态 - 工信部修订印发《产业技术基础公共服务平台管理办法》,明确服务平台申报单位应明确服务行业领域及范围,重点行业包括装备、石化化工、钢铁、有色、建材、轻工、纺织、食品、医药、新一代信息技术、生物技术、新能源、新材料、新能源汽车、人工智能、元宇宙、脑机接口等,服务范围涵盖计量检测、标准验证与检测、质量可靠性试验检测、认证认可、产业信息、知识产权、技术成果转化等,该办法自2025年12月5日起施行 [1] - 国家发展改革委、国家数据局等多部门联合发布关于加强数据要素学科专业建设和数字人才队伍建设的意见,旨在建立数据领域学科专业设置调整机制和人才培养模式,激活数据要素赋能新质生产力的创新引擎作用,促进教育链、人才链与产业链、创新链融合发展 [1] - 生态环境部印发《产品碳足迹因子数据库建设工作指引》,以指导社会主体探索数据研制或数据库开发,支撑产品碳足迹管理体系构建 [1] - 工信部就《元宇宙产业综合标准化体系建设指南(2026版)》公开征求意见,目标到2028年制定国家标准和行业标准20项以上,到2030年制定50项以上,以初步构建并完善支撑元宇宙产业创新发展的标准体系 [1] 地方行动 - 山东省在“十五五”规划建议中提出,推动深海空天、具身智能、生物制造、脑机接口、量子科技、元宇宙、氢能等成为新的经济增长点,并支持济南、青岛建设未来产业先导区 [1] - 江苏省元宇宙标准化技术委员会在南京成立,将重点承担元宇宙标准化路线规划、发展策略制定及前沿标准前期研究等顶层设计工作 [1] - 上海市2025年度关键技术研发计划“元宇宙”专项对15个项目予以立项,市科委资助总额4600万元,其中2025年拨款1840万元 [2] 成员单位动态 - 博瑞传播拟以6649.02万元受让每经科技51%股权,交易完成后将成为其控股股东,旨在联手每经传媒打造智能传播头部企业 [2] - 智谱正式开源其工业级语音合成模型GLM-TTS,该系统仅需3秒语音样本即可复刻人声,支持多情感表达,推动AI语音技术走向产业深度融合 [2] 行业动态 - 北京GPU公司摩尔线程于12月5日在科创板上市,成为“国产GPU第一股”,发行7000万股新股,占发行后总股本14.89%,每股发行价114.28元,开盘价650.00元/股,较发行价大涨468.78%,总市值达3055亿元,为2024年以来科创板最大规模IPO [2][3] - 谷歌宣布向Google翻译引入Gemini模型能力,推出可通过耳机进行的实时语音翻译Beta版,并提升文本翻译的语境理解能力,同时通过Google Labs推出一款名为“Disco”的实验性AI浏览器 [3] 院士观点 - 中国工程院外籍院士张亚勤提出,新一轮人工智能是信息智能、物理智能和生物智能的融合,并预测基础大模型最终将不超过10个 [3] - 中国工程院院士谭建荣强调,在重视大模型的同时不应忽略小模型,指出大模型的根基在于“小模型”和建模能力,并预判行业将转向“面向行业、面向产品”的小模型与智能体 [3][4] 行业洞察 - 图灵奖得主Yann LeCun认为,硅谷对不断“堆大”大型语言模型的痴迷是一条死路,并指出当前AI智能水平有限,他正将学术声誉押注于构建“世界模型”这一不同技术路线 [4] - 斯坦福大学教授李飞飞在访谈中深度解读,认为空间智能是通往通用人工智能的关键技术,并回顾其构建的ImageNet项目如何成为AI领域的大数据拐点 [4] 技术与应用 - 工业和信息化部正式公布我国首批L3级有条件自动驾驶车型准入许可,两款车型将在重庆、北京指定区域开展上路试点,标志着L3级自动驾驶从测试迈入商业化应用的关键一步 [4] - 数学家陶哲轩与团队在多种AI工具辅助下,仅用48小时便解决了尘封50年的数学难题Erdős1026 [4]
穿越周期的早期投资:从赛道思维到认知红利|甲子引力
搜狐财经· 2025-12-16 18:45
文章核心观点 - 在AI、具身智能等赛道高度拥挤、共识形成极快的市场环境下,早期投资的决胜点已从“赌赛道”转向对“人、周期及非共识”的深刻理解,即挖掘“认知红利” [1][2] - 投资机构正通过全链条布局、深度研究输出、个人IP打造等不同方式构建独特的“认知模型”和项目雷达,以在红海中识别机会 [1] - 保持投资“手感”、建立正向反馈循环以及在行业低谷期坚持布局,是捕捉下一个成功项目的关键 [1] 投资机构概况与策略 - **红杉中国种子基金**:成立于2018年,管理规模超过100亿人民币,7年来支持了400多家早期公司,其中约70%为第一轮投资,致力于成为创业者“最早的”投资人 [3] - **元禾原点**:成立12年,为元禾控股旗下早期投资平台,已投资300多个项目,主打硬科技、早期及医疗健康标签,依托国资背景与市场化结合 [4] - **峰瑞资本**:成立10年,为综合型早期基金,覆盖医疗、科技和消费,旨在赛道热起来之前进入,以对抗板块轮动周期 [5][6] - **心资本**:专注于科技与数字化领域的早期风险投资机构,团队曾投资小鹏汽车、满帮、速腾聚创等项目的早期轮次 [7] 当前重点投资方向 - **具身智能与AI硬件**:被视为重要方向,包括机器人、AI驱动的消费电子等 [8] - **AI应用与基础设施**:包括AI模型、应用、GPU、推理芯片等 [8][12] - **前沿与交叉学科**:包括AI for Science、量子科技、生物制造、核聚变、氢能、6G等“十五五”未来科技方向 [9] - **非共识与留白**:机构均保留一部分资金用于布局确定性不高、处于极早期的新兴技术和方向 [10][12] 构建认知差异的关键要素 - **投人重于投赛道**:早期投资的核心是识别优秀的创业者,例如红杉投资宇树科技主要基于对创始人王兴兴坚韧品质的认可,尽管当时行业共识不足 [14] - **长期跟踪与体系化布局**:通过长期(如5-10年)持续关注和投入,在赛道爆发前形成前瞻性认知,例如元禾原点自2011年投资江苏北人后,体系化布局了机器人及自动驾驶赛道 [16] - **穿越周期与低谷期布局**:在行业低谷期坚持投资,以便在技术拐点或市场回暖时抓住机会,例如红杉在去年市场不热时投资了外骨骼公司极壳和智能眼镜公司Even Realities [14][19] - **个性化认知模型**:投资决策如同大模型,每个人的背景、经历和过往案例(参数)不同,导致对同一创始人的评估和兴奋点截然不同 [21] 项目来源与机构影响力构建 - **红杉的全链条与孵化机制**:通过从想法阶段到IPO的全阶段布局,积极进行人才追踪和创业孵化,构建持续迭代的行业认知 [13][24] - **峰瑞资本的内容影响力**:通过创始人李丰(丰叔)的活跃输出、团队深度研究分享以及线上线下活动(如播客、美国路演)提升品牌能见度,间接促进优质项目触达 [25][26] - **心资本的思考开源**:通过运营“AI大航海”公众号(年更新5-6篇深度文章)开源关于AI的思考,旨在吸引志同道合的创业者,形成学习、投资、输出的正向循环 [26][27][28] - **元禾原点的资源融合**:作为人民币基金,学习美元基金开放打法,依托地方产业资源和国家方针引导,同时坚持市场化竞争,在硬科技领域与头部美元基金出现更多交汇与合作 [30][31] 未来投资展望关键词 - **AI全面聚焦**:机构普遍表示将大部分资金投向AI相关领域,峰瑞资本计划将70%资金投到AI上,近乎All in AI [33] - **AI基础底座**:元禾原点强调将更加注重在AI基础底座发力 [34] - **AI应用细分**:红杉中国表示将继续聚焦AI应用的各个细分领域 [34] - **投有积累的人**:心资本强调投资那些在特定领域有“10万小时积累”的创始人 [32]
许华哲,抓紧时间慢慢等具身的未来......
具身智能之心· 2025-12-16 08:02
文章核心观点 - 行业观察到具身智能领域在2025年存在发展速率与落地现实不协调的现象 具体表现为技术演示与真实世界应用之间存在差距 [6][7][8] - 行业认为中美在具身智能的发展路径上出现分野 中国公司侧重量产与商业化 美国公司侧重探索AI技术上限 行业担忧过度关注确定性量产可能错过最根本的AI技术突破 [9][10][11] - 行业主张具身智能应类比大模型 不应局限于简单、重复的落地场景 而应挑战需要强操作和高泛化能力的困难任务 以训练出高质量的通用模型 [12] - 行业指出具身智能面临数据瓶颈 其发展路径将是预训练与基于真实交互的持续学习螺旋上升 而非一次性完成数据训练 [15] 两个世界的机器梦 - 自2022年、2023年同步起步后 中美具身智能发展路径在2025年出现明显分野 [9] - 中国公司投入更多精力在量产和商业化上 而美国公司如1X Technologies(展示Gen0精细操作)、Figure(展示长程任务能力)、Sanctuary AI(展示持续工作能力)等则致力于展示AI技术上限 [9] - 行业认为机器人本质不同于汽车 AI能力是核心驱动力 需要由AI技术领跑 而非单纯追求量产 [9] - 行业呼吁在具身智能领域应建立原始创新的信心 而非仅采用跟随策略 需要容忍高失败率的探索性研发 [10] 落地简单场景还是挑战困难场景 - 行业观察发现 高价值、高重复性的场景往往已被传统自动化设备解决(例如解决90%的问题) 剩余未自动化场景通常因单价低或重复度低而不具经济性 [12] - 基于此 行业认为具身智能的定位应更接近大模型 不应将资源耗费在简单任务上 而应致力于挑战需要“强操作”和“高泛化”能力的困难场景 [12] - 挑战困难场景有助于训练出高质量的通用模型 从而更广泛地解决问题 尽管向具体场景的早期落地有其价值 可为未来积累迁移经验 [12][13] “预训练”配合“先验学习” - 具身智能面临天然的数据瓶颈 包括仿真数据不足和真机数据缺乏 这一问题将持续存在 [15] - 因此 行业发展不能遵循“先穷尽数据预训练,再探索模型”的线性路径 而需采用“预训练”与“真实世界交互学习”螺旋上升的模式 [15] - 行业认为 足够好的世界模型无法仅从人类采集的数据中训练获得 必须让机器人自主与世界交互才能构建其独有的世界模型 [15] - 行业对未来探索使用统一强化学习目标函数贯穿预训练与后训练的模式表示兴趣 [15]
世界模型与自动驾驶:最新算法&实战项目(特斯拉、视频、OCC等)
自动驾驶之心· 2025-12-15 14:00
课程核心信息 - 课程名称为世界模型小班课,是继《端到端与VLA自动驾驶小班课》后推出的进阶课程,聚焦于通用世界模型、视频生成、OCC生成等世界模型算法 [2] - 课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端在工业界落地,助力学员理解端到端自动驾驶 [12] - 课程开课时间为1月1号,预计两个半月结课,采用离线视频教学,并提供VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日 [16] 讲师背景 - 讲师Jason拥有C9本科和QS50高校的博士学位,已发表CCF-A论文2篇及若干CCF-B论文 [4] - 现任国内TOP主机厂算法专家,从事端到端、大模型、世界模型等前沿算法的预研和量产,并已主持完成多项自动驾驶感知和端到端算法的产品量产交付 [4] 课程大纲与内容 - **第一章:世界模型介绍** 复盘世界模型与端到端自动驾驶的联系,讲解其发展历史、应用案例、不同流派(如纯仿真、仿真+Planning、生成传感器输入、生成感知结果)及其在业界解决的问题和应用环节,并介绍相关数据集与评测 [7] - **第二章:世界模型的背景知识** 讲解世界模型的基础知识,包括场景表征、Transformer、BEV感知等,这些内容是当下世界模型求职面试频率最高的技术关键词 [7][8] - **第三章:通用世界模型探讨** 聚焦通用世界模型及近期热门工作,涵盖李飞飞团队的Marble、DeepMind的Genie 3、Meta的JEPA、导航世界模型,以及VLA+世界模型算法DriveVLA-W0和特斯拉ICCV分享的世界模型模拟器 [8] - **第四章:基于视频生成的世界模型** 聚焦视频生成类世界模型算法,讲解Wayve的GAIA-1 & GAIA-2、上交CVR'25的UniScene、商汤的OpenDWM、中科大ICCV'25的InstaDrive,并以商汤开源的OpenDWM进行实战 [9] - **第五章:基于OCC的世界模型** 聚焦OCC生成类世界模型算法,包含三大论文讲解和一个项目实战,此类方法可扩展为自车轨迹规划以实现端到端 [10] - **第六章:世界模型岗位专题** 基于前五章算法基础,分享工业界应用经验、行业痛点、期望解决的问题以及相关岗位面试准备与公司关注内容 [11] 关键技术覆盖 - 课程将复习Transformer基本概念并扩展到视觉Transformer,讲解为多模态大模型奠定基础的CLIP和LLaVA [13] - 详细介绍BEV感知基础知识及常见的占用网络,讲解扩散模型理论知识及其在多模轨迹输出中的应用 [13] - 梳理世界模型中常提的闭环仿真、NeRF和3DGS的核心概念,并讲解其他生成式模型如VAE、GAN以及Next Token Prediction [13] - 基于OCC的世界模型部分将涵盖清华的OccWorld、复旦的OccLLaMA、华科ICCV'25的HERMES以及西交最新的II-World等具体工作 [14] 面向人群与学后收获 - **面向人群要求** 学员需自备GPU,推荐算力在4090及以上,具备一定的自动驾驶领域基础,熟悉自动驾驶基本模块,了解transformer大模型、扩散模型、BEV感知等基本概念,具备概率论、线性代数基础及Python和PyTorch语言基础 [15] - **预期学习成果** 学完课程能够达到1年左右世界模型自动驾驶算法工程师水平,掌握世界模型技术进展,对BEV感知、多模态大模型、3DGS、扩散模型等关键技术有更深刻了解,可复现II-World、OpenDWM等主流算法框架,并能将所学应用到项目设计中,对实习、校招、社招均有助益 [15] 课程进度安排 - 课程章节按计划解锁:第一章于12月10日解锁,第二章于1月1日解锁,第三章于1月20日解锁,第四章于2月4日解锁,第五章于2月24日解锁,第六章于3月1日解锁 [17]
中游智驾厂商正在快速抢占端到端人才......
自动驾驶之心· 2025-12-15 08:04
行业技术发展趋势 - 智能驾驶领域的技术焦虑正在产业链中游厂商间快速传播[1] - 业内认为,端到端等前沿技术的大规模量产起点将在明年[2] - 当前智驾前沿技术发展放缓,量产方案趋同,L2级智能驾驶正走下沉路线[2] - 随着明年L3法规的进一步推进,中游厂商面临迫切的技术升级压力[2] - 近期许多公司的算法负责人正积极寻求了解端到端、世界模型、VLA、3DGS等前沿技术[2] 市场与量产现状 - 中国二十万以上的乘用车年销量约为700万辆[2] - 头部新势力品牌在此价格区间的销量占比不及三分之一[2] - 已实现端到端技术量产的车型占比更低[2] - 端到端技术的成熟被视为开启更大规模量产的关键[2] - 地平线公司宣布将进军10万级市场,表明高阶智驾正迅速向更多国民车型下沉[2] 技术实施与人才需求 - 端到端自动驾驶不仅仅是一个算法,其落地需要完善的云端与车端基础设施、数据闭环、工程部署、闭环测试、模型优化及平台开发等全套能力[2] - 可以预见,市场对中阶智能驾驶相关岗位的需求将更加旺盛[2] - 端到端和VLA(视觉语言动作模型)领域的招聘需求预计将显著增长[3] 行业培训动态 - 为应对技术升级需求,市场出现了针对端到端和VLA技术的实战培训课程[3] - 相关课程由工业界与学术界的专家联合开展,聚焦量产落地[3] - 课程内容涵盖导航信息应用、强化学习优化、Diffusion和自回归模型量产经验、时空联合规划等核心模块[3] - 另有课程专门梳理BEV感知、大语言模型、扩散模型和强化学习在端到端领域的应用,并设计相关实战项目[6] - 针对VLA领域,有课程从VLM(视觉语言模型)解释器到模块化、一体化及推理增强VLA进行全面梳理,并包含从零搭建模型的大作业[11] - 课程讲师及团队背景雄厚,多来自国内顶级主机厂、Tier1供应商及顶尖高校,拥有丰富的算法研发、预研及量产交付经验[5][8][13][14]
东方理工金鑫:如何找到自动驾驶与机器人统一的「空间语言」丨GAIR 2025
雷峰网· 2025-12-14 14:27
文章核心观点 - 文章介绍了宁波东方理工大学金鑫教授团队在空间智能与世界模型领域的研究进展,其核心思路是采用“混合”路径构建世界模型,即结合明确的物理规则知识与数据驱动方法,并率先应用于工业制造等产业场景以实现技术验证与落地 [3][4][5] 空间智能(世界模型)的起源与概念 - 空间智能概念在SLAM技术时期已被讨论,2024年由斯坦福大学李飞飞教授拓展至与物理世界的交互、感知和理解 [8] - 世界模型技术近期取得显著进步,例如李飞飞团队发布的Marble 3D世界模型和谷歌DeepMind发布的Genie 3,后者在写实性、一致性及物理正确性上达到更高水平 [9] - 世界模型有望成为继数据增强、数据合成之后,为人工智能训练提供高效路径的新选择 [9] 空间智能的技术框架 - 团队将空间智能或世界模型划分为三个部分:空间感知(基础3D建模与物理定律嵌入)、空间交互(支持智能体与环境及多智能体间互动)、空间的理解泛化与生成(基于充分理解衍生生成能力) [10][12][13][14] - 整体工作细分为两个方向:空间构建(搭建仿真环境)与智能体训练(在环境中训练AI),两者可形成不断优化迭代的闭环 [15][18] 核心研究成果:自动驾驶场景生成 - **UniScene**:团队提出的专注于驾驶场景生成的工作,已被CVPR接收,后续有V2等版本 [20] - **生成动机**:由于合规、隐私及车队规模限制,真实数据难以覆盖足够多的“corner case”危险场景,需通过生成式方法合成逼真有价值的场景数据 [22] - **技术路径**:采用以Occupancy(占据栅格)为中心的生成方案,因其蕴含丰富语义与必要几何信息,是连接场景理解与建模的有效“桥梁” [27][32] - **生成流程**:以简单的鸟瞰图布局为输入,首先生成语义Occupancy,再以此为中心分别衍生生成激光雷达点云和多视角视频,是一个两阶段的解耦过程 [34] - **进展与产业合作**:UniScene V2版本在NuPlan数据集上扩展了数据量,新增深度图和语义分割模态,并能根据车辆传感器位置生成对应视角数据 [37][40];该版本在GitHub上线不到一周获得数百个star(后超过2000个) [41];正与理想汽车合作,测试生成器对带有镜头畸变数据的泛化能力,以低成本支持其自动驾驶算法迭代 [41] 核心研究成果:规划与机器人场景生成 - **OmniNWM**:团队引入闭环的“规划-生成”串联机制,将规划的轨迹作为条件输入,预测执行该轨迹后未来场景的变化,可称为“万能的驾驶导航世界模型” [42][44] - **模型能力**:需同时预测全景RGB视频、语义分割、深度图、3D结构及未来规划轨迹,重点在于状态、动作及闭环奖励三个维度的扩展 [45][50] - **技术迁移**:将相同方法论迁移至机器人领域,应用于具身智能场景进行数据合成,能以Occupancy为桥梁生成机器人视频,处理软体、绳体等物体的数据合成,并与主流仿真器兼容实现批量并行生成 [45] 核心研究成果:机器人数据与训练模型 - **InterVLA数据集**:为补充机器人第一人称视角数据缺失,团队构建了包含约3.9千个序列的新基准数据集,包含第一人称视角视频、第三人称视角视频及动作捕捉数据 [46][49][57] - **DreamVLA模型**:针对“抓放”等任务,提出将大语言模型中的“思维链”思想引入视觉-语言-动作模型,让模型在输出最终动作前,先输出“世界嵌入”或“世界知识”等中间产物,形成多模态推理链条 [63][71][73] - **模型效果**:相比于Open-VLA等方案,DreamVLA泛化性更好,并能实现更快、更高效的收敛 [75] - **方位基础模型**:通过模块化方案赋予机器人“方位感知”能力,使其能像人一样从合适方位抓取物体(如抓瓶身而非瓶盖) [76][80] - **解耦世界模型**:将“解耦学习”嵌入世界模型,提取对任务至关重要的环境关键因子,排除非任务相关干扰,从而提升训练效率与模型鲁棒性 [81][83] 研究背景与团队发展 - 研究重点自2024年初开始聚焦世界模型与空间智能,标志着从处理2D视觉信号转向理解3D、4D等高维信号,旨在让AI获得对物理空间的认知能力 [85] - 团队在2025年NeurIPS会议上有两篇合作论文受到广泛关注 [85] - 团队学生培养取得初步成效,2024年有一位博士获得国家奖学金,2025年增加至两位 [91] - 招生最看重学生的自驱力与对科研的热情,并通过实习期进行双向考核 [91][92] 产业应用与场景选择 - 基于宁波强大的制造业背景(拥有104家国家级制造业单项冠军企业,数量全国第一),团队优先选择工业场景构建“工厂世界模型”,与奥克斯空调、均胜电子、吉利汽车等当地龙头企业紧密合作 [93] - 与专注于探索底层原理的知名团队(如LeCun团队、李飞飞团队)不同,该团队采取“两条腿走路”策略,既探索前沿技术,又聚焦有特色的应用场景 [94] 世界模型的构建方法与挑战 - **构建数据**:分为静态数据(物体级静态资产)和动态数据(RGB视频、激光点云、动作捕捉数据),两者均为必需 [95][96] - **构建步骤**:采用自上而下的技术路径,先定义物理规则,再叠加动态数据,最后以静态数据打底,涉及数据采集、处理、合成与模型训练 [97] - **兴起原因**:AIGC技术使得通过生成方式快速创建物理正确、视觉真实的场景成为可能,在效率与成本上相比传统手工建模有量级提升 [97] - **最大挑战**:成本最高的部分是前期静态资产和动态场景数据的创建与采集;技术难度最大的在于将软体、弹性体、流体等第一性原理和物理规则有效嵌入模型中 [98] 技术路径讨论与行业观点 - **关于Sora等视频生成模型**:认为其是否为世界模型取决于应用场景,在游戏、娱乐等内容生成领域有价值,但在需要精细空间感知与动作策略的机器人或自动驾驶领域存在局限性 [99] - **载体差异**:当前趋势是采用数据驱动的端到端模式(如VLA模型),倾向于为不同形态的智能体(汽车、机械臂)构建统一的世界模型服务,避免重复造轮子 [99][100] - **技术路径选择**:团队倾向于“混合”路径,结合端到端黑盒方法的能力与显性、可解释的组件 [101] - **学术界价值**:面对企业界强大的大模型路径,不必焦虑于快速商业变现,技术持续发展总需要新的突破,许多奠基性技术最初源于高校 [102] - **物理规律掌握**:关键在于构建高度物理真实的世界模型本身,若能真实还原材质物理属性,仿真环境中训练出的智能体行为结果会与真实世界一致 [102][103] - **实现方法**:采用知识库与数据库结合的混合路径,对明确规则(如碰撞检测、摩擦力)进行知识嵌入,对复杂现象(如流体运动)则采用数据驱动方法 [104][105]
GAIR 2025 「数据&一脑多形」分论坛,激辩 AI 演进路径
雷峰网· 2025-12-14 14:27
文章核心观点 - 人工智能正从语言理解迈向物理世界交互 未来十年的关键是将通用智能从语言领域拓展到物理世界 其核心路径在于融合“数据价值重构”与“一脑多形”架构革命 [1][5] - 数据正从“资源”演变为定义模型认知边界与价值对齐的“认知基础”与“价值载体” 高质量、结构化、富有逻辑链的数据是驱动智能持续进化的核心纽带 [3][4] - “一脑多形”范式旨在构建一个统一的底层认知核心 使其能动态衍生出适应不同场景、模态与任务的多种形态 这是实现从“专用智能”到“统一智能”跃迁的关键 [5] 新数据范式:驱动模型演进的核心基础设施 - 人形机器人代表的具身智能成为对高质量数据有强烈需求的新赛道 行业正系统性思考数据规模、质量与模型能力的关系 [10] - 具身智能数据获取面临三大结构性挑战:成本效率低且成功率低、能力存在局限性(如灵巧手内操作)、以及跨本体泛化能力差 [11][13] - 行业探索以人为中心的数据路径 构建不与单一机器人本体强绑定的数据体系以提升数据复用价值 诺亦腾正在建设覆盖标准化与真实场景采集的具身智能数据工厂 [12] - 具身数据体量将爆发式增长 “具身数据服务”被视为机器人赛道下一个“Scale AI”级别的确定性机会 [15] - 当前数据采集主要分为真机端(如末端执行器动捕、遥操作)与仿真端(如轨迹合成、资产生成)两条路径 [16] - 通过平台化与引入AI Agent构建数据工具链 可实现真实世界数据集构建速度提升30倍 仿真数据生成提升3.5倍 [17] - 圆桌讨论共识:好的数据应以终为始 由最终模型性能与机器人训练受益程度决定 采集方式将多元化 包括遥操作、UMI、动捕、仿真等 [19] - 野外数据采集技术门槛高 需低摩擦、高精度、多模态的数采设备 并可能通过世界模型进行先验估计来丰富数据维度 [20] AI的“大脑”革命:一脑,何以多形? - “一脑多形”指同一套智能系统可适配人形、车形等不同形态 核心大脑不变 这是当前具身智能的热门技术路线之一 [21] - 通用飞行智能处于爆发前夜 行业存在气流扰动大、机载算力弱、传感器廉价、数据采集困难等挑战 [26] - 微分智飞展示了多任务小脑技术 其最小的端到端神经网络可运行在自重约50克、机载算力低于1 Tops的无人机上 并通过自动化系统降低数据采集成本 [28] - 团队实现了飞行机械手通过单电机线驱动机构进行多自由度形变 具备指尖捏取和掌心抓握能力 可应用于短途物品运送 [29] - 空间智能技术分为三个层级:基础空间感知、进阶空间交互、最终空间理解与生成 并形成“建模-训练-迭代优化”的研发飞轮 [33] - 在自动驾驶领域 提出以“占据栅格”为中心的生成方案UniScene 其V2版本新增深度与语义分割模态 并与理想汽车合作测试泛化能力 [34] - 在机器人领域 提出ORV框架并构建InterVLA数据集 同时研发DreamVLA模型 将大语言模型“思维链”思想引入 以提升决策可解释性与泛化能力 [37] - 人形机器人是面向人类环境的相对通用方案 互联网上大量人类日常生活数据包含可用运动与操作逻辑 [40] - 通过体素化点云表示环境与引入激光雷达自扫描 可显著提升复杂地形下运动策略从仿真到真实的迁移成功率 使控制从“盲动”转向“感知驱动” [40][42] - 圆桌讨论认为 具身智能行业仍处探索阶段 技术路线尚未收敛 本质是AI与机器人结合带来的智能性与泛化性飞跃 [46] - 对于世界模型 自动驾驶与机器人任务的要求和技术范式区别很大 世界模型与视觉-语言-动作模型可结合应用 [47] - 通用控制器的实现 在仿真中需权衡精度与平衡性 在真实世界则高度依赖硬件性能 [47] - 技术落地面临“既要星辰大海 也要赶紧赚钱”的困境 虽然落地尚远 但已能看到现实应用 不再仅是科幻展示 [48]