Workflow
世界模型
icon
搜索文档
AI“世界模型”来袭:全球游戏产业或迎颠覆时刻
中金在线· 2025-12-26 08:42
行业变革驱动因素 - 能够生成交互式3D环境的“世界模型”人工智能技术出现,正引发全球视频游戏产业的颠覆性变革 [1] - 谷歌DeepMind、World Labs等领先AI团队认为,世界模型可能重塑价值数十亿美元的游戏行业 [1] - 技术影响将延伸至游戏引擎领域,如Unity和Epic的Unreal引擎,被认为“到了该升级的时候” [1] 核心技术进展与应用 - World Labs推出首款商业产品Marble,这是一个由生成式AI驱动的三维世界生成系统 [1] - Marble技术允许用户仅凭一张图片、一段影片或一段文字提示,创建空间连贯、高保真且可持续的三维世界 [1] - 生成式AI工具已被用于制作游戏视觉资产,如独特地形景观和角色 [2] - Epic Games与迪士尼在《堡垒之夜》中推出了由AI驱动的“达斯·维达”角色,作为可互动的非玩家角色 [2] - 除了游戏,xAI、英伟达等公司希望将世界模型嵌入机器人和自动驾驶汽车中 [1] 对游戏开发的影响 - AI显著提升开发效率,例如Game Gears工作室的《异形大战僵尸:入侵》等游戏开发速度提升了四倍 [2] - 未来,玩家将能够自行创造全新游戏世界,开发者可减少对昂贵软件或专业技能的依赖 [2] - 技术将赋能创作者和开发者,让他们更快、更好、以全新方式进行创作,并催生目前不存在的新型游戏体验 [1] - 在顶级3A游戏开发成本常超过10亿美元、耗时数年的行业中,AI有助于降低成本、提升创造力并避免开发人员过度疲劳 [3] - 世界模型有望帮助开发者重新获得“寻找乐趣”的空间,有更多时间尝试新点子、打磨细节和调试Bug [4] 行业现状与未来展望 - 全球游戏产业2024年收入预计接近1900亿美元 [2] - 有观点认为,电子游戏和电影行业很快都将无法在没有AI的情况下运作 [2] - 技术将使制作高度个性化的游戏变得相对简单,让游戏产业与今天截然不同 [2] - 批评者担忧AI增加将导致开发者和艺术家被取代,游戏可能被大量低质量的AI生成素材淹没 [2] - 部分欧洲电子游戏行业工会谴责AI在行业中的扩张,称工具“被强加给我们” [3]
Physical Intelligence内部员工分享(从数采到VLA再到RL)
自动驾驶之心· 2025-12-25 17:33
文章核心观点 - 截至2025年12月,机器人学习领域的主流技术栈完全基于行为克隆,其核心挑战在于处理分布外状态、任务不确定性以及动作误差累积,而超越行为克隆的强化学习等方法在真实世界应用中仍面临仿真与现实差距、高质量价值函数学习等重大障碍,行业未来发展将依赖于更高效的人类示范系统、视频模型骨干以及世界模型的进步[8][41][44][46][72][74] 2025年机器人学习栈的剖析 - 当前所有机器人学习系统本质上都是行为克隆系统,通过监督学习模仿人类提供的接近最优的任务演示,预测动作片段[8] - 行为克隆的训练数据主要来源于三种人类演示方式:主从控制方案、手持设备示范以及直接的人类示范视频[9][10] - **主从控制方案**:使用控制器远程操控机器人,优点是能记录全套传感器信息且动作在运动学上可行,缺点是操作速度可能比人类直接操作慢10倍,操作员需要数周练习,且规模化数据采集成本高昂[11][12] - **手持设备示范**:人类操作者手持配备低成本传感器套件的设备完成任务,通过SLAM和逆运动学重建状态,优点是操作更易上手、速度更快、部署成本更低,缺点是存在传感器噪声和域差距,且无法保证动作的动力学可行性[13][14][15][20] - **直接人类示范**:利用YouTube或工厂工人佩戴摄像头记录的视频数据,优点是数据规模巨大、多样且以人类自然速度产生,缺点是在重建状态和动作时存在巨大差距,存在视角不一致和运动学不可行等问题[16][17][21] 行为克隆中的难题与解决方案 - 行为克隆策略在实际执行时会因环境微小变化、任务本身的不确定性/多模态性以及动作预测误差的递归累积而逐渐偏离,进入训练分布之外的状态[19][22][23] - 解决分布外状态性能问题的核心方法不是仅依赖专家示教数据,而是需要引入DAgger风格的方法,即训练模型学会从失败状态中恢复[28][30] - 构建有效的DAgger恢复数据是一门高度迭代的“艺术”,需要精心筛选数据以避免模型学会进入失败状态,这个过程繁琐、耗时且依赖人类的强判断力[32][33][34][35] - DAgger数据迭代通常基于预训练好的基础策略进行,投入足够精力后策略可以变得出乎意料地鲁棒,但随着鲁棒性提升,评估性能所需时间会急剧增加,且离线指标与真实性能相关性弱[36][37] - 行为克隆策略难以超越人类示范的速度,直接加速执行会给控制系统带来压力并导致物理交互错误,筛选最快示范或对速度条件化建模都无法让策略速度超过人类本身[38][39][40][42] 超越行为克隆的挑战 - 行为克隆系统受限于人类示教者提供数据的速度以及修复失败所需的大量人工投入,行业理想是发展能够自我提升、自主探索并达到超人速度的机器人系统[41][43][44][55] - 大语言模型中的强化学习成功得益于其能从完全相同的状态无限次执行以及拥有强大的基础策略,这使得在线、on-policy的强化学习可行,而机器人领域不具备这些条件[47][48][49][53] - **仿真中的强化学习**:面临严重的仿真到现实差距问题,仿真器在物理建模、视觉外观等方面往往是现实世界的糟糕仿制品,完全在仿真中训练的策略迁移到真实世界时表现通常糟糕[58][59] - **真实世界中的强化学习**:避免了仿真到现实的差距,但直接从策略执行中学习改进面临障碍,核心难点在于必须回答反事实问题,而机器人无法从同一状态反复尝试不同动作[63][64][65] - 学习高质量的世界模型或Q/V函数来评估反事实结果仍然是一个开放的研究问题,目前尚未有工作能很好建模灵巧操作任务关心的环境交互动力学,近期方法如优势加权回归仅展示出相较于纯行为克隆的小幅提升[60][61][68][69][70][71] 对机器人学习未来的预测与建议 - **技术预测**:未来2年内,视觉语言动作模型将被视频模型骨干取代;10年内,世界模型将能很好地模拟通用开放世界交互,策略可通过在世界模型中“抽取”获得;传统仿真引擎将成为世界模型的数据生成器,但核心是端到端学习的;接近专家级的示范数据对微调世界模型仍至关重要;真实机器人执行数据仍是实现超人级性能所必需的[74] - **行业建议**:人类示范将长期持续重要,构建能有效降低痛点的软硬件一体人类示范系统是极具价值的创业或合作方向[74] - **创业方向分析**:数据标注是高度商品化、人力成本套利的业务,缺乏技术护城河;售卖预训练数据需要证明能提升客户模型性能,这既是运营也是技术挑战;评估对模型改进闭环至关重要,必须内部完成,无法外包;由于传感器和任务目标差异巨大,具身AGI领域不会出现通用的数据平台[74]
2026大洗牌:中国百家人形机器人公司,谁将留下? | 年度行业前行者
第一财经· 2025-12-25 17:33
文章核心观点 - 人形机器人行业在2025年市场热度空前高涨,但当前仍处于以硬件本体研发为主的第一阶段,即将迈入以“机器人大脑”发展为关键的第二阶段[1][2] - 行业面临商业化进程挑战与落地应用痛点,预计2026年将进入洗牌期,市场参与者将大幅减少,最终可能仅留存10到20家公司[3][5] - 人形机器人是人工智能最重要的落地场景之一,未来市场空间巨大,全球潜在需求可达300到400亿台,远超手机和汽车行业[6] 国内外主要参与者 - **国外代表企业**:特斯拉的擎天柱机器人和Figure AI是代表性企业[1] - **国内第一梯队**:杭州宇树科技和上海智元机器人估值均已突破百亿,上市进展最快[1] - **其他知名企业**:包括北京星动纪元、银河通用、松延动力,杭州云深处、千寻智能,深圳逐际动力、众擎、优必选,以及广州小鹏机器人等[1] - **行业规模**:2025年国内获得融资的人形机器人公司已超过100家[1] 行业发展阶段与现状 - **当前阶段**:行业处于第一阶段,以机器人本体研发为主,集中在硬件层面,竞争焦点在动作的流畅性、灵活性、步态仿生、手部操作等方面[2] - **阶段特征**:产品实现基础运动与简单操作,例如行走、拧螺丝等[2] - **人才背景**:国内创业者多为硬件工程师背景,专注于人工智能的企业尚未大规模进入该领域[2] 行业面临的问题 - **商业化进程挑战**:大多数人形机器人仍以展示、表演为主,动作多为预设或通过大量采集训练而得,缺乏类人的自主学习和延伸能力,“大脑”部分尚不成熟[3] - **落地应用痛点**:关键在于谁能率先找到大规模应用场景,实现产品销售、收入和利润,形成自我造血能力,而非依赖融资生存[3] - **国外企业进展**:特斯拉计划在2026年第一季度发布第三代擎天柱机器人,并建设百万台年产线,年底启动量产[3] - **国外企业进展**:Figure AI计划在2026年实现1.2万台的年产能,并逐步扩大至10万台[3] - **国内企业进展**:宇树科技、优必选、智元机器人等已启动上市与量产计划,例如优必选2026年的交付目标为2000至3000台[3] 潜在应用场景 - **首要应用场景**:预计将在工厂流水线、物流搬运等标准化环节[4] - **核心优势**:相比传统机械臂更具灵活性和移动性,能根据生产需求快速切换预设动作,显著降低调整成本与时间[4] - **任务范围**:能承担工序衔接、半成品转运等任务,实现固定机械臂难以完成的跨区域协同作业,有望率先替代产线中从事重复性、固定操作的工人[4] - **复杂场景**:家庭保姆等复杂场景仍需较长时间才能实现[4] 2026年发展趋势 - **硬件成本下降**:灵巧手自由度提升、价格降低,无框电机、编码器、多维触觉传感器等核心零部件将持续迭代并降低成本[4] - **“机器人大脑”演进**:更为关键的是“世界模型”或“空间大模型”的发展,机器人需要空间感知与推理能力才能实现更高维度的智能[5] - **行业进入洗牌期**:不再像2025年那样几乎所有公司都能获得融资,国内上百家人形机器人公司中,最终可能只留下10到20家[5] 未来胜出公司类型与产业模式 - **胜出公司类型**:一类是将硬件成本控制到极致的本体企业,预计会有5到10家留存;另一类则是专注于“大脑”的软件公司,为行业提供通用的智能系统[6] - **软件公司价值**:专注于“大脑”的软件公司很可能成为行业中价值最高、利润最丰厚的环节[6] - **潜在进入者**:大型科技企业大多仍在观望,待市场成熟后可能会快速入场,最有潜力成功的是头部新能源汽车企业[6] - **潜在进入者逻辑**:头部新能源汽车企业拥有可迁移的自动驾驶技术、可落地的生产场景,并能通过机器人优化制造成本[6] - **潜在供应商**:大模型公司也可能成长为机器人“大脑”的核心供应商[6] - **产业模式**:未来可能出现两类产业模式,一是车企打造的“硬件-软件-场景”闭环模式;二是独立的硬件公司与大脑供应商协同的供应链模式[6] 市场热度与融资情况 - **市场热度**:从2025年春晚宇树科技的机器人舞蹈引发热潮,到全球首个人形机器人运动会,再到全国各大城市纷纷开展人形机器人大赛,市场热度空前高涨[1] - **估值变化**:不少公司估值从年初的十几亿,迅速攀升到70至100亿[1] - **融资情况**:2025年,多家企业融资超过3轮,累计融资金额在5到10亿元之间[1]
小米陈光:我们不想制造技术焦虑了
21世纪经济报道· 2025-12-25 16:24
行业技术路线争鸣 - 2025年智能驾驶行业出现“名词过载”现象,分化出VLA、VA、WA等多个技术派别,争鸣不断 [2] - 理想汽车与供应商元戎启行坚定选择VLA路线,在算法架构中引入大语言模型 [2] - 华为与小鹏是VLA的反对派,选择WA路线,尝试去掉Language环节 [2] - 小米汽车认为VA、WA、VLA本质目标一致,都是追求在有限算力下使模型的智能密度最大 [3][8] 小米汽车技术路径与进展 - 小米汽车坚定选择并深耕端到端技术路线,同时内部对VLA、WA、VA等所有主流路线均有预研团队 [3][4] - 小米端到端研发启动较晚,于2024年内部正式整合成立“端到端算法与功能部”,比理想、蔚来晚了至少3个月 [3] - 但小米追赶迅速,在2025年2月向用户全量推送300万Clips的端到端,7月推送1000万Clips版本,11月于广州车展发布Xiaomi HAD增强版,实现了“一年追三代” [3][6] - Xiaomi HAD增强版最大的不同是引入了世界模型+强化学习,使模型具备开放世界的知识性和推断复杂场景因果的能力,标志着进入认知驱动阶段 [3][9] - 小米智能驾驶团队规模已超过1800人,自2021年3月官宣造车后快速组建,第一年即组建500人团队,速度远超同期友商 [5][6][12] - 公司计划在2025年内完成Xiaomi HAD增强版的量产任务 [6] 技术理念:认知驱动与用户体验 - 行业共识是从单纯的数据驱动走向认知驱动阶段,以解决数据驱动无法覆盖所有长尾场景、难以平衡数据分布的问题 [9] - 简单的端到端模仿学习属于数据驱动,而引入强化学习、世界模型或VLA则属于认知驱动,其特点是让模型知道行为原因并进行自主探索与推理 [9] - 小米认为技术是否先进不代表体验一定更好,最终判断标准是能否被用户感知、信任和长期使用 [5][10] - 用户体验是最终落脚点,用户体验不好,用户会归咎于公司而非技术 [5][10] - 在有限硬件条件下训练出智能密度最大的模型是各家的努力方向,不应过分内卷算力 [14][15] 研发策略与基建能力 - 小米研发策略并非“一刀切”,新技术的引入需要循序渐进,并注重寻找最适合自身的技术方案 [5][9] - 强大的以数据为核心的研发基建是小米快速追赶的关键,其优势在于高效的研发架构、数据闭环和自动化流程 [17][18][19][20] - 基建能力强的体现包括:快速从已有数据中挖掘并标注问题、模型训练速度快、评测自动化程度高 [20] - 小米作为科技企业,其云端基建能力可在不同业务间相互借鉴和快速复用,这是其天然优势 [6][21][22] - 截至2025年第三季度,小米年度研发总投入已达235亿元,其中四分之一资金用于AI研发 [6] 仿真技术的应用与价值 - 在世界模型中应用强化学习面临两大难题:世界模型的保真度、并行探索的算力分配效率 [4][33] - 小米在应用强化学习和世界模型构建仿真环境方面比一般友商更为坚决 [32] - 高质量的仿真环境需要足够逼真、符合物理规律,并具备强大的场景编辑能力 [34][35] - 仿真数据主要用于解决实车难以遇到或危险的长尾场景,其生成质量很高 [35][36][42] - 在测试体系中,仿真测试里程要求至少是实车测试里程的100倍 [37][40] - 在模型训练数据中,仿真数据占比约为20%,真实数据占80% [41] - 这20%的仿真数据价值很高,能解决实车难以采集的场景,预计可减少数倍的人力成本 [41][42]
对话大晓机器人董事长王晓刚:不押注VLA,押注世界模型
搜狐财经· 2025-12-25 15:59
公司战略与技术路线 - 大晓机器人由商汤科技联合创始人王晓刚出任董事长,公司不涌入机器人本体赛道,不押注视觉语言动作模型,而是将全部筹码押注于“世界模型”方向 [6] - 公司认为现有主流技术路线存在明显缺陷,视觉语言动作模型是以机器为中心的范式,不需要真正理解物理世界和物理规律,难以支撑长时序、复杂任务和跨场景泛化 [4][6][7] - 公司提出的核心技术架构是“以人为中心的环境式采集、开悟世界模型,再加上具身交互”三层架构,其世界模型核心是“理解-合成-预测”的融合能力 [8][13] - 公司在产品化落地方面输出软硬一体的方案,在硬件方面与钛虎、鹿明等被投企业合作,并与影石Insta360合作将全景相机能力赋予机器人 [11][15] 行业现状与竞争格局 - 2025年具身智能是最拥挤也最焦虑的赛道之一,人形机器人价格已被压缩至万元以内,但技术路线分歧尖锐 [5] - 行业头部卡位尚未完成,领域远未成熟,目前能够规模量产的机器人场景主要是提供情绪价值的表演性质产品或作为科研平台,尚未出现能大幅提升生产力的规模化应用 [17] - 机器人行业的产业链分工尚未完善,成本依然很高,整个产业格局远未确定 [17] - 新公司的机会在于技术路线存在革命性变化的可能,以及产业链和规模化应用场景尚未成熟 [17] 市场机会与落地场景 - 公司短期看好的规模化落地产品是搭载了导航能力与各类AI应用能力的四足机器狗 [19] - 公司中期优先看好即时零售仓储应用场景,例如闪购仓、前置仓,这类场景需要大量人力支持7×24小时服务,机器人能充分发挥优势,预计明年国内将出现大量此类场景 [5][19] - 在世界模型范式下,机器人处理复杂场景的能力有望突破,例如前置仓场景中上万个不同类别的商品,新的技术范式有可能做到这一点 [23] - 公司更远期的目标指向五年后的家庭场景,但这更多涉及前沿技术探索 [20] 发展动因与竞争优势 - 商汤科技将具身智能业务剥离成立独立公司,是为了填补其在端侧软硬协同整体产品方面的空白,实现软硬件整合 [16] - 公司入局的契机是看到了以人为中心的ACE研究范式这一革命性变化,以及商汤过去积累的几千家客户资源能帮助快速实现规模化场景落地 [18] - 公司认为开源是其发展路径的关键,一旦开源可以获得各种反馈和场景,这也是中国在人工智能发展路径上的一个差异化点 [21][22]
刚做了一份世界模型的学习路线图,面向初学者......
自动驾驶之心· 2025-12-25 11:24
世界模型与端到端自动驾驶的关系 - 世界模型并非端到端自动驾驶本身,而是实现端到端自动驾驶的一种途径[2] - 行业将自动驾驶世界模型的研究收敛于生成和重建两大领域[2] - 目前主流应用是利用世界模型进行闭环仿真,以应对Corner Case成本过高的问题[2] 世界模型课程核心内容架构 - 课程第一章概述世界模型与端到端自动驾驶的联系、发展历史、应用案例及不同技术流派[5] - 课程第二章涵盖世界模型的基础知识,包括场景表征、Transformer、BEV感知等,是求职面试的高频技术点[5][6] - 课程第三章探讨通用世界模型,解析李飞飞团队Marble、DeepMind Genie 3、Meta JEPA、DriveVLA-W0及特斯拉世界模型模拟器等前沿工作[6] - 课程第四章聚焦视频生成类世界模型,讲解Wayve的GAIA-1 & GAIA-2、上交UniScene、商汤OpenDWM、中科大InstaDrive等算法,并以OpenDWM进行实战[7] - 课程第五章聚焦OCC生成类世界模型,讲解三大论文并进行一个项目实战,此类方法可扩展至自车轨迹规划[8] - 课程第六章分享世界模型在工业界的应用现状、行业痛点、期望解决的问题以及相关岗位的面试准备经验[9] 世界模型涉及的关键技术栈 - 基础技术包括Transformer、视觉Transformer、CLIP、LLaVA等多模态大模型基础[11] - 涉及BEV感知基础知识及占用网络[11] - 涵盖扩散模型理论,该模型是输出多模轨迹的热点技术[11] - 包括闭环仿真相关的NeRF和3DGS技术[11] - 也涉及其他生成式模型,如VAE、GAN以及Next Token Prediction[11] 世界模型相关的重要研究 - 国内重要研究包括清华的OccWorld、复旦的OccLLaMA、华科ICCV'25的HERMES以及西交的II-World[12] 课程目标与受众要求 - 课程目标是推动端到端自动驾驶在工业界的落地,助力从业者深入理解端到端技术[10] - 学员需自备GPU,推荐算力在4090及以上[13] - 学员需具备自动驾驶领域基础,熟悉其基本模块[13] - 学员需了解transformer大模型、扩散模型、BEV感知等基本概念[13] - 学员需具备一定的概率论、线性代数及Python、PyTorch基础[13] - 课程期望使学员达到约1年经验的自动驾驶算法工程师水平,掌握世界模型技术进展及BEV感知等关键技术,并能复现主流算法框架[13] 课程进度安排 - 课程于1月1日开课,预计两个半月结课,采用离线视频教学,提供VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日[14] - 各章节解锁时间:第一章12月10日,第二章1月1日,第三章1月20日,第四章2月4日,第五章2月24日,第六章3月1日[15]
LeCun哈萨比斯神仙吵架,马斯克也站队了
量子位· 2025-12-25 08:27
核心观点 - AI领域两位顶尖学者Yann LeCun与Demis Hassabis就“智能的本质”展开激烈论战,核心分歧在于对“通用智能”的定义和理解,这场辩论也指向了实现AGI的不同技术路径——世界模型 [1][2][3][8][30][31][42] 关于“通用智能”的争论 - **Yann LeCun的观点**:认为“通用智能”是胡扯(complete BS),人类智能是高度专业化的,是为了适应现实物理世界而专门进化出的能力,并非真正通用 [3][9][13][31] - 论证1:人类在某些领域(如国际象棋)表现很差,而有些动物更强,证明人类是“专才” [10] - 论证2:人类能理解的问题局限于自身认知范围,“通用”是一种错觉 [11] - 论证3:理论上的图灵完备不等于实际通用,人脑在资源受限下解决现实问题的效率远非最优,是高度优化的结果 [34][35] - 论证4:以视觉为例,人脑能实现的布尔函数在所有可能函数中只占一个无穷小的比例,证明其高度专业化而非通用 [36][37] - **Demis Hassabis的观点**:认为LeCun大错特错,混淆了“通用智能”与“普适智能”的概念,坚信通用智能存在且潜力巨大 [3][15][16][31] - 论证1:大脑是宇宙中已知最精妙复杂的事物,具有极强的通用性,是通用智能可行性的存在性证明 [17][24] - 论证2:从图灵机理论看,只要给予足够时间、内存和数据,人脑及AI基础模型能够学习任何可计算内容,具有通用性核心 [18] - 论证3:人类能发明国际象棋乃至整个现代文明,展现了人脑惊人的通用潜力 [19][20] - 论证4:衡量智能的关键标准是通用性和学习能力,以“深蓝”为例,其虽擅长象棋但不会玩井字游戏,足见其死板,反衬人脑的通用 [22] 争论的实质与共识 - **分歧核心**:双方承认分歧部分在于用词,LeCun反对用“通用”指代“人类水平” [32][33] - **实质差异**:两人谈论的是不同问题,LeCun强调“我们是什么”(智能是高度专业化的产物),Hassabis强调“我们能成为什么”(智能具有通用潜力) [41] - **共同指向**:辩论共同指向如何实现AGI这一更深层议题,答案都聚焦于“世界模型” [42] 实现AGI的路径:世界模型 - **Yann LeCun的路径**:即将创业,新公司名为Advanced Machine Intelligence Labs,目标估值30亿欧元(约247亿人民币),专注于世界模型 [43] - 核心理念:世界模型即认知框架,追求掌握控制理论和认知科学,关注世界的抽象表征而非像素渲染,旨在捕捉用于AI决策的世界状态 [44][45][50] - **Demis Hassabis/谷歌DeepMind的路径**:同样将世界模型作为重点,已推出Genie 3等模型 [46][47] - 核心理念:世界模型即模拟器,指能够理解世界运行机制中因果关系与协同效应的模型,是一种“直观物理学” [47] - 实践形式:通过构建逼真的、可交互的世界(如视频模型Genie, Veo)来检验和理解世界,视为通往AGI的关键一步 [48][49][50] 行业背景与相关动态 - **历史争论**:AI领域的跃迁常伴随类似争吵,如符号主义与连接主义、端到端学习与模块化系统、开源与闭源之争等 [51] - **相关人物动态**:LSTM之父Jürgen Schmidhuber指出其团队在2014年已涉猎与LeCun创业方向高度相似的世界模型技术 [51][53] - Schmidhuber被称为“成熟人工智能之父”,其发明的LSTM在ChatGPT前被称为“最具商业价值的人工智能成就” [53] - 马斯克评价Jürgen Schmidhuber为“一切的发明者” [58]
下周开课!我们设计了一份自动驾驶世界模型学习路线图....
自动驾驶之心· 2025-12-24 17:22
自动驾驶世界模型技术趋势与课程核心内容 - 世界模型并非端到端自动驾驶本身,而是实现端到端自动驾驶的一种途径[2] - 当前行业将自动驾驶世界模型的研究收敛于生成和重建两大领域,并主要用于闭环仿真[2] - 行业正经历风格转换,因处理Corner Case成本过高,需寻求更有效的手段[2] - 近期世界模型相关研究呈现爆发式增长[2] 课程结构与核心知识点 - 课程共分六章,从概述、背景知识到专题应用,系统讲解世界模型[5][6][7][8][9] - 第一章阐述世界模型与端到端自动驾驶的联系、发展历史、应用案例及不同技术流派[5] - 第二章涵盖世界模型所需基础技术栈,包括场景表征、Transformer、BEV感知等[5] - 第三章聚焦通用世界模型,解析Marble、Genie 3、JEPA、DriveVLA-W0及特斯拉世界模型模拟器等前沿工作[6] - 第四章专注视频生成类世界模型,涵盖GAIA-1、GAIA-2、UniScene、OpenDWM、InstaDrive等,并以OpenDWM进行实战[7] - 第五章讲解基于OCC生成的世界模型,涉及OccWorld、OccLLaMA、HERMES、II-World等三大论文及一个项目实战[8][12] - 第六章为工业界应用与岗位专题,分享行业痛点、应用现状及面试准备经验[9] 课程技术深度与目标人群 - 课程深度覆盖BEV感知、多模态大模型、3DGS、扩散模型、NeRF、VAE、GAN等关键技术[11] - 课程面向具备一定自动驾驶基础、了解Transformer/扩散模型/BEV感知基本概念、有Python/PyTorch基础的学习者[13] - 学习目标为使学员达到约1年经验的自动驾驶世界模型算法工程师水平,能够复现主流算法并应用于实际项目[13] - 课程为离线视频教学,配备VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日[14] - 课程自1月1日开课,预计两个半月结课,各章节按计划在12月10日至次年3月1日期间逐步解锁[14][15]
不装了,LeCun哈萨比斯神仙吵架,马斯克也站队了
36氪· 2025-12-24 15:47
核心观点 - 人工智能领域两位顶尖专家就“智能的本质”展开激烈辩论,图灵奖得主Yann LeCun认为“通用智能”是胡扯,人类智能是高度专业化的产物,而诺贝尔奖得主、谷歌DeepMind CEO Demis Hassabis则认为通用智能不仅存在,且人脑是其存在性证明,双方的核心分歧部分在于对“通用”一词的定义和理解[1][6][8][13] - 尽管对智能本质的哲学观点存在分歧,但双方在实现AGI(通用人工智能)的实践路径上均将“世界模型”视为关键,但对其具体内涵和实践方向的理解存在差异:LeCun倾向于将世界模型视为用于决策的抽象认知框架,而Hassabis则更侧重于将其视为能够模拟和生成世界的“模拟器”[20][21][22] - 这场辩论反映了AI领域长期存在的根本性思辨,如符号主义与连接主义、端到端学习与模块化系统之争,这些辩论共同推动着技术发展方向的定义与演进[22] 主要人物与立场 - **Yann LeCun (Meta AI科学家,图灵奖得主)**:认为“通用智能”概念是“complete BS”(纯粹胡扯),主张人类智能是进化过程中为适应物理世界而形成的、高度专业化的能力,并非真正通用[6][8][14] - **Demis Hassabis (谷歌DeepMind CEO,诺贝尔奖得主)**:强烈反对LeCun的观点,认为其混淆了“通用智能”与“全能智能”的概念,强调人脑在理论上是近似图灵机的通用系统,并以其惊人的成就证明了通用智能的潜力[8][9][10] - **Elon Musk (企业家)**:在争论中表态支持Hassabis,称“Demis is right”,其立场可能受到与Hassabis的长期友谊及曾是DeepMind早期投资者的关系影响[2][4] - **Jürgen Schmidhuber (LSTM之父)**:在争论之外提及,其早期工作与LeCun正在创业的“世界模型”概念高度相似,并长期在AI领域进行“维权”,强调自身贡献[22][24][27] 关于智能本质的辩论要点 - **LeCun的核心论证**: - 人类智能是专业化的:人类在现实世界导航、社交等方面表现出色,但在国际象棋等特定领域表现不佳,甚至不如某些动物,这表明人类是“专才”而非“通才”[6] - 理论完备不等于实际通用:人脑在理论上(配合无限资源)是图灵完备的,但在资源有限的实际问题中效率极低,因此是资源约束下高度优化的专门化系统[14] - 大脑可实现的功能比例极小:以视觉为例,从100万比特输入到1比特输出的所有可能布尔函数中,人脑能实现的只占“一个无穷小的比例”,这证明大脑是高度专门化的[17][18] - **Hassabis的核心论证**: - 大脑具有极强的通用性:大脑是目前宇宙中已知最精妙复杂的事物,只要给予足够时间、内存和数据,就能够学习任何可计算的内容,是近似的图灵机[9] - 人类成就证明通用潜力:人类能发明国际象棋、科学乃至现代文明(如波音747),考虑到大脑本是为狩猎采集进化而来,这些成就已充分展现其惊人的通用潜力[9] - 智能的关键标准是通用性与学习能力:以1997年“深蓝”为例,其虽擅长国际象棋但不会玩简单的井字游戏,体现了非通用程序的局限性,而人类大脑则展示了通用智能的可行性[10] 实现AGI的路径与方法论 - **Hassabis提出的三步方法论**: - **预测为基石**:智能的本质在于预测(如下一个单词或蛋白质结构),这是所有认知活动的基础形式[10] - **引入搜索与规划**:AI需建立世界模型,并在此基础上在巨大组合空间中进行搜索规划以找到最优解[11] - **通向深度强化学习**:结合深度学习(模式匹配)与强化学习(试错与规划),模拟大脑的神经通路与多巴胺奖励系统,实现自主进化[12] - **双方共识与分歧点**: - **共识**:实现AGI需要构建“世界模型”[20] - **分歧**:LeCun认为世界模型应追求掌握控制理论和认知科学,关注用于决策的抽象表征,而非渲染像素;Hassabis则认为世界模型应能理解世界的因果关系与“直观物理学”,并能生成逼真世界以证明其理解[20][21][22] 行业动态与商业布局 - **LeCun的创业计划**:即将从Meta离职,创立名为Advanced Machine Intelligence Labs (AMI Labs)的新公司,计划于明年一月正式亮相,目标估值30亿欧元(约247亿元人民币),专注于世界模型研发[20] - **谷歌DeepMind的进展**:已于2024年8月推出新版世界模型Genie 3,并持续开发如Veo等视频模型,视可交互的世界模型为通往AGI的关键一步[21][22] - **历史技术路线之争**:当前关于智能本质的争论是AI领域长期思辨的延续,历史上包括符号主义与连接主义、端到端学习与模块化系统以及当下的开源与闭源之争,这些辩论持续塑造着行业技术发展方向[22]
不装了!LeCun哈萨比斯神仙吵架,马斯克也站队了
量子位· 2025-12-24 13:14
核心观点 - 两位AI领域顶尖专家就“智能的本质”展开激烈论战,其核心分歧在于对“通用智能”的定义和理解,但双方都认为“世界模型”是实现AGI的关键路径 [3][31][42] 关于智能本质的争论 - **Yann LeCun的观点**:认为“通用智能”是胡扯(complete BS),人类智能是高度专业化的,是为了适应现实物理世界而专门进化出来的能力 [9][13] - LeCun论证:人类在某些领域(如国际象棋)表现很差,而有些动物更强,因此人类是“专才”而非“通用” [10] - LeCun进一步指出:理论上的图灵完备性(如人脑配合无限纸笔)对解决现实问题效率极低,真正的智能必须在有限资源下高效运作,人脑是资源约束下高度优化的结果 [34][35] - LeCun以神经网络为例:理论上两层网络可逼近任何函数,但实践中需要巨大且难以实现的神经元数量,因此我们使用多层网络,这证明了专业化 [36] - LeCun引用爱因斯坦:世界竟然可以被理解是不可思议的,我们能理解的只是所有可能函数中无穷小的比例,无法理解的部分称为“熵” [37][38][39] - **Demis Hassabis的观点**:认为LeCun大错特错,其混淆了“通用智能(general intelligence)”和“普适智能(universal intelligence)” [15][16] - Hassabis认为:大脑是宇宙中已知最精妙复杂的事物,具有极强的通用性,从图灵机理论看,只要给予足够时间、内存和数据,就能学习任何可计算内容,人脑和AI基础模型是近似的图灵机 [17][18] - Hassabis以人类发明国际象棋、科学乃至现代文明(如波音747)为例,认为这展现了人脑惊人的通用潜力,尽管大脑最初是为狩猎采集进化 [19][20] - Hassabis衡量智能的关键标准:通用性(Generality)和学习能力(Learning) [22] - Hassabis以1997年“深蓝”为例:其虽擅长国际象棋但不会玩简单井字游戏,足见其死板,而最吸引他的是作为人类代表的卡斯帕罗夫的大脑 [22][23] - Hassabis坚信:人类大脑是宇宙中已知唯一关于“通用智能可行性”的存在性证明 [24] - **争论的调和与核心**:LeCun后续回应称分歧主要在于“用词”,他反对用“通用”指代“人类水平”,但承认用词分歧后仍坚持人类智能高度专门化的观点 [32][33] - 网友观点:抛开用词,两人本质在谈论不同问题,一个强调“我们是什么”(人类智能的现状),另一个强调“我们能成为什么”(智能的潜力) [41] 实现AGI的路径:世界模型 - 双方都认为“世界模型”是实现AGI的关键下一步 [42] - **Yann LeCun的世界模型路径**:其即将从Meta离职创业,新公司名为Advanced Machine Intelligence Labs(AMI Labs),计划于2025年1月正式亮相,目标估值30亿欧元(约247亿人民币) [43] - LeCun对世界模型的理解:追求的不是渲染精美像素,而是掌握控制理论和认知科学,模型应专注于捕捉能用于AI决策的世界状态的抽象表征,与JEPA研究一脉相承 [44] - LeCun认为关键:了解“世界的结构是什么” [45] - **Demis Hassabis的世界模型路径**:表示世界模型是谷歌DeepMind接下来的重点 [46] - 谷歌DeepMind于2024年8月推出新版世界模型Genie 3 [47] - Hassabis对世界模型的理解:指能够理解世界运行机制中因果关系与协同效应的模型,即一种“直观物理学”——事物如何运动、相互作用及表现 [47] - Hassabis认为检验方式:是否能够构建一个逼真的世界,因为若能生成它,就意味着已理解并内化了系统运作规律,这也解释了Genie、Veo等模型首先以视频模型形式出现 [48][49] - **双方世界模型理念的差异**:LeCun代表“世界模型即认知框架”,Hassabis代表“世界模型即模拟器” [50] 行业背景与相关动态 - AI领域的重大进步常伴随根本性争论,如历史上的符号主义与连接主义、端到端学习与模块化系统、以及当前的开源与闭源之争 [51] - LSTM之父Jürgen Schmidhuber介入,称LeCun即将创业的世界模型与其团队在2014年的工作高度相似 [51][53] - Schmidhuber被称为“成熟人工智能之父”,其发明的LSTM在ChatGPT诞生前曾被称为“最具商业价值的人工智能成就”,但在当前AI时代未获相应奖项认可 [53][54] - 马斯克评价Jürgen Schmidhuber为“一切的发明者” [58] - 马斯克在此次争论中站队Hassabis,称“Demis is right”,部分原因可能是其与Hassabis关系密切(曾是DeepMind早期投资人),且与LeCun素来不和 [5][7]