世界模型
搜索文档
工业界大佬带队!三个月搞定端到端自动驾驶
自动驾驶之心· 2025-09-29 16:45
端到端自动驾驶行业趋势 - 2023年是端到端量产的元年,2024年将是端到端量产的大年,目前头部新势力和主机厂均已实现端到端量产 [1] - 工业界存在两种主要范式:一段式(如UniAD)直接从传感器输入建模自车轨迹输出,二段式则基于感知结果进一步输出自车和他车轨迹 [1] - 自2023年以来,一段式端到端发展迅速,衍生出基于感知、世界模型、扩散模型和VLA等多种方法,主流自动驾驶企业和车企均在发力自研量产 [3] 端到端与VLA技术核心 - 端到端与VLA涉及的核心技术栈包括BEV感知、视觉语言模型、扩散模型和强化学习等,代表了学术界和工业界最前沿的技术 [5] - 基于扩散模型输出多模轨迹是当前学术界和工业界追捧的热点,多家公司正在尝试落地 [11] - 视觉大语言模型相关的强化学习技术是重点,包括RLHF和GRPO等 [11] 课程内容与结构 - 课程涵盖二段式端到端与一段式端到端前沿算法的细致讲解,内容均为工业界和学术界的Baseline [5] - 第一章介绍端到端自动驾驶发展历史、概念起源及从模块化到端到端的演变,分析一段式、二段式及VLA范式的优缺点 [9] - 第二章重点讲解端到端涉及的背景知识,包括大语言模型、扩散模型、强化学习及BEV感知,为后续章节奠定基础 [9] - 第三章聚焦二段式端到端,解析经典算法PLUTO、CVPR'25的CarPlanner及最新工作Plan-R1,并对比其与一段式端到端的优缺点 [10] - 第四章为课程精华,深入讲解基于感知、世界模型、扩散模型及VLA的一段式端到端子领域 [12] - 第五章大作业为RLHF微调实战,涵盖预训练模块和强化学习模块的搭建与实验,该技术可迁移至VLA相关算法 [13] 技术细分领域进展 - 基于世界模型的方法应用广泛,可用于场景生成、端到端及闭环仿真,是近两年热门技术方向 [14] - 基于扩散模型的方法自2023年下半年兴起,通过输出多模轨迹更好地适应自动驾驶不确定环境,代表性工作包括DiffusionDrive、Diffusion Planner和吉大的DiffE2E [14] - 基于VLA的方法是端到端自动驾驶的皇冠,上限高且难度大,业内招聘需求旺盛,代表性工作包括小米的ORION、慕尼黑工大的OpenDriveVLA及最新的ReCogDrive [14] 行业影响与人才需求 - 学习端到端与VLA自动驾驶可掌握最前沿技术栈,第二章内容是未来两年求职面试频率最高的技术关键词 [10] - 完成课程期望能达到1年左右端到端自动驾驶算法工程师水平,掌握技术框架并对BEV感知、多模态大模型等关键技术有更深刻了解 [19] - 课程面向具备自动驾驶基础、熟悉Transformer大模型、强化学习、BEV感知等基本概念,并有一定数学和编程基础的学员 [18]
AI下一轮飞跃的引爆点:“世界模型”
财联社· 2025-09-29 16:44
世界模型的重要性与行业共识 - 人工智能先驱及行业领袖认为世界模型对打造下一代人工智能至关重要,是实现通用人工智能和物理人工智能的关键[3] - 世界模型被视为实现空间智能的核心,通过整合多模态数据为空间推理和操作提供环境表征,是物理推理的基础[5] - 该方法被认为是弥合人与机器之间认知对齐差异,使人工智能更接近类人智能的途径[5] 全球科技巨头的布局与进展 - 斯坦福大学教授李飞飞已筹集2.3亿美元创立世界模型初创公司World Labs[3] - 英伟达首席执行官黄仁勋认为世界模型能助力实现自主操控机器人、自动驾驶汽车等的物理人工智能[3] - Meta发布代码世界模型LLM,其超级智能AI实验室将与机器人团队合作构建模拟现实物理规律的世界模型[3] - 谷歌DeepMind开发了Genie 3系统,能够根据文本提示生成照片般逼真的开放世界虚拟景观,用于训练具身化人工智能[9] - 特斯拉在感知与决策间嵌入了AI世界模型,以构建虚拟环境进行自动驾驶的学习和验证[10] 世界模型的技术原理与应用价值 - 世界模型通过模拟世界来训练人工智能,使AI能像人类一样从环境中学习并在头脑中呈现抽象版本的世界[5] - 其关键价值在于让AI具备规划行动、执行操作及预测未来的能力,涵盖物理规律与时间维度[5] - 世界模型已对现实世界产生潜在巨大影响,在无人机战争、新型机器人和自动驾驶车辆等领域正从中受益[6] - 该方法可让人工智能在虚拟空间中通过强化学习无休止地玩耍、犯错并学习如何实现目标[9] 当前AI的局限性及世界模型的优势 - 当前基于Transformer架构的AI是在进行预测而非逻辑推理,只能建立世界运作的概率模型[6][7] - 现有AI学习的是输入数据间的关联性,对世界仅有模糊的近似认知,规则编码往往残缺或自相矛盾[6] - 世界模型方法可解决当前AI的薄弱环节,例如一台运行1979年程序的雅达利2600游戏机因其内部世界模型可在国际象棋中击败最先进的聊天机器人[7][8] 具体应用案例与行业影响 - Waabi公司构建了名为Waabi World的虚拟世界,专门用于训练人工智能驾驶卡车,可记录数百万英里的虚拟驾驶里程[10] - 具备世界模型智能的AI可能接管更多工作,包括卡车司机、水管工或护理员等蓝领岗位,这些岗位以往相对安全[10] - 中国世界模型领域玩家已经超过10家,显示出该技术在全球范围内的活跃发展[3]
在具身智能的岔路口,这场论坛把数据、模型、Infra聊透了
机器之心· 2025-09-29 10:52
行业核心观点 - 具身智能行业正处于技术路线分歧与探索阶段,面临数据稀缺、技术架构选择等关键议题 [1] - 行业已初步观察到具身智能的Scaling Law,预示扩大模型和数据规模可能有效 [24] - 阿里云作为云计算巨头,提前布局行业未来3到5年的基础设施需求,旨在为行业爆发做准备 [3] 数据路线之争:真机派 vs. 合成派 - 真机派主张通过遥操或互联网获取真实数据,基于VLA做模仿学习,认为真实数据是训练世界领先模型的根本 [5][14] - 合成派认为实现通用泛化能力需上万亿条数据,真机采集不可持续,主张通过仿真合成数据进行预训练,再用少量真实数据后训练 [5][8][9] - 真机派挑战“真机数据昂贵”共识,指出在国内供应链支持下,单个机器人成本可降至10万以下,规模化部署机器人采集数据成本可控 [12] - 合成派面临挑战:某些仿真数据获取依赖专业人力(如图形学博士),成本可能更高;仿真数据效率可能比真实数据差5-6个数量级 [11] 技术架构与模型形态 - 具身智能大模型被视为独立于语言模型的基础模型,因其需处理物理动作和接触的复杂性 [18] - 技术架构存在端到端与分层路线之争:分层架构考虑现实部署约束,符合生物进化规律;端到端架构旨在避免分层错误放大和层间理解鸿沟 [19] - 视觉语言动作模型(VLA)被视为当下更有潜力的路线,仅需100条数据即可见效,而世界模型需万级至亿级数据量,是更终局的路线 [21] - 世界模型被赋予重要作用,如辅助VLA进行自主学习探索、生成动作序列补充数据,与VLA是互补而非冲突关系 [20] 行业发展趋势与阿里云的角色 - 行业落地速度加快,多家公司分享了在工业制造、康复陪伴、教育竞赛等场景的实践 [24] - 阿里云基于智能驾驶行业经验,提前为具身智能行业的数据指数级增长和算力需求布局,提供全链路基础设施支持 [3][31][32] - 阿里云具备模型原厂优势,其开源模型Qwen-VL被大量具身智能公司用于后训练,最新Qwen3-VL模型针对具身智能需求优化 [37][38] - 阿里云将智能驾驶领域的工程经验复用至具身智能,提供从数据处理、模型服务到工具链集成的全套云上能力 [35][41][42] - 公司建议具身智能企业从第一天起规划云架构和AI基础设施,以应对量产阶段的数据激增和工程化挑战 [29][42]
大神爆肝一个月,复刻DeepMind世界模型,300万参数就能玩实时交互像素游戏
36氪· 2025-09-28 18:51
文章核心观点 - 独立开发者成功复刻并简化了DeepMind的Genie 3世界模型,开发出仅300万参数的TinyWorlds模型,能够实时生成可交互的像素风格游戏环境 [1] - 该成果验证了世界模型通过大规模无监督视频训练可实现高级行为的涌现,并展示了小型化模型的可行性,为行业提供了可参考的开源实现方案 [2][6][23] 模型技术架构 - TinyWorlds采用自回归模型作为核心架构,因其推理速度快、训练高效且实现简洁,更适合实时交互场景 [14] - 模型由三个核心模块组成:视频分词器负责将视频压缩为token,动作分词器预测帧间动作,动力学模型结合历史信息预测未来帧 [14] - 核心技术包括时空变换器,通过空间注意力、时间注意力和前馈网络三层机制处理三维视频数据 [10] - 动作影响视频生成的方式采用了缩放与移位策略,效果优于简单的拼接动作与视频表示 [13] 训练方法与数据处理 - 模型训练数据集由处理过的YouTube游戏视频构成,涵盖Pong、Sonic、Zelda、Pole Position和Doom等多种游戏类型 [7] - 动作分词器的引入是关键创新,使模型能够利用互联网中海量的未标注视频数据进行训练 [3][18] - 训练过程中采用了掩码帧和方差损失等技术,以解决模型在训练初期容易忽略动作信号的问题 [20] - 动力学模型通过预测掩码token来学习时序关系,模型规模的扩大显著提升了生成效果 [21] 性能表现与行业意义 - TinyWorlds模型仅300万参数,已能生成可交互的像素风格世界,包括驾驶赛车、地图探索和3D地牢等场景 [23][25] - 尽管生成画面存在模糊和不连贯的问题,但已具备基本可玩性,证明了技术路径的可行性 [24] - 该成果印证了“规模与数据往往胜过技巧”的行业规律,暗示若扩展至千亿级参数并引入扩散方法,生成质量将有巨大提升空间 [24]
大神爆肝一个月,复刻DeepMind世界模型,300万参数就能玩实时交互像素游戏
机器之心· 2025-09-28 18:29
文章核心观点 - TinyWorlds项目成功复刻了DeepMind Genie 3世界模型的核心思想,仅用300万参数即实现了实时生成可交互的像素风格环境,证明了世界模型技术路径的可扩展性和巨大潜力 [1] - 世界模型通过在海量未标注视频数据上进行规模化训练,能够自然涌现出可控性、一致性和高质量生成等高级行为,其发展逻辑类似于大型语言模型 [5][7] - 项目采用自回归生成方式,并借鉴了大语言模型的优化技巧,其成功再次印证了“规模与数据往往胜过技巧”的行业经验 [20][32] 世界模型技术原理 - 世界模型是一类通过生成视频来模拟物理世界的神经网络,其关键挑战在于训练通常需要逐帧的动作标签 [5] - Genie的解决方案是先训练一个动作分词器来自动推断帧间动作标签,从而将海量未标注视频转化为可用训练资源,这是模型能够扩展至数百万小时YouTube视频的关键 [5][7] - 模型涌现出的高级能力包括:按下方向键镜头随之平移的可控性、离开房间再返回墙上新油漆依旧存在的一致性、以及水坑中倒影清晰可见的生成质量 [8] TinyWorlds架构设计 - 模型核心是一个时空变换器,通过空间注意力(同一帧内部token关联)、时间注意力(token关注前几个时间步信息)和前馈网络(token非线性处理提取高阶特征)三层机制捕捉视频三维信息 [15][21] - 最终架构由三个模块组成:视频分词器(将视频压缩为token)、动作分词器(预测两帧间动作)和动力学模型(结合历史视频和动作预测未来帧) [22] - 在动作影响视频生成的方式上,实验表明利用动作对表示进行缩放与移位比拼接动作与视频表示效果更好 [17] 训练与优化策略 - 视频分词器通过有限标量量化(FSQ)将图像划分为立方体来表示图像块,产生的小token信息密集,减轻了动力学模型的预测负担 [24] - 为解决动作分词器在训练初期易忽略动作信号的问题,引入了掩码帧(迫使模型依赖动作)和方差损失(鼓励编码器覆盖更多可能性) [28] - 动力学模型训练中通过预测掩码token学习时序关系,最初因模型过小导致性能停滞和输出模糊,扩大规模后效果显著提升 [30] 性能表现与未来展望 - 尽管生成的画面仍显模糊和不连贯,但TinyWorlds已能生成具备可玩性的环境,包括驾驶《Pole Position》中的赛车、在《Zelda》地图上探索以及进入《Doom》的3D地牢 [32][33] - 作者认为若将模型扩展至千亿级参数并引入扩散方法,生成质量将会有巨大提升 [32] - 项目完整经验已分享并开源代码,数据集由处理过的YouTube游戏视频构成,包括Pong、Sonic、Zelda、Pole Position和Doom等多类游戏 [3][12][15]
Meta押注“安卓式”机器人平台:数十亿美元打造通用软件
环球网资讯· 2025-09-28 12:24
战略定位 - Meta将人形机器人提升至与增强现实同级的战略优先级 [1] - 未来数年将投入数十亿美元打造可对外授权的通用软件平台 [1] - 目标成为机器人产业的"安卓"系统 [1] 商业模式 - 公司无意大规模生产硬件 采用开放授权路线 [2] - 任何符合技术规范的机器人本体均可搭载Meta操作系统 [2] - 通过快速扩大生态掌握行业标准制定权 [2] 技术挑战与突破 - 当前人形机器人在灵巧操控环节存在瓶颈 包括捏碎水杯或打翻物品等精细动作失灵 [2] - 无法稳定完成从牛仔裤口袋掏钥匙等日常动作 [2] - 成立超级智能AI实验室 与机器人团队共建模拟真实物理规律的世界模型 [2] - 通过大规模仿真训练提供空间感知 力控预测与实时决策能力 [2] - 世界模型旨在弥补传统传感器回路缺失 [2]
Meta CTO:人形机器人是下一个“AR级赌注” 瓶颈在于软件
新浪财经· 2025-09-27 14:46
公司战略方向 - Meta在首席技术官Andrew Bosworth领导下启动机器人研究计划 由扎克伯格直接指导 [1] - 公司明确硬件非技术瓶颈 软件能力构成主要发展障碍 [1] - 研发核心聚焦构建"世界模型"系统 通过软件模拟实现机器人灵巧手臂动作控制 [1] 技术发展路径 - 当前技术阶段专注于基础手臂动作模拟 未来计划扩展至复杂动作序列与多任务处理能力 [1] - 软件模拟技术成为机器人开发的核心突破口 硬件平台已具备基础支撑条件 [1] - 研究计划采用分阶段推进策略 从单一动作向综合任务执行能力演进 [1]
2025人工智能产业十大关键词
机器人圈· 2025-09-26 17:29
文章核心观点 人工智能技术、应用、生态三维共振 智能原生新世界加速形成[1] 基础超级模型 - 2024年底至2025年8月大模型综合能力提升超过30% 集成思考与非思考模式[3] - 头部模型GPT-5/Grok4/DeepSeek V3.1/Claude Opus 4.1/Qwen3-235B-A22B展现三大特征:自主选择处理模式、理解推理数学能力提升、内置代码与工具调用能力[3][4] - 技术采用路由融合与面向智能体的强化学习 显著增强真实业务场景表现[6] - 对用户产生三方面影响:使用门槛降低、工作流工具调用精准度提升、训练数据供应需求变化[6] 自主性更强的智能体 - 方升智能体基准测试显示当前智能体可自主完成复杂任务但能力仍有提升空间[9] - 通信协议成为交互桥梁 Anthropic的MCP与谷歌A2A协议实现互补协同[12] - 智能体任务处理长度每7个月翻一番 未来可完成人类数天至数周任务量[12] - 产品形态逐步清晰 成为消费端与企业端数字员工初级形态[10] 走向实训的具身智能 - 本体从实验室走向真实赛场与训练场 推进行业场景试点验证[15] - 蔚来世界模型NWM在Banyan榕车型全量推送 强化追尾预防与障碍物识别[15] - 智元机器人GO-1端到端VLA模型实现擦桌子/倒水任务 Figure AI Helix支持物流分拣等技能[16] - 面临三大挑战:高质量数据缺口需百万小时机器人数据、模型泛化难、软硬协同控制不稳定[18] 萌芽中的世界模型 - 被视为通向AGI的核心路径 需具备四大核心能力:数据生成/动作解释/环境交互/场景重建[21] - 技术路线百花齐放:大模型增强/大模型+物理引擎融合/物理世界表征探索[22] - 面临定义争议/技术路线不清晰/应用范围局限三大挑战 目前仅自动驾驶领域有规模应用[22] - 参考技术包括Sora/Marble/JEPA/Genie3/Cosmos/HunyuanWorld等[22] AI正在重塑软件 - AI深度渗透软件开发全生命周期 开发测试环节保持高比例应用[25] - AI研发工具从Copilot向Pilot演进 2025年密集发布AI IDE与智能体工具[25] - 软件交互方式变革 对话/多模态/具身智能交互成为主流[25] - 商业模式重构 从订阅模式转向按Token消耗量计费的定量模式[28] 开放智算生态 - 2025年形成多层次开源开放生态 涵盖开源框架/通信库/算子库/计算平台/互联协议[30] - 国产硬件性能显著提升 DeepSeek R1模型部署精度与规模基本持平英伟达系统[30] - 软硬件协同优化案例:DeepSeek对英伟达硬件提改进建议 智谱GLM4.5基于昇腾环境微调[32] 面向行业的高质量数据集 - 行业数据集质量问题成为垂类模型落地核心瓶颈 内容密集性问题占比82.50%[35] - 需建立新型数据供应链 包括三大训练数据集:交互轨迹/偏好对齐/基准评测[38] - 三大原生基础数据集:基础支撑/过程埋点/外部交互[38] 开源成为标配 - 全球性能前25大模型中我国开源模型占9席 Huggingface累计下载量突破3亿次[40] - 基于国产开源模型的微调模型占比从2024年初10%大幅上升至2025年7月45%[40] - 国内AI开源社区托管模型38万个/数据集5.3万个 活跃开发者2.2万人占全球18.7%[42] - 商业模式采用"开源免费+高阶服务收费"策略 推动云服务与芯片需求增长[42] 缓解模型幻觉 - OpenAI理论研究确认幻觉是LLM统计学习必然产物 方升测试显示推理模型幻觉率维持在10%以上[44] - 大参数模型幻觉问题明显 72b参数模型幻觉率超过14%[44] - 供给侧采取四维措施:数据过滤筛查/双向自回归训练/不确定性评估/对比增强解码[46] - 用户侧四层应对:测试选型/领域数据微调/推理约束提示/输出双重核验[46] 人工智能国际公共产品 - 人工智能被纳入12个全球多边机制核心议题 中国/沙特/印尼/美国/俄罗斯国际合作活跃[49] - 产业界通过生态基建/工具赋能/服务模式创新推动全球化发展[51] - 面临跨境合规认证复杂/ESG评估体系模糊/数据跨境流动受限等挑战[51]
把“会跑的代码世界”装进AI,Meta重磅开源首个代码世界模型:让AI像程序员一样思考
36氪· 2025-09-25 21:02
模型发布与核心特点 - Meta发布Code World Model(CWM),参数量为32B,支持最长131k token上下文,采用开放权重策略[1] - 模型核心目标是将"世界模型"思想引入代码生成与推理领域,使模型不仅能生成代码,还能模拟执行过程、推理程序状态并自我修复Bug[1][2] - 训练数据规模庞大:预训练阶段使用约8T tokens(代码占比30%),中期训练引入5T tokens世界建模数据,后训练阶段SFT使用100B tokens、RL使用172B tokens[3][4] 技术实现与数据构建 - 采用局部+全局交替机制和长序列稳定化技术处理超长上下文[3] - 世界模型能力依赖两类数据:Python执行轨迹(序列化中间栈帧与变量状态)和Agent环境交互轨迹(从10.2万张镜像和3.15万个仓库收集300万条轨迹)[6][8][9] - 后训练阶段引入工程优化:SFT阶段使用"推理token"区分直答与推理,RL阶段改用<think>标签并采用自举策略回流高质量数据[9] 性能表现与基准测试 - 在SWE-bench Verified测试中达到65.8% pass@1(启用多候选投票)和53.9%(未启用),接近GPT-4水平[10][12] - 在LiveCodeBench、Math-500和AIME 2024基准分别取得68.6%、96.6%和76.0%的亮眼成绩[10] - 模型专精于代码修复与数学推理,但在多语言和编辑格式场景存在局限,且Agent训练可能引入格式化噪声[12] 行业反响与开源意义 - Meta开源中期训练、SFT和RL阶段的权重检查点,为学术与工程复现提供重要支持[2][15] - 业界普遍认可其研究价值,但强调需与实际开发环境集成测试,并关注32B参数模型的计算资源需求[15] - 模型被视为推动代码生成从静态学习转向动态执行模拟的关键突破,可能重塑软件开发范式[2][13]
代码生成要变天了?被质疑架空后,Yann LeCun携320亿参数开源世界模型“杀回来了”
AI前线· 2025-09-25 16:04
代码世界模型技术突破 - Meta FAIR CodeGen研究团队发布全球首个代码世界模型,该模型拥有320亿参数,是密集解码器自回归开放权重大语言模型[4] - 与传统模型依赖静态代码训练不同,CWM在中期训练阶段引入Python解释器和代理Docker环境的大量"观察—动作"轨迹数据,通过动态交互提升代码理解和推理能力[7] - 模型采用多任务强化学习技术,在可验证编码、数学和多轮软件工程等场景中强化推理和规划水平,使其能模拟代码逐步执行过程[7] - CWM支持最高131k token的上下文输入,为复杂编程和推理任务提供更强语境理解能力[10] - 训练数据涵盖预训练、中期训练和后期训练阶段,特别通过Python执行轨迹和ForagerAgent两项大规模数据收集工作增强世界建模能力[10] 模型性能表现 - 在SWE-bench Verified任务中取得65.8%的分数,领先所有开源同规模模型,接近GPT-4水平[8] - 在LiveCodeBench上达到68.6%的得分,在Math-500上高达96.6%,在AIME 2024上取得76.0%的优异成绩[8] 行业技术演进 - 传统代码生成模型主要通过海量代码语料库学习统计模式预测标记,但存在合理但错误的代码、缺乏状态意识和多步骤任务困难三大陷阱[12][14][15] - CWM创新性地学习"代码是如何运行的"而不仅是"代码是如何编写的",通过代码执行轨迹和交互历史作为核心训练数据实现突破[14] - 模型训练采用标准三阶段流程:在8192上下文长度上预训练包含8T token,在131072上下文长度上中期训练包含5T token,最后通过监督微调和强化学习进行后训练[15][16] 公司战略调整 - 此次发布是Meta AI业务重组后首款模型,团队由博士生和经验丰富的资深员工组成[5][18] - Meta在6个月内进行第四次AI业务组织架构改革,将新成立的AI部门超级智能实验室分成四个小组:TBD实验室、FAIR实验室、PAR团队和MSL Infra基础设施团队[23][24] - 架构调整中首席AI科学家Yann LeCun的头衔未提及,被外界解读为边缘化或降级,象征基础研究在公司AI战略中地位相对弱化[24][25] - TBD实验室内部讨论下一代AI模型可能不再开源,意味着公司从"全面开源"转向"选择性闭源"战略重心出现重大转折[25] - CWM作为重组后首款开源模型表明Meta并未彻底放弃开源,仍在代码生成等关键领域通过开源维持学术界与开发者社区联系[26]