World Model

搜索文档
首个代码世界模型引爆AI圈,能让智能体学会「真推理」,Meta开源
具身智能之心· 2025-09-26 08:04
编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 大模型的架构,要彻底进化了? 昨晚开始,AI 圈都在研究一个神奇的新物种 ——Code World Model(CWM)。 Meta 重组后的 AI 部门推出的首个重磅研究,是一个 世界模型 ,用来写代码的。 为了提升代码理解能力,而不仅仅局限于从静态代码训练中学习,Meta FAIR CodeGen 团队在 Python 解释器和智能体式 Docker 环境中使用了大量观测 - 动作轨迹 进行中间训练(mid-train),并在可验证编码、数学和多轮软件工程环境中进行了大规模多任务推理强化学习(RL)。 为支持进一步的代码世界建模研究,Meta 开放了模型在 中间训练(mid-training)、SFT 和 RL 阶段的检查点。 它和「传统」的大语言模型(LLM)思路不同,理论是这样的: 当人类进行计划时,我们会在脑海中想象不同行动可能带来的结果。当我们推理代码时,我们会在心中模拟其部 ...
人形机器人考察要点_市场展望、组件与具身人工智能-Humanoid Robot tour takeaways_ market outlook, components and embodied AI
2025-09-18 21:09
**行业与公司** 行业涉及人形机器人及自动驾驶 公司包括机器人初创企业优必选UBTECH 大族机器人Leju 越疆科技Dobot 以及零部件供应商奥比中光Orbbec 兆威机电Zhaowei 速腾聚创RoboSense 固高科技Googol 机器人制造设备供应商联想控股LK Tech 及自动驾驶方案提供商Minieye [1][7] **核心观点与论据** *市场前景* 人形机器人市场未来十年将快速扩张 当前主要用于教育和研发 未来2-3年将广泛用于工厂场景 长期有望进入商业和家庭应用领域 当前全功能人形机器人BOM成本约5-6万美元 未来5年成本将快速下降 得益于产品设计改进和规模效应 [1] 自动驾驶领域 日益严格的法规将为AD零部件提供更多机会 例如L3要求可能带来长距离物体检测需求 利好激光雷达LiDAR 而前视摄像头模块FVCM和驾驶员监控系统DMS因强制自动紧急制动AEB安装规定面临巨大增长潜力 [1] *零部件机遇* 灵巧手供应商兆威机电于2024年底推出人形机器人灵巧手模型 凭借寿命 温控和负载性能优势 长期目标全球市场份额10-15% 假设2030年全球人形机器人出货量达300万台 公司灵巧手出货量预计60-90万台 灵巧手BOM成本占机器人总成本20-30% 按单台机器人20-30万元人民币计算 单台价值量4-6万元人民币 [12][13] 视觉系统方面 奥比中光认为深度相机(包括结构光相机和间接飞行时间iToF)是人形机器人主流选择 而速腾聚创预计LiDAR采用率将因成本下降和远距离传感需求上升而提高 [2][21][22] 运动控制系统供应商固高科技凭借多自由度控制专业知识 其控制器可很好应用于人形机器人执行器 [2][15] 材料方面 联想控股看到镁合金在人形机器人结构材料中采用率上升 因减重要求和生产工艺成熟 镁合金可使功能部件减重30-40% 每辆汽车镁合金用量从2020年1.5-3公斤增至2024年燃油车5公斤和新能源车10公斤 政策目标是2030年达到45公斤 [25][26] *算法与数据* 视觉-语言-行动模型VLA和世界模型World Model是具身AI的两条竞争技术路线 VLA采用单一端到端模型 而世界模型学习现实世界物理规律 所需边缘侧计算能力更少 在长流程任务中表现良好 当前高质量数据可用性是关键瓶颈 机器人初创企业可能结合使用模拟数据和真实数据 或与政府支持的数据收集中心合作 [3][24] *公司具体动态* 优必选Walker系列人形机器人现已部署于比亚迪 极氪 东风 一汽大众等汽车工厂用于物料搬运 目标2025年出货500台 2026年出货2000-3000台 当前BOM成本5-6万美元 预计未来2-3年成本快速下降 [23] 速腾聚创新款EMX激光雷达在精度(192通道对64通道) 探测距离(300米对200米)和自研SPAD-SOC芯片方面优于竞争对手禾赛ATX产品 截至2025年8月已为40多款车型获得EM4/EMX设计订单 很可能成为小米 理想 零跑和长安的第二供应商 预计2025年ADAS激光雷达出货60-70万台 2026年150万台 其中约50%来自比亚迪 20-25%来自吉利 约10%来自上汽 [10] 越疆科技是全球领先协作机器人COBOT品牌 2025年上半年六轴协作机器人销售同比增长47% 大幅超越行业增长 显示份额提升 2025年一季度推出首款人形机器人原型 三季度推出第二版 [8][9] 大族机器人目标2025年出货超过1000台 2026年预计5000-10000台 关节是人形机器人关键部件 占成本40%以上 包括电机 减速器和执行器 当前产品有28个关节 下一代目标31个关节 预计平均售价ASP将随规模效应下降 到2026-2028年降至15万元人民币(约2万美元) [18][19][20] *自动驾驶与安全法规* Minieye提供从L0到L2的iSafety解决方案(前视摄像头模块FVCM) L2+到L3的iPilot解决方案(域控制单元DCU)以及L4的iRobo解决方案 中国已规定从2026年起商用车强制安装AEB 很可能从2028年起乘用车也强制安装 2024年中国乘用车AEB渗透率约为60% [16][17] **其他重要内容** *投资评级与风险* 联想控股XBQXF目标价3.2港元 基于10倍2026年预期每股收益 下行风险包括低于预期的总可寻址市场TAM和竞争 [27][28] 速腾聚创XEDSF目标价46港元 基于DCF和EV/销售额估值平均 下行风险包括汽车市场价格竞争 LiDAR市场竞争加剧 ASP/毛利率下降以及美国收入关税风险 [29][32] *研究范围* 报告涵盖工业及汽车行业多个公司 包括买入 中性和表现不佳评级 [33][34][35][36] *免责声明* 美国银行证券与其覆盖的发行人有业务往来 可能存在利益冲突 投资者应将此报告仅作为投资决策的单一因素 [4][5]
又有很多自动驾驶工作中稿了ICCV 2025,我们发现了一些新趋势的变化...
自动驾驶之心· 2025-08-16 08:03
多模态大模型 & VLA - 多模态大模型和VLA是当前最热门的赛道,主流范式遵循『预训练-微调-强化学习』三阶段,但通用自动驾驶VLM基础模型仍缺失 [5] - 华科与小米联合推出ORION框架,通过视觉语言指令生成动作实现端到端自动驾驶 [5] - 中山大学与美团合作开发All-in-One大型多模态模型DriveMM,整合多任务处理能力 [6] - 重庆大学提出MCAM模型,通过多模态因果分析理解自车级驾驶视频 [8] 闭环仿真 & 世界模型 - 基于世界模型和3DGS的闭环仿真成为行业刚需,聚焦车道线、红绿灯等细粒度性能优化 [5] - 清华大学与旷视科技推出DiST-4D模型,实现4D驾驶场景的时空解耦生成 [34] - 美团与中山大学开发RoboTron-Sim,通过模拟极端案例提升实车驾驶性能 [17] - 清华大学与地平线合作Epona模型,采用自回归扩散方法构建世界模型 [47] OCC与3D重建 - 丰田利用大规模二值占用数据开发语义占用预测模型B2S-Occupancy [52] - 清华大学团队提出GS-Occ3D,基于高斯泼溅技术扩展纯视觉占用重建 [51] - Valeo AI推出GaussRender,通过高斯渲染学习3D占用 [60] - 慕尼黑工业大学开发SceneDINO,实现无监督语义场景补全 [56] 目标检测 - 新加坡国立大学提出Perspective-Invariant 3D检测方法PI3Det,提升视角不变性 [68] - 韩国庆熙大学开发SFUOD框架,解决无源未知物体检测问题 [71] - 南京理工大学推出OcRFDet,基于物体中心辐射场实现多视角3D检测 [75] 数据集与评估 - 加州大学欧文分校发布DriveBench工具包,评估VLM在自动驾驶中的可靠性 [76] - 卡内基梅隆大学推出ROADWork数据集,专注施工区域驾驶场景 [79] - 中国科大与华为联合开发VLADBench,细粒度评估大视觉语言模型 [87] 端到端与轨迹预测 - 香港科技大学与滴滴合作强化轨迹预测模型,引入奖励启发机制 [29] - 韩国DGIST实验室利用可控扩散模型解决长尾轨迹预测问题 [30] - 中科院自动化所与理想汽车推出World4Drive,通过意图感知潜变量模型实现端到端驾驶 [32] 其他技术方向 - 浙江大学与中兴通讯开发Dynamic-DINO,实时开放词汇检测 [93] - 新加坡国立大学团队提出LiMA框架,跨视角蒸馏提升LiDAR表征 [97] - 复旦大学与萨里大学合作DriveX,在自由轨迹上生成驾驶视图 [37]
DeepMind科学家揭秘Genie 3:自回归架构如何让AI建构整个世界 | Jinqiu Select
锦秋集· 2025-08-06 17:07
核心观点 - Google DeepMind发布的Genie 3是一种革命性的通用世界模型,能够从文本或图像生成高度互动的3D环境,支持实时交互和动态修改 [1] - 该技术有望开启万亿美元商业版图,成为VR领域的杀手级应用,其核心是生成式交互环境模型,融合游戏引擎、物理模拟器和视频生成模型的特性 [9] - Genie 3代表了从手工编码到AI生成的世界模型演进,通过海量数据自主学习环境动态规律,终极目标是仅用文本提示生成任意交互式世界 [10] 技术演进 - 初代Genie通过3万小时2D游戏录像训练,自主学会视差效应等物理规律,创新包括时空视频编码器、潜在大动作模型和自回归动态模型 [11] - Genie 2实现3D跨越,视觉保真度提升至360p,模拟现实光照效果,具备记忆能力和物体恒存性 [12] - Genie 3分辨率达720p,实现照片级逼真体验和数分钟持续交互,融合VEO视频生成模型优点,展现超长上下文窗口和卓越一致性 [13][14] 关键特性 - 输入方式从图像转为文本提示,提供更大灵活性,支持环境多样性、长时程交互和提示控制的世界事件 [15] - 通过随机神经网络实现世界一致性,自回归架构使模型参考历史生成画面,新区域保留随机性,区分能力来自大规模训练 [16] - 核心应用是为具身智能体训练提供平台,模拟现实场景如自动驾驶罕见事件,形成世界基础模型愿景 [17] 行业影响 - 创造全新互动娱乐形态,类似YouTube 2.0或体验机器,用户可共同创造永不终结的虚拟宇宙 [19] - 简化交互式动态图形制作流程,与传统游戏引擎形成互补而非替代关系 [22] - 有望解决仿真到现实鸿沟,通过逼真世界模拟让AI安全走向真实环境 [23] 技术局限 - 目前仅支持单智能体体验,多智能体系统仍在开发中 [20] - 可靠性问题存在,完全物理和逻辑准确性需时间迭代,无法生成未训练数据场景如古代战役 [20] - 计算速度限制模型复杂度,采用模块化方案如Gemini与Genie 3协同工作 [20]
深夜,OpenAI、谷歌等更新多款模型
第一财经· 2025-08-06 15:17
大模型厂商新品发布动态 - OpenAI开源两款MoE架构推理模型gpt-oss-120b(1170亿参数/51亿激活参数)和gpt-oss-20b(210亿参数/36亿激活参数),标志其开闭源策略转变[3][4] - Anthropic推出Claude Opus 4.1模型,采用渐进式更新策略,在SWE-bench Verify基准测试得分74.5%(较前代+2pct),终端编程/推理/多语言问答能力均有提升[6][7] - 谷歌发布实时交互世界模型Genie 3,支持720p分辨率下24fps动态画面生成(最长数分钟),物理模拟涵盖水/光/生态系统等自然现象[8][9] 技术性能突破 - gpt-oss-120b在编码/工具调用基准测试中接近闭源o4-mini水平,gpt-oss-20b性能对标o3-mini,均支持端侧部署(80GB GPU/16GB消费级设备)[5] - Claude Opus 4.1在Terminal-Bench/GPQA Diamond/MMMLU基准测试分别达43.3%/80.9%/89.5%,客户反馈代码修改精准度显著提升[7] - Genie 3视觉记忆追溯达1分钟,画面一致性时长较Genie 2的8秒提升至数分钟,可模拟复杂环境交互(如摩托艇撞击灯笼效果)[8][9] 战略方向变化 - OpenAI时隔六年重启开源,CEO称两款模型耗资数十亿美元研发,强调本地部署能力(笔记本/手机端运行)[3][5] - Anthropic转向高频次渐进更新模式,计划未来数周持续推出改进版本,聚焦AI智能体能力强化[6] - 谷歌将世界模型定位为AGI关键路径,Genie 3突破实时交互边界但存在动作空间/多智能体模拟等局限[8][11]
CAAI具身智能专委会主任蒋树强:世界模型是智能体进行决策的重要依据
机器人圈· 2025-08-04 19:38
具身智能技术发展 - 具身智能的核心要素包括身体、环境与智能,三者通过深层次交互实现智能功能[4] - 智能实现依赖身体结构(如身高、感官分布)与感知行为能力的协同作用[4] - 具身大模型需融合视觉、语言、行为数据及物理参数等多模态信息,训练复杂度显著高于传统模型[4] 具身大模型挑战 - 单一本体训练更务实,多形态机器联合训练面临泛化能力、传感器差异等工程难题[4] - 虚拟环境生成数据存在物理参数失真问题,真实与虚拟环境对齐技术尚未突破[5] 世界模型研究 - 世界模型需整合三维空间、动态变化、对象关系等要素,为智能体决策提供环境预测基础[5] - 当前研究聚焦导航等工程实现领域,理论方法仍待完善[5] 机器人行业动态 - 2024年机器人上市公司年报显示行业竞争加剧,头部企业领跑趋势明显[8] - 人形机器人领域面临量产爆发与价格战双重压力,AI技术融合成为关键机遇[8] - 国际前沿技术包括螳螂虾仿生机器人、3D打印软体机械手等创新方向[8]
Meta chief AI scientist Yann LeCun clarifies his role after the company hires another chief AI scientist
Business Insider· 2025-07-27 03:50
高管变动 - Meta宣布ChatGPT联合创始人Shengjia Zhao加入公司并担任Superintelligence Labs首席科学家[1] - Shengjia Zhao将直接与CEO和高管合作制定研究议程和科学方向[2] - Meta表示团队组建进展顺利因此正式确认Zhao的领导职位[2] 组织架构 - Meta的FAIR团队由Yann LeCun领导专注于长期AI研究和新范式开发[3][8] - Superintelligence Labs是包含FAIR、基础研究和产品团队的 umbrella部门[9] - FAIR团队曾开发开源大语言模型Llama并于2023年发布[8] 研究方向 - FAIR团队正在开发可能替代大语言模型的world model[8] - Superintelligence Labs聚焦于为每个人开发"个人超级智能"[9] - LeCun表示将与Zhao合作加速新研究在先进模型中的整合[10] 行业影响 - 此次人事变动引发行业对Meta人才争夺战略的关注[2] - Scale AI创始人Alexandr Wang公开赞扬Zhao的科研成就[10] - LeCun澄清其在Meta的角色和FAIR的使命保持不变[3][9]
一边是毕业等于失业,一边是企业招不到人,太难了。。。
自动驾驶之心· 2025-07-23 17:56
自动驾驶行业现状 - 自动驾驶行业面临人才供需失衡,企业招聘需求旺盛但匹配度高的顶尖人才稀缺 [2] - 行业资本趋于理性,公司更注重商业化落地和盈利而非盲目扩张 [2] - 技术栈虽完备但距离大规模低成本商业化仍有工程鸿沟 [3] - 企业招聘标准提高,对技术适配性和前沿研究能力要求严格 [3][4] 自动驾驶技术社区 - 自动驾驶之心知识星球已成为国内最大技术社区,拥有4000+成员和100+行业专家 [7][9] - 社区覆盖30+技术方向学习路线,包括BEV感知、Occupancy、端到端驾驶等前沿领域 [9][69] - 与主流自动驾驶公司建立内推渠道,提供简历直达服务 [8][10] - 每周活跃度位居国内前20,形成学术与产业界的深度互动 [10][71] 技术研究方向 视觉语言模型(VLM) - 涵盖预训练、迁移学习、知识蒸馏等完整技术链条 [15][16][17] - 主流数据集包括LAION5B(50亿图文)、Conceptual 12M(1200万图文)等 [19] - 应用领域覆盖智能交通车辆检索、自动驾驶场景理解等 [27][28] 世界模型 - 聚焦驾驶场景生成与预测,代表工作包括HERMES、DriveDreamer等 [34][36] - 实现3D场景理解与生成的统一,提升自动驾驶系统泛化能力 [34][36] - 2024年涌现InfinityDrive等突破性模型,解决长序列预测难题 [36] 扩散模型 - 在3D重建、视频生成领域形成完整技术体系 [37][42] - DrivingDiffusion等框架实现时空一致性驾驶场景生成 [43] - 应用于数据增强,如Cityscape-Adverse模拟八种恶劣条件 [43] 端到端自动驾驶 - 形成从模仿学习到强化学习的完整方法论 [49][55] - 主流方案融合多模态输入,如DriveGPT4实现可解释决策 [31][55] - 面临开环评估与真实场景的差距挑战 [49][52] 行业应用与数据集 - 专用数据集覆盖200+任务,包括NuScenes(1000小时)、Waymo Open(1200万帧)等 [25][26] - 语言增强系统实现自然语言导航与车辆控制 [26][29] - 决策控制领域涌现GPT-Driver等大模型驱动方案 [29][30]
自动驾驶论文速递 | 世界模型、端到端、VLM/VLA、强化学习等~
自动驾驶之心· 2025-07-21 12:14
Orbis模型技术突破 - 弗莱堡大学提出基于流匹配的连续自回归世界模型Orbis,在仅使用280小时单目视频数据和4.69亿参数条件下实现长时程预测性能突破 [1] - 在nuPlan数据集上FVD指标降至132.25(6秒预测),转弯场景轨迹精度(Frechet Precision)提升至0.47 [1] - 设计混合离散-连续tokenizer实现两种建模方法的公平对比,发现连续建模在长视野预测中显著优于离散建模 [2] - 模型在复杂驾驶场景(如转弯、城市交通)中表现突出,超越Cosmos、Vista等基线模型 [6][8] LaViPlan框架创新 - ETRI团队提出基于可验证奖励强化学习(RLVR)的语言引导视觉路径规划框架 [12] - 在ROADWork数据集上将轨迹预测ADE降低19.91%(Easy场景)和14.67%(Hard场景) [12] - RLVR使模型输出从语言忠实性转向功能准确的轨迹,揭示语义相似性与任务特定推理间的权衡 [14] - 相比监督微调需显著更少的训练样本,在强化阶段纳入硬案例能实现更好的泛化能力 [15] 世界模型驱动的场景生成 - 澳门大学团队提出世界模型驱动的驾驶场景生成框架与增强动态图卷积网络 [23] - 在DAD数据集上实现83.2% AP(提升7.0%)和3.99秒mTTA(提升9.1%) [23] - 发布包含4800样本的AoTA数据集,环境因素分布比DAD数据集更平衡 [32] - 利用视觉语言模型提取事故相关领域特征,生成保留原始特征分布的合成场景 [28] ReAL-AD类人推理框架 - 上海科大与港中文提出通过视觉语言模型驱动三层人类认知决策的端到端自动驾驶框架 [33] - 在nuScenes和Bench2Drive数据集上将规划精度(L2误差)提升33%、碰撞率降低32% [33] - 驾驶安全分数提升至41.17,战略推理注入器构建高层驾驶策略,战术推理整合器细化战术选择 [39][42] - 分层轨迹解码器将战术决策转化为精确控制动作,验证了各组件的有效性 [39]
L4产业链跟踪系列第三期-头部Robotaxi公司近况跟踪(技术方向)
2025-07-16 14:13
纪要涉及的行业和公司 - 行业:自动驾驶(Robotech)行业 - 公司:小马、百度、文远、滴滴、Otto X、Vimo 纪要提到的核心观点和论据 技术架构与算法框架 - 最初自动驾驶底层算法框架是模块化做法,包含感知、预测、规控、规划和控制,如今强化学习和世界模式加入,但原框架未完全拿掉 [2] - 产业链车企经历从CNN架构到transformer的转变,小马逐步将规则方案替换为模型输出,出发晚的车企替换更容易,小马因原有方案基线高,替换需更长时间 [3][4] - 感知和预测模块很早就用模型做,规控模块虽有模型应用但未完全大模型化,业界多是一段式端到端化,大语言模型未上车,模型训练已使用transformer底层架构 [5][6][7] 数据处理 - 小马内部有模块化和端到端两种方案,模块化方案目前大部分用真实数据,端到端和规控模型化会增加仿真数据使用,因规控数据不足,仿真数据可解决corner case问题 [8][9] 学习方法应用 - 模仿学习较早用于规则处理不好的场景,强化学习用于e2e模型和部分小模块,使用比例不大 [11] 车辆投放 - 目前有安全冗余或测试车辆约小几百(300)辆,主要投放于北京和广州(北京在益州,广州在南沙区),深圳(前海)和上海较少 [14] - 今年计划扩大投放,主要城市为北京、广州和深圳,若上海拿到牌照也会增加投入 [21] 车辆成本与配置 - 车辆成本十几万,加装成本为主,包括9个激光雷达、13 - 14个相机、4个Orin X车载芯片及定位、线控等模块,成本在几万块以内,之前对内称整套成本可控制在20万以内 [15] 算力分配与融合方案 - 算力架构采用前融合和后融合并存,有冗余性,4个Orin X芯片中3个开启,1个备用。第一个芯片运行大部分感知模型,第二个芯片运行部分无雷达输入或对实时性要求稍低的模型,第三个芯片部分模型可能移至第二个芯片 [17][18] - 目前算力吃紧,2024年部分精力用于削减个体量化,暂无换CPU计划 [19] 运营经济账 - 每辆车每天接单约30单,每单平均价格约29元,可据此估算营收。成本主要是电费、车辆折旧费,还有人工充电、车辆维修等成本,1000多辆车可实现盈亏平衡 [24][25] - 后台安全员人车比去年为1:3 - 1:6,现在部分情况可达1:20 [25] 商业化落地排序 - 全球来看,Vimo在美国落地较多,走在前面;国内参与者中,小马、百度的阿波罗、文远较靠前,滴滴靠后,Otto X、袁隆等已停止相关业务 [27][28] - 小马拿商业牌照速度比百度快,内部端到端模型在某些情况下输出结果优于模块化模型,未来有望切换到端到端方案 [28][29] 其他重要但是可能被忽略的内容 - 公司计划在2027年底或2028年底实现公司层面盈亏平衡,可能需要万辆以上甚至十万辆车 [26] - 后续会议将关注无人物流等行业头部公司进展 [30]