Workflow
强化学习
icon
搜索文档
理想MindGPT-4o-Vision技术报告压缩版
自动驾驶之心· 2025-12-25 11:24
文章核心观点 - 理想汽车发布MindGPT-4ov技术报告,提出一套旨在解决通用多模态大模型向垂直领域迁移时面临的核心矛盾(如灾难性遗忘、缺乏系统方法论)的全链路后训练工程方案 [1] 当前多模态模型训练的关键挑战 - **灾难性遗忘与缺乏方法论**:将通用多模态大模型迁移至垂直应用时,注入领域知识会导致原有通用能力退化,且现有方法缺乏涵盖数据、训练到部署的全链路方案 [1] - **资源分配粗放**:传统数据合成方法对所有数据均等处理,忽视信息密度差异,导致高价值数据挖掘不足,低价值数据浪费算力 [2] - **奖励机制单一化**:强化学习阶段传统的Pass@1机制使模型为最大化奖励而收敛到少数安全回复模式,牺牲输出多样性与探索性,削弱泛化能力 [2] - **单模态虚假相关**:模型幻觉常源于过度依赖语言模型先验而非视觉证据,例如在移除图片输入后仍能编造视觉细节,构成事实性错误风险 [2] MindGPT-4ov后训练范式的核心模块 - **数据构建**:基于信息密度评分进行数据合成与双维标签系统 [3] - **监督微调**:采用协同课程监督微调 [3] - **强化学习**:采用混合奖励的多阶段强化学习 [3] - **基础设施**:采用5D并行训练(在3D并行基础上引入序列并行和专家并行),并优化推理过程中的模型适配、流式推理和高并发场景 [3] 数据构建:信息密度评分与双维标签 - **信息密度评分**:利用MLLM对图像从主体多样性、场景空间关系、OCR文本丰富度、世界知识相关性四个维度进行量化评分 [3] - **动态合成策略**:依据IDS分数动态调整生成问答对的数量,高密度图像生成更多QA,低密度图像生成较少QA,以实现资源高效配置 [3] - **双维标签系统**:构建领域+能力的树状标签体系,确保合成数据既覆盖垂直领域知识,又兼顾通用视觉能力(如计数、推理) [4] 监督微调:三阶段协同课程学习 - **阶段一:跨域知识学习**:重点注入垂直领域知识,建立解决特定领域问题的基础 [5] - **阶段二:能力修复**:针对第一阶段可能导致的通用能力下降,使用通用数据集进行针对性恢复训练 [5] - **阶段三:偏好对齐**:使用高质量偏好数据,优化响应格式、减少幻觉,并处理长上下文逻辑 [5] 强化学习:混合奖励机制 - **Pass@k奖励**:在模型生成的k个回答中,只要有正确答案即计算期望奖励,鼓励探索不同推理路径,而非陷入单一模式 [6] - **多样性奖励**:计算候选回答间的语义距离,语义过于相似的正确回答会受到惩罚,语义差异大且正确的回答获得更高奖励 [6] - **长度奖励**:引入软性冗余约束,回答长度超过设定阈值(即使内容正确)会给予负向惩罚,强制输出简洁响应 [6] - **对抗性幻觉数据**:构造移除图像的文本样本,若模型在无图情况下仍生成描述性细节,则视为知识泄漏并予以惩罚,强制基于视觉证据推理 [6] 训练与部署流程及效果 - **标签与数据构建**:专家定义一级标签,利用MLLM扩展生成二级及三级细粒度Topic,形成知识树;对图像进行粗粒度(Top-3)和细粒度(Top-5)Topic匹配,结合IDS分数生成QA对,并通过多模型投票过滤低质数据 [7] - **SFT训练**:执行三阶段课程学习,期间穿插数据准入与拒绝采样机制,动态调整数据配比 [7] - **强化学习阶段**:阶段一在线RL使用GSPO算法,结合Pass@k和多样性奖励,重点提升多模态逻辑推理和STEM能力;阶段二离线RL使用DPO算法,利用人类偏好数据和对抗性幻觉数据,进行领域能力对齐和幻觉抑制 [7] - **推理部署优化**:采用分块预填充和视觉编码缓存策略,在用户输入阶段并行处理图像,以降低首字延迟 [7] - **垂直领域知识掌握**:在涉及理想汽车特定车型的问答中,MindGPT-4ov能准确识别车型设计特征及定位,而基座模型(Qwen3-VL)出现知识缺失或幻觉 [7] - **响应简洁性**:在MathVista等基准测试中,MindGPT-4ov的平均响应长度显著短于对比模型,同时保持了更高的准确率(83.3% vs 80.1%),验证了长度奖励机制的有效性 [8]
Dwarkesh最新播客:AI 进展年终总结
36氪· 2025-12-25 07:15
AI发展现状与AGI时间线 - 以强化学习为核心的“中训练”正成为大型语言模型的重点突破方向,前沿科技公司正通过此方法将大量具体技能预先植入模型[3] - 当前对强化学习中训练的极度乐观态度与宣称AGI临近的观点存在根本矛盾,如果模型已接近类人学习者,这种基于“可验证结果”的训练路径是走不通的[14] - 为模型预置大量具体技能的做法,恰恰是AGI还很远的证据,因为如果模型泛化能力很强,就不需要单独构建那么多强化学习环境来教它操作特定工具[3][16] AI模型能力与泛化挑战 - 人类劳动力的价值在于其训练成本不笨重,能根据需要灵活掌握新技能,而当前AI缺乏稳健高效的方法来习得工作中大量需要的公司特定、情境特定技能[4][23] - 每天人类需处理上百件需要判断力、情境感知及工作中习得技能的事情,仅靠预置一组固定技能,连一份工作都无法完全自动化[24] - 在机器人等领域,根本问题是算法而非硬件或数据,人类只需很少训练就能远程操控硬件完成有用工作,这反衬出当前AI缺乏类人学习核心[19] AI经济扩散与市场潜力 - 企业有很强动机雇佣AI劳动力,因为经过验证的AI员工可以无损无限复制,且不存在招聘中的“柠檬市场”问题[5][29] - 当前AI未在企业广泛部署、未在编程外创造大量价值,本质是模型能力不足,而非技术扩散需要时间,所谓“经济扩散滞后”是为能力不足找借口[6][28] - 如果AI能力真达到AGI水平,其扩散速度会快得惊人,企业完全愿意每年花费数万亿美元购买token,因为知识工作者年总薪酬高达数十万亿美元[29] 技术演进路径与规模定律 - 预训练阶段的扩展定律非常清晰,算力数量级提升会导致损失函数稳定下降[10] - 但将预训练规模化的乐观经验移植到带可验证奖励的强化学习上缺乏依据,有研究指出,要强化学习获得类似GPT级别的提升,总算力规模可能需要提升到一百万倍[11][33] - 持续学习将是AGI之后模型能力提升的主要驱动力,预计前沿团队明年会发布持续学习雏形功能,但达到人类水平可能还需5到10年[13][40] 评估框架与未来影响 - 将AI模型智能与“中位数人类”对比会系统性高估其能创造的价值,因为知识工作的巨大价值来自最顶尖的一小撮人[12][35] - 一旦模型真正达到顶级人类水平,其影响力可能是爆炸式的,因为这意味着服务器上运行着数十亿个类人智能体,能复制、融合彼此全部学习成果[12][25] - 模型在“看起来很厉害”上的进步速度符合短时间线派预测,但在“真正变得有用”上的进展速度更符合长时间线派判断[32]
GPT-5被吐槽没进步?Epoch年终报告打脸:AI在飞速狂飙,ASI更近了
36氪· 2025-12-24 19:17
文章核心观点 - Epoch AI的年终盘点显示,人工智能行业的发展并未停滞,反而在多个关键领域加速进化,特别是在推理能力提升、成本下降和硬件普及方面 [1][7][12] - 当前顶尖AI模型在解决专家级数学难题等复杂任务上仍存在显著局限,但行业整体能力,尤其是推理能力,自2024年4月以来增长速度加快近一倍 [6][10] - AI价值的实现路径可能存在分歧:一种观点认为自动化科研是关键,另一种更主流的观点则认为AI将通过广泛自动化日常经济工作来创造大部分价值 [49][52] AI模型能力与性能评估 - 在由60多名顶尖数学专家出题的FrontierMath基准测试中,所有AI模型表现均不佳,中文开源模型(除DeepSeek-V3.2外)得分为零,全球顶尖模型正确率也不高 [1][5][6] - 唯一在FrontierMath上得分的中文模型是DeepSeek-V3.2 (Thinking),其答对一题,得分约为2% (1/48) [4] - 尽管在传统数学测试上表现优异,但GPT、Gemini等顶尖模型在FrontierMath上的表现仅略优于中文开源模型 [5][6] - 自2024年4月以来,前沿AI模型的能力增长速度明显加快,比之前快近一倍,这主要得益于更强的推理模型和对强化学习的重视 [10] - GPT-4和GPT-5都在基准测试中实现了重大性能飞跃,超越了前代产品 [32] 技术发展与成本趋势 - AI推理成本正在快速下降,在2023年4月至2025年3月期间,同等性能下每token价格下降了10倍以上 [19] - 消费级硬件已能运行顶级开源模型,其性能与顶尖AI的差距不到一年,预示着前沿AI能力将更快普及 [22] - 架构创新显著降低了开发成本,例如DeepSeek v3通过多头潜在注意力、改进的混合专家架构和多token预测三项技术,以更低算力成为当时最强开源模型 [39] - DeepSeek R1的性能与OpenAI o1相当,但开发成本仅为几分之一 [41] - 推理训练虽重要但增长有上限,OpenAI和Anthropic预计其当前的强化学习扩展速度最多只能维持1-2年 [45] 行业资源分配与基础设施 - 2024年OpenAI的大部分计算资源用于实验而非推理或训练,其研发算力支出约50亿美元,而推理算力支出约20亿美元 [25][27] - 当前AI研发成本主要来自实验,而非训练和部署 [28] - 自2020年以来,英伟达芯片的已部署AI计算量每年增长超过一倍,其旗舰芯片在三年内会占据现有计算量的大部分 [29] - 若AI被视为国家战略项目,其规模可能足以支撑一次比GPT-4训练规模大1万倍的任务 [46] 能源消耗与公众认知 - 大型AI模型单次推理能耗极低,例如GPT-4o单次推理耗电量比点亮一个灯泡五分钟还要少,与Gemini的单次提示能量成本相似 [35] - 尽管当前单次能耗低,但AI的总能源消耗正在指数级增长,未来可能成为问题 [38] AI的价值创造路径 - 一种观点(如Sam Altman等人所持)认为AI自动化研发是通向爆发式增长的关键 [52] - Epoch AI提出另一种更可能的情景:AI创造的大部分价值将来自对经济体系中大量日常工作的广泛自动化,而非加速科研 [49] - 历史数据显示,在1988-2020年间,研发活动对整体生产率的贡献有限 [49] - AI更可能通过缓慢、分散的过程渗透各行业,替代重复劳动,其影响将是长期的而非突变的 [52]
聚首香江!机器人产业大佬,重磅发声!
中国基金报· 2025-12-24 18:41
文章核心观点 - 2025年12月20日,行业专家在香港论坛上探讨了AI与机器人技术的发展前景,重点讨论了人形机器人的技术阶段、商业化路径以及生态共建 [1] - 与会者普遍认为人形机器人是通用人工智能(AGI)的重要载体,但并非唯一形态,其商业化落地需克服技术、标准化和场景闭环等挑战 [2][3][4][5][6][7] 人形机器人的技术定位与发展阶段 - 中国已成为全球工业机器人和服务机器人第一大国,2026年被视为人形机器人量产的重要节点 [2] - 人形机器人被视为具身智能的最佳形态,是构建Physical AI和世界模型、实现通用人工智能的关键数据基座 [2] - 非人形机器人已在许多产业落地并进入业绩兑现周期,而人形机器人尚处于“从0到1”的阶段,未真正进入生活产生价值 [3] - 技术层面,具身智能目前处于L2阶段(动作实现较好,智能化水平偏低),正迈向L3阶段 [3] - 产业层面,人形机器人正从PR阶段回归理性价值判断,基本完成从实验室原型到真实场景实训的过渡 [4] 人形机器人的商业化关键与量产进展 - 商业化落地是科技产品的核心价值,过往多家企业因无法量产而失败 [5] - 优必选作为全球人形机器人第一股,已交付500台人形机器人,即将突破1000台,2026年计划实现月产800-1000台,年底储备万台产能 [5][6] - 大规模量产需要标准化产品,但行业仍处于“从0到1”的成长阶段,灵巧手、本体等缺乏全球统一标准 [6] - 行业对人形机器人量产时间的预期已从十年以上缩短至三五年 [6] - 商业化需先找到垂类场景,让用户感受到实际价值,通过持续交互积累信任,形成用户场景闭环,以获取数据与反馈实现强化学习与智能进化 [7] 算力与芯片解决方案 - 成熟的机器人产品需要高灵活度执行器、实时算力支持与强大算法支撑,实时算力必须部署在本地 [7] - 天数智芯是首家通用GPU厂商,2021年推出云端通用GPU芯片,产品已迭代至第四代,技术成熟 [7] - 国产算力硬件采用通用GPU架构以适配各类新模型,软件兼容主流路线,曾实现两天内完成跨本体的具身大模型适配 [7] - AMD提供全栈式人工智能解决方案,以CPU+GPU+NPU的异构计算方案满足机器人运动控制、视觉识别、AI算力等需求 [8] - AMD拥有开放的ROCm开发者生态,其FPGA和自适应SoC可满足边缘智能场景对低时延、高能效智能推理的需求 [8][9] 生态共建与未来发展方向 - 依托中国强大的供应链体系、庞大的应用场景以及软硬件一体化人才,应聚焦用重大科技创新解决智能制造等社会关键问题 [6] - 脑系统的核心是软硬件一体,需要芯片物理层、操作系统层、模型层三者深度融合,提出“副脑”概念以实现大小脑协同 [6] - 2024年底,显性知识已被AI学尽,智能进化新阶段的核心驱动力来自各行业的隐性知识(需通过人机交互挖掘)和物理世界的具身智能(需搭建世界模型) [7] - AMD通过上下游产业链合作,助力AI及人形机器人产业发展,担当行业创新引擎与技术推动者 [9] - 预计2026年泛具身场景中非人形机器人将率先起量 [3]
业内首个RL+VLA汇总:强化学习如何推动 VLA 走向真实世界?
自动驾驶之心· 2025-12-24 17:22
文章核心观点 - 文章汇总了近期自动驾驶领域11篇结合视觉-语言-行动模型与强化学习的研究工作,指出行业研究重点已从传统的监督微调转向强化学习,以提升模型的泛化与推理能力,并解决幻觉问题 [2] - 这些研究来自全球顶尖高校与领先科技及汽车公司,代表了业界头部的研究方向 [2] 各研究模型核心贡献与性能总结 MindDrive (华中科技大学、小米汽车) - 核心贡献:提出双专家架构,通过决策专家进行场景推理与语言决策,动作专家将决策映射为轨迹,将连续动作空间转化为离散语言决策空间以提升在线强化学习效率 [6] - 性能表现:在Bench2Drive基准上,使用轻量级Qwen-0.5B模型实现了78.04的驾驶分数与55.09%的成功率,超越了同规模的最先进模型 [6] WAM-Diff (复旦大学、银王智能科技有限公司) - 核心贡献:采用离散掩码扩散迭代优化未来轨迹,结合稀疏混合专家架构和GSPO在线强化学习 [7] - 性能表现:在NAVSIM基准上实现了优异的性能 [7] LCDrive (得克萨斯大学奥斯汀分校、NVIDIA、斯坦福大学) - 核心贡献:设计潜在思维链推理机制,使用动作提议令牌与潜在世界模型令牌在向量空间模拟反事实未来,提升推理效率与精度 [12] - 性能表现:在PhysicalAI-AV数据集上验证,相比文本链推理基线,实现了更快推理、更优轨迹质量与更强的强化学习提升效果 [12] Reasoning-VLA (兰州大学、新加坡国立大学、中国科学技术大学、清华大学、新南威尔士大学) - 核心贡献:设计可学习动作查询与视觉语言模型跨注意力交互,支持一步并行生成连续轨迹;融合8个公开自动驾驶数据集构建统一训练数据以提升泛化能力 [13] - 训练策略:采用监督微调与强化学习两阶段训练,结合物理轨迹与车辆动力学奖励 [14] Alpamayo-R1 (NVIDIA) - 核心贡献:构建因果链数据集,提供高质量的决策接地因果推理轨迹;设计模块化架构,融合物理AI预训练的视觉语言模型骨干与流匹配轨迹解码器 [18] - 性能表现:实现99毫秒的实时推理延迟;在闭环仿真中,越野率降低35%,近距离接触率降低25% [18] AdaThinkDrive (清华大学、小米汽车、澳门大学、南洋理工大学、北京大学) - 核心贡献:设计“快速响应/慢速思考”双模式自适应推理机制,让模型根据场景复杂度动态选择直接预测或思维链推理 [20] - 性能表现:在Navsim基准测试中取得90.3的PDMS分数,较最优视觉基线提升1.7点,同时较“始终推理”基线减少14%推理时间 [20] AutoDrive-R² (阿里巴巴集团、昆士兰大学、兰州大学、凯斯西储大学) - 核心贡献:构建nuScenesR²-6K数据集,采用“观察-计算-逻辑推理-反思验证”四步逻辑链;设计融合空间对齐、车辆动力学和时间平滑性的物理基奖励框架 [25] - 性能表现:在nuScenes和Waymo数据集上实现最先进性能,7B版本平均L2误差低至0.20米,零样本迁移能力突出,较EMMA+等模型降低33.3%误差 [25] IRL-VLA (博世(中国)投资有限公司、上海大学、上海交通大学、博世汽车部件(苏州)有限公司、清华大学) - 核心贡献:提出轻量级奖励世界模型,基于逆强化学习从多模态数据中学习奖励结构,规避对仿真器的依赖;设计融合语义推理、3D推理与扩散规划器的视觉-语言-行动架构 [31] - 性能表现:在NAVSIM v2基准上取得最先进性能,并获得CVPR2025自动驾驶挑战赛亚军 [31] DriveAgent-R1 (上海启智研究院、理想汽车、同济大学、清华大学) - 核心贡献:首次将主动感知应用于高级行为规划,设计含检索视图、感兴趣区域检查等工具的视觉工具包;提出结合文本推理与工具增强推理的混合思维框架 [32] - 性能表现:仅3B参数就达到与GPT-5和人类驾驶相当的性能,在Drive-Internal测试集上使用工具后准确率提升6.07%,推理延迟较被动感知方法降低20%以上 [32] Drive-R1 (中国科学技术大学、华为诺亚方舟实验室) - 核心贡献:构建涵盖交通知识理解等五大领域的RP-COT数据集,提供长短链推理标注;设计基于GRPO的强化学习机制,结合多维度奖励对齐推理与规划 [37] - 性能表现:在nuScenes和DriveLM-nuScenes基准上实现最先进性能 [37] ReCogDrive (华中科技大学、小米汽车) - 核心贡献:设计生成、精炼、质控三阶段分层数据管道,构建大规模视觉问答数据集以注入驾驶先验;提出认知引导扩散规划器,将视觉语言模型语义转化为连续轨迹 [38] - 性能表现:在NAVSIM等基准实现最先进性能 [38]
聊聊导航信息SD如何在自动驾驶中落地?
自动驾驶之心· 2025-12-23 08:53
导航信息在自动驾驶中的应用 - 图商提供的导航信息SD/SD Pro已在多个量产方案中使用,为车辆提供车道、粗粒度路径点等全局与局部视野信息,其应用顺理成章 [2] - 导航模块的核心职责之一是提供参考线,这能极大减轻下游规划控制模块的压力,车辆只需在参考线基础上进行细化 [4] - 导航模块还负责提供规划约束与优先级、路径监控和重规划等功能 [5] - 具体应用包括:进行车道级的全局路径规划,搜索目标车道的最优车道序列;为行为规划提供明确语义指导,方便车辆提前准备变道、减速、让行等操作 [6] 端到端自动驾驶算法框架 - 在两段式框架中,导航信息输入到感知模型,输出导航路径,该路径再作为机器学习规划器的输入,用于预测自车行驶轨迹 [16] - 在一段式框架中,SD信息经过专用编码器编码后,与动静态信息一同作为输入,参与后续的模型优化 [20] - 一段式框架相比两段式能做到信息无损传递,因此在性能上更具优势 [30] 行业课程内容概述 - 课程聚焦自动驾驶端到端技术的落地应用,涵盖一段式、两段式、强化学习、导航应用、轨迹优化及量产经验分享 [23] - 课程由工业界算法专家联合开设,讲师为国内顶级一级供应商算法专家,拥有大模型、世界模型等前沿算法的预研和量产落地经验 [25] - 课程面向进阶学员,需自备算力在4090及以上的GPU,并具备BEV感知、视觉Transformer、强化学习等算法基础 [38] - 课程采用离线视频教学,配合VIP群答疑及三次线上答疑,学习周期预计三个月 [36] 课程核心章节大纲 - 第一章概述端到端任务,介绍感知模型一体化架构、规控算法学习化方案及开源数据集与评测方式 [28] - 第二章详解两段式端到端算法框架,包括其建模方式、感知与规划控制的信息传递,并通过PLUTO算法进行实战 [29] - 第三章讲解一段式端到端算法框架,介绍基于向量逻辑架构和扩散模型等多种方案,并深入学习VAD系列方法 [30] - 第四章专述导航信息的量产应用,涵盖主流导航地图格式、内容信息及其在端到端模型中的编码与嵌入方式 [31] - 第五章介绍自动驾驶中的强化学习算法,旨在弥补纯模仿学习的不足,使系统学习因果关系以实现泛化 [32] - 第六章进行神经网络规划器项目实战,重点涵盖基于扩散模型和自回归模型的模仿学习,并结合强化学习算法 [33] - 第七章讲解量产兜底方案——时空联合规划,介绍多模态轨迹打分搜索及轨迹平滑等后处理优化算法 [34] - 第八章分享端到端量产经验,从数据、模型、场景、规则等多视角剖析如何提升系统能力边界 [35]
强化学习应用在自动驾驶中的一些思考
自动驾驶之心· 2025-12-23 08:53
文章核心观点 - 文章深入解读了Waymo在ECCV上发表的一篇关于在自动驾驶轨迹规划任务中应用强化学习进行微调的论文,认为该方法逻辑通顺、通用性强,为解决主流模仿学习方法在开环训练中存在的因果不一致、难以处理分布外状态等问题提供了一个有效思路,其核心在于通过预训练结合强化学习微调的两阶段方法,在无需高保真仿真环境的情况下实现闭环训练,从而提升智能体行为的合理性与安全性[3][4][14] 方法背景与问题 - 主流的基于学习的规划模块多采用模仿学习方法,进行开环训练,即在服务器训练后部署到车端运行,这种模式下,车辆在实车测试中一旦进入不合理状态很难自行纠正,增加数据量或扰动初始状态只能缓解但不能根治分布外问题[3] - 许多模仿学习方法采用单帧感知信息结合多秒真实轨迹的组合进行训练,若感知范围有限或远端感知不准,会导致因果不一致的问题,例如真实轨迹在远端无感知道路处转弯,而当前帧感知无法覆盖,此类混乱数据会误导网络学习[7] 提出的解决方案与模型结构 - 文章提出的方法采用预训练与强化学习微调相结合的两阶段训练方式,其网络结构沿用了Waymo之前的MotionLM模型,采用自回归方式输出轨迹,在推理阶段通过循环依次输出自车与交通参与者的动作,从而构成完整轨迹并确保因果关系一致[4] - 该模型同时输出自车与交通参与者的动作,这本身构成了一个简易版的世界模型,网络输入采用以场景为中心的编码方式,例如对于输出6秒轨迹的任务,静态信息是6秒内信息的汇总,而非仅当前帧,这能确保在推演过程中车辆不会驶出感知道路范围[4][6] 训练流程与奖励函数 - 预训练阶段使用因果掩码拟合真实轨迹,动作定义为横纵向加速度及一个13x13的空间网格,强化学习微调阶段则使用简单的运动学方程进行位置更新[8] - 强化学习阶段的奖励函数设计简洁,包含两部分:拟合真实轨迹的奖励和碰撞惩罚,具体公式为 $$r_{t,i}=-||P o s_{t,i}-G T_{t,i}||_{2}-\lambda C o l l_{t,i},$$,这种组合被认为能兼顾效率与安全性,且拟合奖励能有效防止训练崩溃[11] - 奖励值在批次维度和所有时间步上进行标准化,公式为 $$R_{t,i}=(R_{t,i}-Mean(R))/Std(R)$$,这种方法省略了评价者网络,类似于GRPO的方式,并采用策略梯度进行更新,作者认为若在采样轨迹范围内标准化会更精确,但可能因计算量而未采用[13] 方法优势与行业意义 - 与在损失函数中添加碰撞、效率等辅助损失项的模仿学习方法相比,将类似约束转化为奖励函数能带来更好效果,因为奖励通过提升特定决策模态的概率来间接优化,而非直接作用于轨迹形态,可避免导致轨迹扭曲、摆动或加减速顿挫等问题[14] - 强化学习的核心价值在于闭环学习,即使使用较小但难度较高的数据集进行微调,也能显著提升模型能力,该方法参考了大语言模型中强化学习微调的思路,指出拥有真正的世界模型是实现物理人工智能的关键路径[14] - 该方法的一大优势是思路易于借鉴和复现,且不需要依赖高保真的仿真环境,为行业提供了一种通用性强的训练范式[4][13]
专访地平线副总裁吕鹏:做不好端到端就做不好VLA
21世纪经济报道· 2025-12-23 08:45
市场格局与公司进展 - 今年前三个季度,国内20万元以上乘用车市场份额占比30%,13万元以下市场份额则高达50%,但后者多数车型尚未配备城区辅助驾驶功能,这一广阔的蓝海市场正吸引着地平线、Momenta等智驾厂商加速布局 [1][13] - 地平线于今年4月正式推出基于征程6系列芯片的城区辅助驾驶解决方案HSD,并于11月随星途ET5和深蓝L06上市实现量产,两款车型上市短短两周后,HSD激活量便突破12000辆 [1][13] - 公司通过生态拓展加速市场渗透,在12月初的技术生态大会上公布两大举措:拓展生态合作模式,新增算法服务模式“HSD Together”,并与日本电装、大众合资公司CARIZON、HCT达成合作;引入更多生态合作伙伴,如元戎启行、卓驭等 [1][13] - 缺乏芯片研发能力的算法公司、软硬研发实力薄弱的车企正纷纷向地平线聚拢,公司目标是让城区辅助驾驶功能下沉至10万元国民车型,并计划在未来3—5年内达成千万级量产规模 [2][14] 技术路线与研发投入 - 地平线敢于制定千万级量产目标的底气源于其在智驾端到端方案上的长期坚守与深耕,公司自2024年底便集中力量主攻端到端技术,90%的研发人力均投入到该方案的研发与量产落地工作中 [2][14] - 公司认为,无论是世界模型(WA)还是视觉语言动作模型(VLA),都需要建立在非常完整的端到端底座之上,没有扎实的端到端基座,高阶智驾就是空中楼阁 [2][9][10][14][21][22] - 地平线是目前行业内少数坚定选择端到端路线的厂商,其最早的端到端架构uni AD曾获得CVPR最佳论文,核心底气来自过去丰富的技术积累 [2][14][15] 技术方案详解 - 地平线HSD的端到端版本最核心的技术亮点是“光子进,轨迹出”,公司是除特斯拉之外,少数拥有真正意义上最完整的一段式端到端系统的企业 [4][16] - 所谓两段式端到端,并非一个模型,而是感知模型加规控模型,信息传递存在丢失;而一段式端到端可实现高维特征的无损传递,信息量更高,驾驶体验更接近人类直觉 [6][17] - 两段式端到端存在的原因是一段式方案若不够完善,输出轨迹会有缺陷导致无法控车,开发者会退而求其次增加后处理规则进行修正,但这些规则会限制模型上限并带来驾驶动作的割裂感 [7][18] - 分辨一段式与两段式端到端,对于从业者主要看模型输出轨迹的连贯性和拟人性,特别是在交互场景下动作是行云流水还是按步骤进行,消费者最直观的体验是是否愿意在城市中安心使用该系统 [8][19] 竞争观点与未来展望 - 对于智驾技术路线之争,地平线认为WA或VLA都是基于端到端,语言(language)等模态应作为辅助项,而非开发核心,模型构建应模拟人类开车状态,即95%以上时间依赖直觉模型,仅在极度复杂场景下加入理解与推理 [9][21] - 未来更智能的端到端方案中,仿真闭环是关键核心技术,因为稀疏场景需要通过仿真生成数据验证,随着端到端成熟,遇到问题的场景会越来越稀疏 [10][22] - 公司认为未来最理想的智驾方案是在端到端直觉模型解决95%甚至99%场景的基础上,为剩余需要认知推理的场景叠加思维链理解能力,但一切前提是端到端直觉模型必须足够好 [10][22] - 作为智驾供应商,接下来的竞争核心应聚焦产品体验、安全性和市场认可度,而非追逐新名词和新概念,技术上公司会做好预研和储备 [11][22] - 地平线强调,即使下一代智驾方案包含VLA技术,也不会抛弃当前的端到端技术,因为端到端是VLA得以实现的基础 [12][24]
机器人学习现状!PI团队内部员工分享(从数采到VLA再到RL)
具身智能之心· 2025-12-23 08:03
文章核心观点 - 截至2025年12月,机器人学习领域的主流系统几乎全部基于行为克隆技术,其核心是通过监督学习模仿人类专家的演示数据[5] - 当前的行为克隆系统面临分布外状态、误差累积、数据收集瓶颈以及无法自我提升等根本性挑战,导致其在实际应用中并不好用[39][40] - 尽管强化学习在理论上能克服行为克隆的局限,但在真实机器人场景中,由于无法从同一状态反复执行、缺乏强基础策略以及仿真与现实差距等问题,其应用仍面临巨大障碍[53][55][62] - 未来的发展路径可能依赖于高质量世界模型的构建,以及持续改进的人类示范数据收集系统,但实现通用、鲁棒且高效的机器人学习仍需长期研究[71][73] 现代机器人学习技术栈剖析 - **数据来源**:当前行为克隆系统的数据主要来自三种方式:主从控制方案、智能演示手套以及直接的人类示范视频[7] - **主从控制方案**:通过人类操作主臂直接控制从臂机器人,其优点是能记录全套传感器数据且动作在运动学上可行,但缺点是操作速度比人类徒手慢得多,可达10倍[8][9] - **智能演示手套**:人类手持配备简化传感器的设备进行操作,通过SLAM和逆运动学重建状态与动作,优点是更易上手、示教更快、部署成本更低,但存在严重的域差距和运动学可行性问题[10][11][18] - **直接人类示范**:来源广泛,如YouTube视频或工厂工人佩戴摄像头记录,数据规模巨大且产生于完整人类速度,但存在巨大的状态与动作重建差距,且轨迹往往在运动学上不可行[12][13][19] 行为克隆的核心挑战与应对 - **分布外状态问题**:由于真实世界与训练数据的微小差异、任务本身的不确定性与多模态性,以及动作预测误差的递归累积,策略在实际执行时会逐渐偏离训练分布[16][17][21] - **DAgger方法**:为解决OOD问题,不能仅用专家数据训练,必须引入DAgger风格的方法,即收集策略在失败状态下的恢复数据,训练模型学会从错误中恢复[26] - **DAgger的实践**:构建DAgger数据是一个高度迭代、耗时且需要大量人工判断的“艺术”过程,通常在预训练好的基础策略上进行,旨在提升策略的鲁棒性[29][30][32] - **DAgger的局限**:虽然能提高平均任务完成速度和鲁棒性,但无法提升策略在最理想情况下的执行速度,且随着策略变鲁棒,评估其性能所需的时间会急剧增加[37][33] 超越行为克隆:强化学习的困境 - **理论优势**:强化学习能实现自我提升、自主探索并从糟糕状态中脱困,达到甚至超过人类水平的执行速度,是理想的替代方案[40][45] - **与LLM强化学习的差异**:大语言模型的强化学习成功依赖于能从完全相同的状态无限次执行,且拥有非常强的基础策略,这两个条件在真实机器人领域均不具备[46][47][53] - **仿真中的强化学习**:在仿真器中训练可避免物理限制,但仿真器是现实世界的糟糕仿制品,存在物理简化、视觉差距等问题,导致严重的sim-to-real差距,策略迁移后表现糟糕[55][56] - **真实世界中的强化学习**:直接学习策略的真实执行数据面临核心障碍,即无法回答“反事实”问题,必须依赖仿真或学习高质量的世界模型/Q函数来想象不同动作的结果,但这仍是开放研究难题[62][64][68] 未来预测与创业建议 - **技术预测**:未来2年内,视觉语言动作模型将被视频模型骨干取代;10年内,能很好模拟通用开放世界交互的世界模型将出现,策略可通过从世界模型中抽取获得;传统仿真引擎将作为数据生成器,但核心是端到端学习的[71] - **数据的重要性**:接近专家级的示范数据对微调世界模型至关重要,而真实机器人的执行数据仍是实现超人级性能所必需的[76] - **创业方向建议**:构建软硬件一体的人类示范系统是确定可靠的方向,能有效降低数据收集痛点并证明能产出高质量策略的公司将成为极具吸引力的合作伙伴或收购对象[73] - **应避免的创业方向**:数据标注是高度商品化的人力套利业务;预训练数据销售是苦生意且需证明有效性;评估必须内部完成,无法外包;通用的机器人数据平台不可能出现[76]
智能驾驶行业专题:Robo-X的产业趋势、市场空间和产业链拆解
2025-12-22 23:47
行业与公司 * **行业**:智能驾驶行业,特别是L4级自动驾驶(Robo-X)及其细分赛道(Robotaxi、RoboVan、Robotruck、RoboBus、RoboSweeper)[1] * **公司**:涉及多家自动驾驶技术公司、主机厂及零部件供应商,包括文远知行、小马智行、萝卜快跑、90智能、新石器、百犀牛、德赛西威、穿行致远、路佳创新、和玉石科技、西迪支架、易控支架、希景科技、主线科技、青舟智航、仙途智能、深蓝科技、享界汽车、优驾创新、苏通巨创、禾赛科技、图达通、沪光股份、科博达、华扬集团、均胜电子、地平线、黑芝麻、博通、易保能科技、耐世特、上汽、广汽、吉利、小鹏、特斯拉、Waymo、百度阿波罗等[3][4][5][14][15][23][25] 核心观点与论据 * **市场空间巨大**:预计2030年全球L4级自动驾驶市场空间达万亿级别[1][2] 国内Robotaxi在共享出行领域的潜在替代市场规模为2,360亿元,RoboVan在物流配送领域为1,645亿元[1][2] Robotruck市场规模预计从2024年的15亿元增长至2030年的900亿元[3][21][22] RoboBus对应市场规模150-350亿元[23] RoboSweeper对应市场规模113-225亿元[24] * **商业化加速在即**:行业在政策、技术、成本共同推动下,预计2026年迎来商业化元年[2] L2/L2+渗透率提升带动零部件成本下降,L4硬件共通性进一步降低成本[2][10] 无人化可显著降低人力成本、提高运营效率并延长每日运营时间[10] * **技术驱动发展**:强化学习和世界模型是L4级自动驾驶的底层技术,解决了传统模仿学习存在的数据稀缺、不平衡及模块依赖问题,提高了系统泛化决策能力[1][7][8][9] * **Robotaxi成本与盈利优势显著**:无安全员的Robotaxi每公里运营成本仅0.81元,比传统燃油网约车低58%,比传统电动网约车低43%[1][13] 当运营车辆规模达到1,000台时,有望实现营业利润转正(月收入1,200万元,月成本707万元)[1][14] * **各细分赛道应用明确**:Robotaxi提供共享出行服务[1][2] RoboVan/无人配送车解决末端物流人力短缺和效率低下问题,降低最后一公里配送成本[3][16] 相比传统物流车,无人配送车每年可节省约5.56万元[3][20] Robotruck应用于干线物流,可优化路线、减少油耗和事故率[3][21] RoboBus应用于机场、园区及城市微循环公交[23] RoboSweeper应对环卫劳动力短缺[24] * **主流商业模式为合作**:主机厂、自动驾驶公司和出行服务商之间的合作是主流商业模式,例如吉利与文远知行及优步,上汽与Momenta及享道出行等[1][14] * **政策支持全球性放宽**:全球多地政府(如中东、东南亚、欧洲)逐步放开自动驾驶限制并明确监管框架[1][6] 中国北京、上海、广州、深圳等城市已开启ROS服务,武汉、重庆等城市也在开放[1][6] 国家邮政局等部委出台政策支持无人配送行业发展[17][18] 其他重要内容 * **2025年国内Robotaxi规模**:假设车队规模达7,000台,在共享出行市场占比0.6%,潜在替代空间巨大[11][12] * **企业布局动态**:特斯拉已于2025年6月22日在德州奥斯汀上线无人驾驶出租车,累计行程超40万公里[1][15] Waymo在全美部署超2,500台Robotaxi[15] 小鹏计划2026年推出三款车型[15] * **技术方案细节**:主流Robotaxi公司普遍采用激光雷达加Orin域控制器的方案,算法基于RBEV和Transformer以适应复杂城市环境[19] * **无人配送车具体参数**:运行速度不超过40公里/小时,适用于5-20公里短距离运输[16] 假设2025年轻卡、微卡年销量分别为190万和45万辆,如可替代70%市场,潜在空间达1,001-6,455亿元[20] * **投资关注环节**:整车销售与运营、数据获取(传感器)、数据传输、数据处理(芯片、域控制器)、数据应用(执行部件)等产业链环节均有值得关注的公司[5][25]