强化学习
搜索文档
i6i8MEGA分别交付6798/6719/680|理想25年11月记录
理想TOP2· 2025-12-11 14:09
2025年11月核心运营数据 - 2025年11月总交付量达33,181辆,其中增程式车型交付18,984辆,纯电车型交付14,197辆 [1] - L系列车型(L6、L7、L8、L9)合计交付18,984辆,具体为L6交付9,434辆,L7交付5,212辆,L8交付2,130辆,L9交付2,208辆 [1] - i系列及MEGA车型合计交付14,197辆,具体为i6交付6,798辆,i8交付6,719辆,MEGA交付680辆 [1] - 纯电车型交付量从2025年4月的103辆,显著增长至11月的14,197辆,显示纯电产品线快速上量 [2] - 增程式SUV累计交付量在2025年11月10日突破140万辆 [3] 产品与市场表现 - i6车型在首销期毛利率约为10% [3] - 有观点认为,2022年款L9在当前市场环境下产品力依然强劲 [3] - 公司为搭载欣旺达电池的i6车型额外提供2年或4万公里质保 [4] - 公司计划缩短平台大迭代周期,从四年缩短至两年,并计划拉大未来车型间的区分度 [3] - 公司选择易烊千玺作为品牌代言人,并利用官方资源为其新电影组织宣传和车主观影活动 [5] 技术与研发进展 - 公司自动驾驶负责人郎咸朋提出,短期目标是2025年底至2026年初实现强化学习训练闭环 [2] - 公司发布AD-R1论文,核心是通过闭环强化学习提升端到端自动驾驶的安全性与鲁棒性,解决世界模型预测缺陷 [4] - 公司基座模型团队发布LexInstructEval,旨在提升语言模型遵循用户精细化指令的能力 [3] - 公司提出首个包含自车和他车轨迹的世界模型,以在仿真环境中进行VLA强化学习训练 [6] - 公司整车电动产品负责人表示,已有国际碳化硅芯片供应商联系公司寻求技术IP与合作 [4] - 公司电池性能高级工程师的海报显示“理想自研电池” [5] - 2025年11月,公司自动驾驶相关进展被“中文AI三大顶会”中的两家报道 [3] 充电网络与基础设施 - 公司充电站数量从3,509座增加至3,597座 [4] - 正在筹划忙闲预测功能,加密5C充电站,并开发智驾到站、双枪禁充、夸车位禁充及黑名单等功能 [4] - 计划铺设滑轨机械臂,实现城市VLA辅助驾驶与超充站无缝衔接,包括自动匹配空闲站点、进闸道、开地锁及监控车流量 [4] - 二代充电站具备新的功率分配能力,当有理想车主充电时,其他品牌车型充电功率会自动降至30kW或更低 [4] 公司运营与战略动态 - 公司在2025年第三季度财报电话会议中,管理层对投资人的措辞方式发生重大变化 [4] - 公司于2025年11月25日在报纸版《人民日报》上刊登广告 [4] - 公司对两起质量事故进行了内部问责,处理了14名相关人员 [3] - 公司发布2025年10月辅助驾驶出行报告 [3] - 公司宣布将于2025年12月3日举办理想AI眼镜Livis发布会 [4] - 有分析指出公司存在“缺二把手”的讨论,但亦有观点认为这是次要矛盾 [5] - 公司销售端开始评选“价值传递之心” [5] - 两位来自“中国最好操作系统实验室”的博士于当年2月入职公司 [5] - 此前负责博主投放策划和用户运营的两位员工已回归公司 [5] 法律、合作与出海 - 编造理想汽车充“劣质电”致车辆自燃谣言的陈某,被北京顺义警方采取刑事强制措施 [3] - 2025年11月6日,2025年度北京市自然科学基金-顺义(理想)联合基金项目启动 [3] - 2023年公司出口销量超过2.3万辆,但2025年前八个月出口销量为7,000余辆,公司已暂缓欧洲计划,出海首站选择中亚国家 [6]
时隔一年DiffusionDrive升级到v2,创下了新纪录!
自动驾驶之心· 2025-12-11 11:35
核心观点 - 华科王兴刚教授团队提出DiffusionDriveV2,通过引入强化学习解决了其前代模型DiffusionDrive在端到端自动驾驶轨迹规划中面临的“多样性与持续高质量”两难困境 [1][3] - 该方法创新性地结合了锚点内GRPO、锚点间截断GRPO与尺度自适应乘法探索噪声,在保留多模态生成能力的同时,显著提升了轨迹的整体输出质量与安全性 [4][12] - 在NAVSIM v1和v2数据集的闭环评估中,DiffusionDriveV2结合ResNet-34主干网络取得了当前最优性能,PDMS分别达到91.2和85.5,创下新纪录 [4][33] 技术背景与问题 - 端到端自动驾驶(E2E-AD)直接从原始传感器输入学习驾驶策略,是当前发展浪潮 [5] - 传统单模态规划器仅回归单一轨迹,无法提供备选方案;基于选择的方法使用静态候选轨迹库,灵活性有限 [5] - 原始扩散模型应用于轨迹生成时面临模式崩溃(mode collapse)问题,倾向于生成保守且单一的轨迹,无法捕捉未来多样性 [5][13] - DiffusionDrive通过预定义轨迹锚点构建高斯混合模型先验,将生成空间划分为对应不同驾驶意图的子空间,从而促进多样化行为生成 [5][13] - 但DiffusionDrive依赖模仿学习,其训练目标仅优化与专家轨迹最接近的“正模式”,对占样本绝大多数的“负模式”缺乏约束,导致生成大量低质量甚至碰撞的轨迹,无法保证持续高质量 [8][17][18] DiffusionDriveV2核心方法 - **整体架构**:采用DiffusionDrive作为预训练的轨迹生成器进行冷启动,引入强化学习目标对所有生成模式施加约束并推动探索 [19][21] - **尺度自适应乘法探索噪声**:为解决轨迹近端与远端尺度不一致问题,采用纵向与横向乘法高斯噪声替代加法噪声,生成的探索路径更平滑,保留了轨迹连贯性 [24] - **锚点内GRPO**:为避免不同驾驶意图(如直行与转弯)间不当的优势比较导致模式崩溃,仅在每个锚点内部生成的轨迹变体组内执行GRPO策略更新 [9][24] - **锚点间截断GRPO**:为解决锚点内GRPO优势估计丧失全局可比性的问题,修改优势估计,将所有负优势截断为0,并对发生碰撞的轨迹施加-1的强惩罚,原则是“奖励相对改进,仅惩罚绝对失败” [27][28] - **模式选择器**:采用两阶段“粗到细”评分器,结合二元交叉熵损失和Margin-Rank损失,从多模态预测中选择最优轨迹 [29] 实验结果与性能 - **基准测试成绩**:在NAVSIM v1测试集上,PDMS达到91.2,相比DiffusionDrive提升3.1;在NAVSIM v2测试集上,EPDMS达到85.5 [4][33] - **模型效率**:仅使用2180万参数的ResNet-34主干网络,性能优于基于9690万参数V2-99主干网络的对比方法(如GoalFlow和Hydra-MDP) [33] - **多样性与质量权衡**: - 原始扩散方法(如TransfuserTD)多样性得分仅0.1,质量稳定但缺乏多样性 [37] - DiffusionDrive多样性得分高达42.3,但质量无法保证(PDMS@10为75.3) [37] - DiffusionDriveV2多样性得分30.3,在多样性与质量间实现最优权衡,其PDMS@1为94.9(提高上限),PDMS@10为84.4(提高下限) [37][38] - **消融实验验证**: - 乘法探索噪声优于加法噪声,PDMS从89.7提升至90.1 [40] - 使用锚点内GRPO使PDMS从89.2提升至90.1 [41] - 使用锚点间截断GRPO使PDMS从89.5提升至90.1 [42] 研究意义与贡献 - 据研究者所知,DiffusionDriveV2是首个直接面对并解决截断扩散模型在轨迹生成中“多样性与持续高质量”两难困境的工作 [12] - 是首个成功将GRPO方法迁移到基于锚点的截断扩散模型的工作 [12] - 该方法证明了强化学习的“探索-约束”范式能有效提高模型性能下限与上限,为端到端自动驾驶规划提供了新思路 [8][38]
告别专家依赖,让机器人学会自我参考,仅需200步性能飙升至99.2%
具身智能之心· 2025-12-11 10:01
文章核心观点 - 复旦大学、同济大学与上海创智学院的联合研究团队提出了一种名为“自参考策略优化(SRPO)”的新框架,旨在解决视觉语言动作(VLA)模型在机器人操作任务中面临的奖励稀疏和依赖专家数据等瓶颈问题 [3] - SRPO框架通过构建内生的自参照评估机制,利用模型自身生成的成功轨迹作为参照来评估和引导失败尝试,从而实现了无需外部专家数据注入、免除任务特定奖励工程的自适应策略优化 [3][9] - 该方法在多个基准测试中取得了突破性成果,包括在LIBERO榜单上以99.2%的成功率刷新SOTA,在LIBERO-Plus的泛化任务上性能提升167%,并能显著提升开源模型在真实机器人上的表现 [3][12] 动机与贡献 - 当前VLA模型性能严重依赖成本高昂的专家示范数据,且存在“示范偏差”,而强化学习又常因“奖励稀疏”问题导致训练效率低下 [3][6] - 基于组优化的方法(如GRPO)是VLA-RL的重要技术路径,但仍面临多轮轨迹推理计算成本高、对失败轨迹信息利用低效的挑战 [6] - 研究团队提出自我参考学习范式,将监督问题的核心从“如何获取专家标签”转变为“如何从自身成功经验中提取渐进式奖励” [9] - 核心贡献包括:1)提出SRPO框架,缓解奖励稀疏性问题并消除对专家示范的依赖 [10];2)提出基于潜在世界表征的渐进式奖励方法,克服传统像素级世界模型的泛化局限 [11];3)实验验证了该方法在基准测试中的SOTA性能、强大泛化能力及真机可迁移性 [12] 技术方案 - SRPO采用“向成功者学习”的方式,核心环节包括:同策略轨迹收集、世界表征提取与聚类、渐进式奖励计算及策略更新 [14][17] - 框架将机器人决策过程形式化为部分可观察马尔可夫决策过程(POMDP),并引入世界模型驱动的任务无关奖励建模机制,为失败轨迹提供渐进式奖励信号 [18][19] - 奖励建模方法分为三步:1)将轨迹观察序列编码为世界模型潜空间表征 [20];2)对成功轨迹的潜在表征进行聚类,获得代表性中心以捕捉关键行为模式 [21];3)计算失败轨迹表征到最近成功中心的距离,并通过批次归一化将其转化为0到1之间的渐进式奖励 [22][23] - 策略优化使用PPO风格的裁剪目标函数,并添加KL散度正则项以保持策略稳定性,利用世界进展奖励替代传统任务特定奖励来计算优势估计 [24][26] 实验结果 - 在LIBERO基准测试中,仅使用第三视角图像和语言指令的SRPO模型取得了99.2%的平均成功率,超越了众多依赖腕部视角、本体感知、3D输入等更复杂输入的模型 [29][30] - 具体而言,仅用200步强化学习,模型成功率从初始的48.9%飙升至99.2% [29] - 在更具挑战性的LIBERO-Plus泛化测试中,SRPO带来的性能提升高达167%,即便未使用任何泛化场景数据进行训练,其性能也超越了经过15万步监督学习的基线模型 [31][32] - 在训练效率方面,对于LIBERO长时序任务,初始模型One-shot SFT成功率仅17.3%,SRPO仅用219步即提升至98.6%,相比同期GRPO性能提升15.3%,相较15万步的full-shot SFT模型性能提升12.9% [36] - 在真实机器人测试中,将SRPO的奖励建模应用于开源模型,在五个真机任务上,模型成功率相对SFT基线分别提升了66.8%和86.7% [39] - 此外,SRPO训练后的模型能够自主探索出专家轨迹中不存在的新路径与抓取姿态,展现了超越示范的创造性 [42] 潜在价值与行业意义 - 研究发现,SRPO可以作为Physical Intelligence公司提出的RECAP方法的零成本替代方案,后者需要针对每个任务收集数据并微调价值模型,而SRPO无需任何任务微调即可实现相似的价值曲线趋势 [45][46][54] - 该方法标志着机器人学习从依赖外部专家数据的“模仿”阶段,向利用自身成功经验和物理世界常识进行“创造”和“自主”学习的范式转变 [56] - SRPO为VLA强化学习开辟了一条无需昂贵数据标注、复杂奖励设计或密集专家示范的新路径,有望降低机器人智能化的开发门槛和成本 [56]
AI大家说 | 重磅嘉宾齐聚,近期Dwarkesh Podcast都聊了些什么?
红杉汇· 2025-12-11 08:04
文章核心观点 - 文章通过总结Dwarkesh Podcast中多位AI行业领袖的深度访谈,揭示了当前AI技术发展范式的关键转变、未来AGI的形态构想以及行业竞争格局的演变趋势[2] Ilya Sutskever的观点 - 认为无脑堆算力的“暴力美学”时代已经翻篇,预训练开始式微,数据快用光了,后续发展更依赖研究直觉,回到了需要“拼品味、拼直觉”的手搓时代[5] - 提出“情绪”是进化赋予人类的精准价值函数,让AI拥有“情绪”或“直觉”是通往真正智能的必经之路[6] - 认为真正的AGI更像一个“15岁的天才少年”,学习能力极强,并且未来智能体可以“合并智能”,瞬间获得海量经验[7] Satya Nadella的观点 - 提出模型厂商可能遭遇“赢家诅咒”,模型作为可替换的计算部件非常脆弱,而掌握“场景权”和用户数据流更为关键,微软通过将AI深度集成到Office和GitHub等应用来巩固优势[10] - 指出GitHub的未来定位是“AI智能体的总部”,通过控制代码仓库来管理由不同AI生成的代码,从而掌握AI时代的管理权[11] - 预测SaaS模式将终结,未来将转向为AI Agent提供“数字实体”、身份认证、安全环境和云端电脑等基础设施,并按AI“员工”数量或资源消耗收费[12][13] Andrej Karpathy的观点 - 认为当前大型语言模型是通过预训练模仿互联网数据产生的“幽灵”,拥有知识但缺乏肉体直觉和常识,并非像动物一样进化而来[16] - 批评强化学习效率极低,其奖励信号如同“透过吸管吸取监督信号”,无法对模型复杂的推理步骤提供精细反馈,导致幻觉和逻辑问题[17] - 提出未来AGI的“认知核心”可能只需10亿参数,主张将记忆与认知剥离,知识应存储于外部而非全部记在模型内部[18] 图灵奖得主Sutton的观点 - 指出当前LLM只是在模仿人类语言,缺乏对“客观真相”的追求,没有目标的系统只能称为“行为系统”而非“智能系统”[21] - 强调生物界不存在监督学习,未来的AI应像野兽一样从“体验流”中通过尝试-反馈来学习,而非依赖人类标注的数据[21] - 将AI的诞生视为宇宙从“复制时代”进入“设计时代”的第四道门槛,是人类首次创造出原理可知、可被随意修改的智能体,是宇宙级的质变[22] Sergey Levine的观点 - 认为机器人不需要全知全能的世界模型,只需具备为完成具体任务而生的“隧道视野”,强大的目标感本身就是感知过滤器[25] - 提出在物理世界中,“失忆”或“在当下”的不费脑子的快速反应是高级智能的表现,未来机器人架构可能是“健忘”的小脑配合“博学”的大脑[26] - 指出2009年自动驾驶失败的原因是车辆缺乏常识,而当前机器人浪潮的变量在于通过视觉语言模型获得了先验知识,使其能零样本处理边缘情况[27]
南大联合LibLib.ai、中科院自动化所,共同提出布局推理与精准编辑「海报设计大模型」PosterCopilot
机器之心· 2025-12-10 16:13
核心观点 - 南京大学等机构联合研发了首个解耦布局推理与多轮可控编辑的图形设计大模型PosterCopilot,旨在解决现有AI设计工具在专业工作流中的核心痛点,构建智能设计助手 [2] - 该模型通过创新的三阶段训练策略和生成式智能体架构,实现了专业级的版式生成、多轮精细化编辑及从灵感到素材的自动化落地,并在多项评测中全面超越现有商业与学术竞品 [14][34][35] 行业痛点与现有方案短板 - 当前以文生图模型为代表的AI工具无法处理分层结构,导致用户素材失真且缺乏精细化控制,难以融入专业工业设计流程 [6] - 现有的多模态布局模型存在四大根本性缺陷:1) 将连续坐标量化为离散Token,破坏了几何连续性,导致对齐错误与比例失调;2) 训练缺乏视觉反馈,模型处于“盲推”状态;3) 强迫模型向单一真值回归,扼杀了布局多样性与创造力;4) 不支持图层级迭代编辑,修改时“牵一发而动全身” [8][10][12] 解决方案:PosterCopilot框架与训练 - 提出渐进式三阶段训练策略,将布局生成从回归问题转化为分布学习与强化学习结合的范式 [14][15] - **阶段一(PSFT)**:通过引入高斯噪声扰动,让模型学习坐标分布,修复因Token化导致的几何空间扭曲 [15] - **阶段二(RL-VRA)**:引入基于DIoU和元素保真的奖励信号,修正元素重叠和比例失调等“幻觉”问题 [15] - **阶段三(RLAF)**:利用美学奖励模型进行偏好对齐,鼓励模型探索比训练数据真值更具视觉冲击力的布局方案 [15] - 构建了包含16万张专业海报、总计260万个图层的高质量分层数据集,通过OCR辅助技术解决了图层过度碎片化问题 [32] 核心功能与智能工作流 - **生成式智能体架构**:模型包含“接待模型”和“T2I模型”,可将用户抽象构思自动拆解为详细规划,并生成精准提示词以驱动素材生成,实现从灵感到物料的无缝转化 [16][17] - **全素材海报生成**:当用户提供完整素材时,模型专注于布局推理,进行符合美学规律的精准排列,并保障用户素材零失真 [21] - **缺素材智能补全**:在素材缺失的冷启动场景下,能理解设计意图,自动生成风格统一的背景或前景装饰层 [23] - **多轮精细化编辑**:支持精准单层编辑(如仅更换模特发色),同时完美“冻结”其他非编辑区域,打破了传统模型无法局部修改的限制 [31] - **全局主题迁移**:可将海报主体(如从“棒棒糖”切换为“冰淇淋”)及相关元素进行替换,同时保留原有排版骨架 [28] - **智能尺寸重构**:只需更改画布尺寸参数,模型即可根据新长宽比智能重新推理布局,一键适配不同媒体版面 [29] 性能表现与评测结果 - 模型以Qwen-2.5-VL-7B-Instruct为骨干,在涵盖布局合理性、文本可读性、素材保真度等六大维度的评测中表现卓越 [34] - **人工评测综合胜率**:对比微软Microsoft Designer、Nano-Banana及学术界SOTA模型(如CreatiPoster、LaDeCo),平均胜率超过74% [35] - **详细指标胜率**:在与其他主流模型的对比中,PosterCopilot在各项关键指标上均取得高胜率,例如在布局合理性上对Qwen-2.5-VL-72B胜率为96.8%,对Creatiposter胜率为92.8% [37] - **GPT-5评测**:在GPT-5的打分中,PosterCopilot在布局合理性和风格一致性上均大幅领先Qwen-VL-2.5-72B和Gemini 2.5 Pro [37] 技术落地与产业意义 - 该研究已获得华为-南京大学鲲鹏昇腾科教创新孵化中心支持,并完成了对国产昇腾算力平台的适配与部署,推动了国产AI设计技术的落地 [3] - 该框架为智能设计工具树立了新基准,通过让大模型掌握专业设计师的“图层思维”,为未来AI辅助创意工作流提供了新范式 [40]
告别专家依赖,让机器人学会自我参考,仅需200步性能飙升至99.2%
机器之心· 2025-12-10 13:10
核心观点 - 复旦大学、同济大学与上海创智学院的联合研究团队提出了一种名为自参考策略优化(SRPO)的新框架,旨在解决视觉语言动作(VLA)模型在机器人操作任务中依赖昂贵专家数据和强化学习奖励稀疏的核心瓶颈 [3] - SRPO框架通过构建内生的自参照评估机制,利用模型自身生成的成功轨迹作为参照来评估和引导失败尝试,从而实现了无需外部专家数据注入和免除任务特定奖励工程的自适应策略优化 [3][8] - 该方法在多个基准测试中展现出卓越性能:在LIBERO榜单上以99.2%的成功率刷新SOTA,在LIBERO-Plus的泛化任务上性能暴涨167%,并能大幅提升开源模型的真机表现 [3] 动机与贡献 - 当前VLA模型性能严重依赖成本高昂的专家示范数据,且存在“示范偏差”,性能难以突破人类上限;而强化学习则常因“奖励稀疏”问题,让机器人无法高效从失败中学习 [3] - 基于组优化的强化学习方法(如GRPO)是VLA-RL的重要技术路径,但仍面临多轮轨迹推理计算成本高、对失败轨迹信息利用效率低的挑战 [6] - 研究团队提出自我参考学习范式,将监督问题的核心从“如何获取专家标签”转变为“如何从自身成功经验中提取渐进式奖励” [8] - 主要贡献包括:1)提出SRPO框架,缓解奖励稀疏性,消除对专家示范或任务特定工程的依赖;2)提出基于潜在世界表征的渐进式奖励方法,克服传统像素级世界模型的泛化局限;3)实验验证了方法在基准测试中的SOTA性能、强大泛化能力及真机可迁移性 [11][12] 技术方案 - SRPO框架通过“向成功者学习”的方式运作,核心环节包括:同策略轨迹收集、世界表征提取与聚类、渐进式奖励及策略更新 [14][16] - 技术上将机器人决策过程形式化为部分可观察马尔可夫决策过程(POMDP),其核心创新在于引入世界模型驱动的、任务无关的奖励建模机制,为失败轨迹提供渐进式奖励信号 [18] - 奖励建模方法:将轨迹编码为世界模型潜空间表征,对成功轨迹表征进行聚类获得代表性中心,通过计算失败轨迹表征到最近成功中心的距离来生成渐进式奖励 [19][20] - 策略优化集成:使用世界进展奖励替代传统任务特定奖励来计算优势估计,并采用PPO风格的裁剪目标函数,添加KL散度正则项以保持策略稳定性 [21][23][24] 实验结果 - **LIBERO基准性能**:SRPO仅用200步强化学习,将基线模型OpenVLA *-One的成功率从48.9%提升至99.2%,刷新SOTA [27][28] - **泛化能力**:在更具挑战的LIBERO-Plus泛化测试中,SRPO带来的性能提升高达167%,即便未使用任何泛化场景数据进行训练,其性能仍超越监督微调(SFT)模型 [30][31] - **训练效率**:对于LIBERO长时序任务,初始One-shot SFT模型成功率仅17.3%,SRPO仅用219步即提升至98.6%,相比GRPO性能提升15.3%,相较150k步的full-shot SFT模型性能提升12.9% [34] - **真机验证**:将SRPO的奖励建模应用到真实环境,在五个真机任务上,使开源模型和-fast模型的成功率相对SFT基线分别提升66.8%和86.7% [37][41] - **激发创造性**:SRPO训练后的模型能够自主探索出多种专家轨迹中不存在的新路径与抓取姿态,表明其能激发机器人超越示范、自主探索新策略 [38] - **零成本替代方案**:SRPO被证明是Physical Intelligence公司RECAP方法的零成本替代方案,无需针对每个任务收集数据和微调价值模型,即可获得高度相似的价值曲线趋势 [42][49] 行业意义与潜力 - SRPO框架标志着机器人学习从“模仿”走向“创造”,从“依赖”走向“自主”,为VLA强化学习开辟了一条新路径 [51] - 该方法通过利用模型自身的成功经验与物理世界常识实现性能跃迁,有望告别昂贵的数据标注和复杂的奖励设计,降低机器人智能化的门槛与成本 [51] - 该技术展示了在无需密集专家示范、人工奖励工程或训练价值模型的情况下,实现机器人操作性能显著提升的潜力,对推动具身智能和机器人行业的实际应用具有重要价值 [3][51]
随到随学!端到端与VLA自动驾驶小班课正式结课
自动驾驶之心· 2025-12-10 03:00
行业技术发展趋势 - 2023年是端到端自动驾驶量产的元年,2024年将是其量产的大年,目前头部新势力和主机厂均已实现端到端量产 [1] - 工业界存在两种主要技术范式:一段式(如UniAD,从传感器输入直接建模自车轨迹)和二段式(基于感知结果进一步输出自车及他车轨迹) [1] - 自2023年以来,一段式端到端技术发展迅速,衍生出基于感知、世界模型、扩散模型及视觉语言模型(VLA)等多种方法 [3] - 主流自动驾驶企业,包括智驾方案供应商和车企,均在发力端到端自动驾驶的自研与量产 [3] - 基于视觉语言模型(VLA)的端到端方法被认为是目前该领域的皇冠,上限高且难度大,因此业内招聘需求也最为旺盛 [12] 课程核心内容与结构 - 课程旨在系统讲解端到端与VLA自动驾驶,内容涵盖BEV感知、视觉语言模型、扩散模型、强化学习等前沿技术栈 [5] - 第一章介绍端到端算法的发展历史、概念起源、从模块化到端到端的演进,以及一段式、二段式和VLA范式的优缺点与适用场景 [8] - 第二章重点讲解端到端涉及的背景知识,包括大语言模型、扩散模型、强化学习及BEV感知,这些被认为是未来两年求职面试的高频技术关键词 [8][9] - 第三章聚焦二段式端到端,解析其定义、出现原因,并讲解经典算法PLUTO、CVPR'25的CarPlanner及最新的Plan-R1等工作 [9] - 第四章作为课程精华,深入讲解一段式端到端的各个子领域:基于感知的UniAD、基于世界模型、基于扩散模型以及基于VLA的方法 [10] - 第五章设置RLHF微调大作业,进行实战演练,内容包括预训练与强化学习模块搭建,该技能可迁移至VLA相关算法 [11][13] 关键技术详解与实战案例 - 基于感知的一段式方法将讲解奠基之作UniAD、地平线VAD以及CVPR'24的PARA-Drive [12] - 基于世界模型的方法将讲解AAAI'25的Drive-OccWorld和复旦团队的OccLLaMA,世界模型技术方向热门,应用广泛,包括场景生成、端到端驾驶和闭环仿真 [12] - 基于扩散模型的方法将讲解业内应用广泛的DiffusionDrive、Diffusion Planner和吉大的DiffE2E,并配有Diffusion Planner实战,扩散模型用于多模轨迹预测以更好适应环境不确定性 [12] - 基于VLA的方法将讲解小米的ORION、慕尼黑工大的OpenDriveVLA以及最新的ReCogDrive,并以小米ORION(截至2025年7月已开源推理和评测模块)作为实战案例 [12] - 课程第二章将详细拆解多项基础技术:从Transformer扩展到视觉Transformer,讲解CLIP和LLaVA;详解BEV感知在3D检测、车道线、OCC、轨迹预测与规划中的应用;讲解扩散模型理论;以及VLM相关的强化学习技术如RLHF和GRPO [11] 课程目标与受众要求 - 该课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端技术在工业界的落地 [14] - 期望学员学完后能达到具备1年左右经验的端到端自动驾驶算法工程师水平 [16] - 学员需自备GPU,推荐算力在RTX 4090及以上;需具备一定的自动驾驶领域基础,熟悉基本模块;了解transformer大模型、强化学习、BEV感知等基本概念;具备概率论、线性代数基础及Python和PyTorch编程能力 [16] - 课程收获包括:掌握涵盖一段式、两段式、世界模型、扩散模型等的端到端技术框架;对BEV感知、多模态大模型、强化学习、扩散模型等关键技术有更深刻理解;可复现扩散模型、VLA等主流算法框架;能够将所学应用于实际项目设计 [16]
端到端落地小班课:核心算法&实战讲解(7个project)
自动驾驶之心· 2025-12-10 03:00
行业招聘与技能需求趋势 - 自动驾驶行业招聘需求正发生变化,两年前热门的感知岗位需求进一步收缩,当前需求较高的方向集中在端到端、VLA(视觉语言动作模型)、世界模型等领域 [2] - 头部玩家已验证端到端技术路径可行,其他车企正跟进投入资源,从模型优化、场景优化、数据优化到下游的规划兜底方案 [2] - 市场对候选人的技术要求更广,涉及导航信息引入、强化学习调优、轨迹建模与优化等具体量产经验,但目前候选人往往只精通部分领域 [2] 端到端自动驾驶技术核心 - 端到端系统正成为主流,其核心在于合并感知任务并使规控(规划与控制)算法学习化,取代传统的感知、地图、规控等多模块分立系统 [7] - 技术框架主要分为两段式与一段式:两段式框架涉及感知与PNC(规划、导航与控制)的信息传递;一段式框架可实现信息无损传递,性能通常更优,具体方案包括基于VLA和基于扩散模型的方法 [8][9] - 导航信息是关键要素,起引导、选路、选道作用,其在地图中的编码与嵌入方式是发挥效力的重点 [10] - 纯模仿学习存在局限,需结合强化学习以处理人类驾驶风格差异和罕见场景,使系统学习因果关系并实现泛化 [11] - 量产落地需规划兜底方案,通过时空联合规划等后处理逻辑对模型输出轨迹进行平滑优化,以保证稳定可靠 [13] 量产实践与课程内容映射 - 面向量产的端到端实战涉及多个核心算法,包括:一段式/两段式端到端、导航信息量产应用、开闭环强化学习、扩散模型+强化学习、自回归+强化学习、时空联合规划等 [2] - 量产经验分享涵盖数据、模型、场景、规则等多视角,旨在提供解决实际问题的工具与策略,以快速提升系统能力边界 [14] - 相关实战课程设计为期三个月,从任务概述、算法框架、RL算法、轨迹优化到兜底方案与经验分享,层层展开 [2][7][8][9][10][11][12][13][14]
极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」
新浪财经· 2025-12-09 18:23
大会概况与核心理念 - 极客公园创新大会2026于12月6日-7日在北京798艺术区举办 大会主题为“进程由我 On The Loop” 强调在AI时代人的判断和行动的稀缺性 着眼于如何主动选择未来[2] - 大会已连续举办16年 见证了大量全球及中国顶尖创新者的亮相 现已成为由内容社区与早期投资构成的创业者生态平台 其目标是激发创新中的“变量” 推动“非共识”成为新“共识”[2] - 大会汇聚四十余位全球创新者 通过主舞台演讲、4场“小场深谈”及“AI产品快闪”等形式探讨技术趋势与产品创新 并现场发布“2025年度极客最爱好物”、“InnoForce 50”年度榜单[3] AI技术发展趋势与前沿观点 - AI被视为人类能力的放大器 能帮助创作者抵达未曾去过的地方并创作未曾想象过的东西 成熟团队正以“二次创业”姿态投身AI浪潮[5] - 物理AI是重要发展方向 AI将从数字空间向物理世界延伸 未来语言模型将与直接从物理世界感知、规划、推理的模型以及执行运动控制的模型相结合[6] - 机器人领域尚未达到“GPT时刻” 仍处于“技术路径选择阶段” 未来发展周期较长 有观点认为以视频模型为骨干的world model路线在解决跨实体问题上难度可能更低[15] - 在AI手机领域 GUI Agent被视为长尾场景的兜底技术手段 公司更倾向于通过Agent to Agent实现生态互联[15] AI在各行业的产品化应用与探索 - 在影像创作领域 公司70%以上的营收来自自主开创的细分品类 其核心价值观是开辟新市场、解决未攻克难题、创造独有新价值 而非击败竞争对手[8] - 在人机关系领域 未来目标是打造具备情感能力的机器人 使其成为传递温暖的“爱的使者” 实现从智能工具到情感共生的跨越[10] - 在医疗健康领域 AI医生蓝图旨在实现对用户的全程健康陪伴 实时监测身体状况、习惯及治疗数据 海量健康数据将推动临床医学形成全新发展范式[13] - 在播客领域 公司秉持善意与中性的采访原则 目标是在半年到一年内成为中国各行业精英人士面向公众表达时的首选[11] 细分领域深度讨论与产品展示 - 大会设置4场“小场深谈” 聚焦个体、关系、硬件与空间四大维度 深度探讨AI时代的个体进化、人机关系新形态、具身智能落地及AI硬件机遇与挑战[17][19][21] - “AI产品快闪”环节展示了多款近期发布或重大更新的创新产品 涵盖笔记工具、AI营销Agent、AI相机、AI模特拍摄、智能健康项链、AI专家团队及个人办公助手等领域[25]
AI需要能自我改进!AI圈越来越多人认为“当前AI训练方法无法突破”
华尔街见闻· 2025-12-09 09:49
核心观点 - 行业内部分资深AI开发者与研究人员质疑当前主流AI技术路径的可持续性 认为其无法实现生物学、医学等领域的重大突破且难以避免简单错误 这引发了对未来数十亿美元投资方向的质疑 [1] - 尽管存在技术局限 当前AI在写作、设计、购物和数据分析等任务上的应用已推动主要公司收入实现数倍增长 [1] 技术路径争议与挑战 - 部分AI领袖(如Anthropic首席执行官Dario Amodei和OpenAI首席执行官Sam Altman)对通过扩展现有技术实现AGI持乐观态度 [1] - 以亚马逊AI研究负责人David Luan、OpenAI前首席科学家Ilya Sutskever及强化学习之父Richard Sutton为代表的质疑者认为 当前训练模型的方式不可持续 实现类人AI可能需要全新的开发技术 [2] - 核心争议在于AI能否实现“持续学习” 即像人类一样在部署后从新经验中持续获取并应用新知识 而非依赖静态的、人类专家创建的大规模数据集进行训练 [1][2] - 当前一些最先进的AI训练方法被指无法帮助模型良好地“泛化” 即处理未曾遇到过的任务 [2] 技术突破的尝试 - 在NeurIPS大会上 多篇重要研究论文探讨了“持续学习”主题 例如麻省理工学院和OpenAI研究人员提出的“自适应语言模型”新技术 [3] - 该技术旨在使大模型能利用现实世界中遇到的信息(如一篇新医学文章)获取新知识或提升新任务表现 方法包括将新内容改写为问答用于自我训练 [3] - 部分研究人员认为 这种持续自我更新的能力对能产生科学突破的AI至关重要 [3] 当前技术局限与商业影响 - 技术局限已拖慢企业客户对AI代理等新产品的采购 模型在简单问题上持续犯错 AI代理在缺乏大量人工确保的情况下往往表现不佳 [3] - 若质疑者的观点正确 可能令行业明年在强化学习等流行技术上的数十亿美元投资面临风险 包括支付给Scale AI等数据服务公司的费用 [4] - Scale AI公司发言人对此持不同意见 认为使用持续学习的AI仍需要从人类生成数据及其强化学习产品中学习 [4] 行业收入与增长现状 - 尽管存在技术挑战 主要AI公司收入增长迅猛 OpenAI预计2024年收入将增长两倍以上至约130亿美元 Anthropic预计收入将增长逾10倍至约40亿美元 [1] - 三年前几乎没有收入的OpenAI和Anthropic 如今已从聊天机器人和AI模型销售中获得可观营收 [5] - 开发AI应用的其他初创公司(如编码助手Cursor)预计未来一年将集体产生超过30亿美元的销售额 [5] 行业竞争格局 - 大型开发者之间的AI竞赛激烈 谷歌的技术在某些指标上已超越竞争对手 导致OpenAI首席执行官Sam Altman告知公司准备迎接“艰难氛围”和“暂时的经济逆风” [6] - 谷歌取得进步的原因包括改进了用于模型预训练的数据组合 并找到了更好管理数千个自研张量处理单元(TPU)的方法 减少了硬件故障的干扰 [6] - OpenAI领导层表示已能类似地改进预训练流程 开发出代号为Garlic的新模型 并相信未来几个月能与谷歌竞争 [6]