模仿学习 - 财报，业绩电话会，研报，新闻 - Reportify

模仿学习

搜索文档

港大&清华最新！仅通过少量演示，实现动态物体操作的强泛化能力！

具身智能之心· 2025-08-21 08:03

点击下方卡片，关注" 具身智能之心 "公众号作者丨 Zhuoling Li等编辑丨具身智能之心本文只做学术分享，如有侵权，联系删文 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。出发点与背景动态物体操作（如传送带装配线上的产品处理）是提升工业制造效率的关键，但传统方法需针对不同场景进行专门设计，存在耗时、泛化能力弱等问题。模仿学习通过专家演示训练机器人策略，是解决该问题的潜在方案，但现有方法依赖大量演示数据，而动态场景的演示收集成本极高。这里旨在探索：仅通过少量演示，能否实现动态物体操作的强泛化能力？工作的核心贡献动态物体操作的挑战与现有方法局限提出基于熵的理论框架，量化模仿学习的优化过程，指导低数据需求的泛化操作系统设计；开发 GEM（Generalizable Entropy-based Manipulation）系统，结合目标中心几何感知与混合动作控制，实现动态物体操作的强泛化；在真实场景（食堂餐具收集）中验证了GEM的有效性，无需现场演示即可实现97%以上的成功率 ...

基于熵的理论框架

基于熵的理论框架

25年8月8日理想VLA体验分享(包含体验过特斯拉北美FSD的群友)

理想TOP2· 2025-08-12 21:50

自动驾驶体验对比 - 理想VLA在园区内主副驾无人场景下表现优秀具备基于语言指令的精准控制能力但受限于封闭环境无法验证泛化能力 [1] - 与特斯拉FSD对比北美用户认为FSD在自然度和拟人化驾驶方面更胜一筹接近自动驾驶水平而理想VLA在顺义路况下仍有明显"机器感" [1] - 公开道路测试显示在非高峰期的顺义路况下 VLA在安心感/舒适度/效率上较L系列VLM有显著提升但窄路和村庄场景表现欠佳 [2] 核心用户体验差异 - 红绿灯刹停过程表现出色丝滑无顿挫感显著优于普通驾驶者和多数竞品形成明显代际差体验 [3] - 变道/超车等常规操作难以体现差异化但刹车品质成为最易感知的优势项类比"老司机"驾驶水准 [4] - 语音控车功能具备路线记忆和个性化设置能力在L4实现前可形成独特用户体验优势 [10] 技术迭代路径 - VLA采用强化学习范式相比VLM的监督学习具备四大迭代方向：仿真数据优化/芯片算力提升/模型参数量增长/语音工程优化 [7] - 强化学习在自动驾驶领域优势显著奖励函数明确(安全/舒适/效率) 可针对具体场景持续优化突破模仿学习的炼丹局限 [8][9] - 当前运行4B参数模型未来7B/14B乃至100B参数模型将带来能力飞跃芯片算力提升是关键支撑 [7] 产品化逻辑 - 技术团队需平衡模型能力与用户体验互联网时代产品体验优先 AI时代需兼顾技术突破与体验优化 [10] - 自动驾驶首要目标是超越80%普通驾驶者逐步向95%水准迈进刹车品质成为首批达标的关键指标 [4]

理想汽车(US:LI)

新能源汽车

新能源汽车

质疑VLA模型、AI完全不够用？有从业者隔空回应宇树王兴兴

第一财经· 2025-08-11 22:51

2025.08. 11 本文字数：1430，阅读时长大约3分钟作者 | 第一财经刘佳在世界机器人大会上,宇树CEO王兴兴一口气提了不少"非共识"。他对 VLA (Vision-Language-Action视觉-语言-动作)模型持怀疑态度, 认为这属于"相对傻瓜式架构"；他还说机器人行业对数据关注度有点太高了，包括灵巧手在内的硬件虽然不够好但够用，行业最大的问题在于具身智能的AI完全不够用。王兴兴的观点在业内持续引发讨论。今日世界机器人大会上，记者留意到，国家地方共建人形机器人创新中心首席科学家江磊近20分钟的演讲中，3次提到了王兴兴。对于王兴兴关于"硬件足够用、大模型不够用"的观点，江磊分享了与阿里、华为等企业交流的体会："我们是选不到一个很好的身体"，并坦承今天行业确实还用不上全参数模型，机器人的大脑、小脑、肢体需要深度协同；王兴兴质疑VLA并尝试用视频生成驱动机器人任务，江磊承认"感知-认知-决策-执行的闭环尚未闭合"，呼吁重构VLA模型，寻求新的解决范式；王兴兴还提到，机器人在RL（强化学习）的Scaling law（尺度定律）是非常值得做的方向，江磊认同表示，强化学习跟模仿学习 ...

干货 | 基于深度强化学习的轨迹规划（附代码解读）

自动驾驶之心· 2025-07-30 07:32

自动驾驶技术中的强化学习应用核心观点 - 强化学习在自动驾驶领域从机器人早期阶段已有应用，但受限于训练效率低和复杂度高，工业界普及度有限随着AlphaGo、ChatGPT RLHF和DeepSeek-O1等技术的突破，强化学习在时序决策任务（如轨迹规划）中展现出潜力 [3][7] - 自动驾驶的强化学习需结合模仿学习、逆强化学习等技术，通过动态reward设计（安全性/舒适性指标）和闭环训练解决环境交互问题 [8][62] 技术范式分类 1 基础学习概念 - **监督式学习**：用于感知任务（目标检测），通过固定训练集优化模型输出与监督信号的均方误差 [5] - **模仿学习**：以专家动作为监督信号，扩展至短时序轨迹生成，是端到端自动驾驶的主流方法 [6] - **强化学习**：通过环境交互的延迟反馈（如轨迹规划中的碰撞避免）优化策略，依赖动态reward信号 [7] - **逆强化学习**：从专家数据中学习reward-model，解决自然语言或驾驶舒适性等难以定义的奖励问题 [8] 2 核心算法框架 - **值优化方法**：包括动态规划、蒙特卡洛（统计大数原理）、时序差分（SARSA/Q-Learning）及混合算法（GAE） [29][30][33][44] - **策略优化方法**： - **REINFORCE**：蒙特卡洛估计策略梯度 [50] - **Actor-Critic**：结合策略网络与价值函数拟合 [51] - **PPO**：通过clip函数简化TRPO的约束条件，提升训练稳定性 [57] - **GRPO**：DeepSeek提出的轻量化算法，利用在线group样本替代value-model [59] 自动驾驶场景关键技术 - **预训练**：策略网络与价值网络通过模仿学习初始化，提升训练收敛性 [60] - **概率建模**：自回归/Diffusion模型对action多步rollout，通过环境反馈优化策略 [61] - **闭环训练**：需建模多智能体博弈（他车动态响应），避免静态环境导致的策略偏差 [62] - **端到端融合**：结合NeRF/3DGS生成动态环境感知数据，实时更新传感器输入 [63] 行业应用趋势 - 技术社区活跃度显著提升，涉及大模型、VLA、BEV感知等30+技术栈，近4000人参与交流，300+企业与科研机构加入 [65]

逆强化学习

监督式学习

自动驾驶轨迹规划

逆强化学习

监督式学习

自动驾驶轨迹规划

端到端自动驾驶万字长文总结

自动驾驶之心· 2025-07-23 17:56

端到端自动驾驶算法研究背景 - 传统自动驾驶算法采用模块化流程：感知→预测→规划，每个模块输入输出不同，存在误差累积问题且感知信息存在损失[3][5] - 端到端算法直接输入原始传感器数据并输出路径点，避免了模块间误差传递，但面临可解释性差和优化困难等挑战[3][7] - 传统算法优势在于调试便捷和可解释性，而端到端方法在信息完整性方面表现更优[3] 端到端算法技术范式与挑战 - 当前主流采用模仿学习框架，包括行为克隆和逆优化控制两种方法，但难以处理corner case且真值数据存在噪声[7][8] - 评估方法分为开环（固定场景）和闭环（动态交互）两种，因果混淆现象是典型挑战[8] - 技术难点还包括输入模态多样性、多任务学习、知识蒸馏及安全保证等问题[8] ST-P3算法实现细节 - 采用时空学习框架，明确设计感知/预测/规划三模块，创新点包括自车中心累积对齐和双路预测机制[10][11] - 感知模块通过LSS范式生成BEV空间表征，考虑RO/PG角不为零的情况并进行时序融合[13] - 规划阶段引入红绿灯编码优化轨迹，代价函数综合距离/加速度/终点偏差等指标[14][15][16] UniAD系统架构 - 全Transformer框架以规划为导向，包含MapFormer/MotionFormer/OccFormer/Planner等模块[23] - 创新性引入五个代理任务提升性能，通过TrackFormer实现动态Agent跟踪[25][26] - 规划模块整合转向灯信号和自车特征，基于碰撞优化输出最终轨迹[31] 矢量化方法VAD - 将栅格表征转为矢量形式保持几何特性，计算速度优势明显[32] - 通过Map Query/Agent Query分别预测地图矢量和运动矢量，与自车状态交互完成规划[33] - 引入三类约束条件：碰撞约束/边界距离约束/方向约束，通过成本抑制机制优化[38][39][40] 概率化表征方法 - 采用概率分布替代确定性轨迹，解决多模态场景下的折中轨迹问题[42] - 离散化动作空间为4096种规划token，通过场景交互选择最优概率轨迹[43] - GenAD工作采用VAE式生成建模，训练时学习轨迹分布，推理时采样生成[44][46] 多模态规划进展 - 英伟达研究结合多模态规划与多模型学习，增加基于规则的教师模型蒸馏损失[49][52] - 监督信号涵盖无责任碰撞/可行驶区域合规/驾驶舒适性等指标[52] - 当前技术仍受限于数据驱动特性，对异常案例处理能力有待提升[53]

端到端自动驾驶

多模态规划

Autonomous Driving

端到端自动驾驶

多模态规划

Autonomous Driving

分层VLA模型与完全端到端VLA哪个方向好发论文？

自动驾驶之心· 2025-07-23 15:32

自动驾驶技术演进 - 传统模块化架构存在错误累积效应和信息损失问题，依赖人工规则难以应对复杂场景 [2] - 纯视觉端到端模型简化了架构但存在黑箱问题、因果混淆和泛化能力受限等瓶颈 [2] - VLA（视觉-语言-行为）模型通过引入语言中间表征，显著提升可解释性、常识推理和长尾场景处理能力 [2][3] VLA技术优势 - 语言桥梁作用：模型可输出自然语言解释决策依据（如"减速因行人可能横穿"），增强透明度 [2] - 知识注入：利用LLM预训练的世界知识理解施工区域等复杂场景 [3] - 交互革新：支持自然语言指令（如"找最近充电站"），实现人性化交互 [3] 科研辅导课程设计 - 课程周期：12周科研+2周论文指导+10周维护期，覆盖创新点挖掘至投稿全流程 [6][12] - 教学资源：提供nuScenes/Waymo等数据集及VAD/UniAD等开源代码基准 [16][17] - 论文产出：学员可完成初稿，优秀者获推荐信，结业证书为升学就业加分 [15] 目标学员与能力要求 - 面向群体：自动驾驶领域本硕博学生、留学申请者及AI从业者 [8] - 技术门槛：需掌握Python/PyTorch，建议配备4-8张4090显卡或云服务器 [13] - 学术规范：全勤要求+作业限时提交，剽窃行为将被严格禁止 [13][15] 教学支持体系 - 师资配置：名校教授+行业导师+班主任的"2+1"多师制跟踪辅导 [14][15] - 学习工具：腾讯会议直播与小鹅通回放结合，确保学习灵活性 [19] - 基础补强：提供先修课与1v1面试评估，适配不同基础学员 [13][20] 关键技术文献 - 核心论文：涵盖Senna/SimLingo等VLA模型在闭环驾驶、语言对齐方面的突破 [18] - 研究热点：包括扩散模型驱动方案（DiffusionDrive）与多模态指令生成（ORION） [17][18]

视觉 - 语言 - 行为模型

大语言模型

大型多模态模型

视觉 - 语言 - 行为模型

大语言模型

大型多模态模型

VLA之外，具身+VA工作汇总

自动驾驶之心· 2025-07-14 18:36

具身智能领域研究进展 - 2025年将涌现大量具身智能与视觉动作融合的研究成果，涵盖机器人操作、全身控制、sim2real迁移等方向，其中字节跳动Seed团队提出Chain-of-Action轨迹自回归建模方法[2] - 扩散策略成为主流技术路线，涉及潜在空间强化学习(Steering Your Diffusion Policy)、模态组合扩散(Modality-Composable Diffusion Policy)、响应式噪声中继扩散(Responsive Noise-Relaying Diffusion Policy)等变体[2][3][4] - 单次学习(One-Shot)技术取得突破，包括You Only Teach Once双手机器人操作、FUNCTO工具操作模仿、Human2Robot人机视频配对学习等方案[2][3][5] 机器人操作技术创新 - 灵巧操作领域出现AnyDexGrasp通用抓取系统，学习效率达到人类水平，支持不同手型适配[3] - 触觉融合技术发展显著，包含Adaptive Visuo-Tactile Fusion多感官融合、KineDex触觉运动教学、Tactile Beyond Pixels多模态触觉表征等方案[3][7] - 非prehensile操作取得进展，DyWA动力学自适应模型实现通用化非抓取操作，SPOT基于SE(3)的物体中心轨迹扩散提升操作精度[5][8] 仿真到现实迁移 - sim2real技术出现FetchBot零样本迁移方案，可在杂乱货架实现物体抓取[3] - 世界模型应用广泛，LaDi-WM基于潜在扩散的预测模型、GAF高斯动作场动态模型、World4Omni零样本框架等提升跨域迁移能力[7][9] - 数据生成技术突破，DemoGen合成演示生成、GraspMolmo大规模合成数据生成等方法解决数据效率问题[3][7] 算法架构演进 - 2024年扩散策略持续优化，出现1B参数规模的Transformer扩散策略(Scaling diffusion policy)、Consistency Policy一致性蒸馏加速、One-Step Diffusion单步蒸馏等高效方案[9][11] - 3D表征成为新趋势，3D Diffuser Actor、GenDP 3D语义场、Lift3D 2D升维等方法增强空间理解[9][11] - 多任务学习框架创新，包含MoE-Loco专家混合架构、H3DP三重层次扩散策略、Mamba Policy混合选择状态模型等[5][9] 人机交互技术 - 人类示范利用效率提升，Phantom仅用人类视频训练、ZeroMimic从网络视频蒸馏、HACTS人类协同驾驶系统等方法降低数据依赖[4][5][7] - 跨具身学习取得进展，SHADOW利用分割掩码跨具身迁移、UniSkill跨具身技能表征实现视频模仿[4][6] - 人形机器人技术突破，HumanoidPano全景-LiDAR跨模态感知、Trinity模块化AI系统、Distillation-PPO两阶段强化学习框架等推动发展[5]

机器人操作

机器人操作

用动作分块突破RL极限，伯克利引入模仿学习，超越离线/在线SOTA

机器之心· 2025-07-14 12:08

强化学习与模仿学习结合 - 强化学习在长时间跨度和稀疏奖励任务中表现不佳，探索能力不足[2][3] - 模仿学习通过观察专家行为并模仿策略，适用于状态和动作空间巨大且难以设计奖励函数的场景[4] - 加州大学伯克利分校提出Q-chunking方法，将模仿学习中的动作分块技术引入强化学习[4] Q-chunking方法核心 - 解决两个核心问题：提升探索效率和时间连贯动作序列，实现快速值传播[5] - 使用动作分块实现快速价值回传，并通过时间连贯动作进行有效探索[6] - 在离线数据集上进行100万步预训练，再使用在线数据更新并进行另外100万步训练[6] 方法设计与实现 - Q-chunking扩展Q-learning至时间扩展动作空间，预测连续h步动作序列[15] - 块状策略和块状Q函数实现无偏的h步值传播，消除传统n步回报的离策略偏差[16][17] - 施加行为约束保证时间连贯性，使策略接近离线数据分布[18][19] 实验与性能 - 在6个稀疏奖励机器人操作任务中测试，包括OGBench和robomimic基准任务[23] - QC在离线阶段表现竞争力，在线阶段样本效率高，尤其在cube-triple和quadruple任务中性能远超基线方法[25] - 消融实验显示QC和QC-FQL显著优于n步回报基线方法，突显时间扩展动作空间学习的重要性[27] 动作分块的优势 - QC生成时间上更连贯的动作，状态覆盖和探索效果更好[28] - 定量评估显示QC动作时间连贯性明显高于BFN，解释其更高样本效率[29][32]

Human2LocoMan：通过人类预训练学习多功能四足机器人操控

自动驾驶之心· 2025-07-04 18:27

四足机器人操作技术突破 - 提出跨实体模仿学习系统Human2LocoMan，通过统一人类与机器人动作空间实现多功能操作，在6项家庭任务中成功率平均提升41.9%，分布外场景提升79.7% [5][6] - 开发模块化跨实体Transformer架构(MXT)，支持人类数据预训练与机器人微调，仅用一半机器人数据即可持续优于基线性能 [10][16] - 构建首个涵盖单手/双手模式的四足机器人操作数据集LocoMan，包含300+人类轨迹和150+机器人轨迹，30分钟可采集50条机器人轨迹 [8][25][30] 核心技术架构 - 采用XR头显实现动作映射：人类腕部→机器人末端执行器、头部→躯干、手部→抓手，建立统一参考框架对齐跨实体动作 [11][14] - MXT架构包含实体特定标记器/去标记器与共享Transformer主干，预训练后微调可使OOD场景成功率提升82.7% [16][18][29] - 全身控制器通过零空间投影和二次规划实现多操作模式协调，支持单手/双手模式下工具使用、可变形物体操作等复杂任务 [14][23] 性能验证与行业意义 - 在玩具收集、鞋架整理等任务中，预训练MXT成功率最高达95.8%，任务得分116分，显著优于HIT和HPT基线方法 [27][29][33] - 人类数据预训练使模型在长时序任务中保持83.3%成功率，较基线提升50%，凸显跨实体学习对工业场景的适用性 [29][37] - 系统已开源硬件/数据，为具身智能领域提供首个四足全栈学习方案，推动家庭服务、物流等场景的机器人应用落地 [7][38]

模块化跨实体Transformer（MXT）

LocoMan 机器人

Apple Vision Pro

模块化跨实体Transformer（MXT）

LocoMan 机器人

Apple Vision Pro

卡耐基梅隆大学！Human2LocoMan：通过人类预训练学习多功能四足机器人操控

具身智能之心· 2025-07-03 21:36

四足机器人操作技术突破 - 提出跨实体模仿学习系统Human2LocoMan，通过统一人类与机器人动作空间实现多功能操作，实验显示整体任务成功率平均提升41.9%，分布外场景提升79.7% [4] - 开发模块化跨实体Transformer架构(MXT)，支持人类数据预训练与机器人数据微调，预训练后成功率提升38.6%，分布外场景提升82.7%，且仅需50%机器人数据即可超越基线性能 [8][16] - 构建首个涵盖单手/双手模式的LocoMan操作数据集，包含6类家庭任务如玩具收集、鞋架整理等，30分钟内可收集超50条机器人轨迹和200条人类轨迹 [22][26] 技术创新与系统设计 - 采用XR头显实现人类动作捕捉与机器人视图传输，通过头部动作映射躯干运动扩展工作空间，腕部动作映射末端执行器 [9][12] - 建立统一参考框架对齐人类与机器人动作空间，采用SE(3)6D姿态转换和全身控制器实现协调运动 [12] - MXT架构包含实体特定标记器/去标记器和共享Transformer主干，支持多模态数据联合训练，验证损失比基线低15%-20% [16][34] 性能验证与行业应用 - 在铲取猫砂、倾倒乒乓球等工具使用任务中，预训练MXT成功率达87.5%-95.8%，OOD场景提升25-66.7个百分点 [27][29] - 对比实验显示MXT在数据效率上显著优于HIT和HPT基线，小数据集下成功率仍超70%，长时序任务完成度提升50% [28][32] - 系统已实现抓取/非抓取、可变形物体操作等多样化任务，但需优化头部控制直观性并扩展至机械臂/人形机器人平台 [37][38]

跨实体学习

模块化跨实体 Transformer（MXT）

LocoMan 机器人

Apple Vision Pro

跨实体学习

模块化跨实体 Transformer（MXT）

LocoMan 机器人

Apple Vision Pro