Workflow
强化学习
icon
搜索文档
机器人学习现状!Physical Intelligence内部员工分享(从数采到VLA再到RL)
具身智能之心· 2025-12-21 00:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨 具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多VLA与RL实战项目,欢迎加入国内首个工业级VLA实战课程 : 具身VLA实战与求职教程来啦~ 。 原文链接:https://vedder.io/misc/state_of_robot_learning_dec_2025.html 这次来学习一下 PI 内部人员写的 blog,介绍了很多 robot learning 的现状,而且都是一线的真正经验,很多在一线的同学应该深有感触,说了很多实话,质量很 高,值的精读和学习。不管是对 IL DAgger RL 的看法都是很一手的经验。 接下来请享受这份知识 基本上,目前(2025 年 12 月)所有机器人学习系统都是纯粹的行为克隆(BC,也称模仿学习)系统。人类提供(接近)最优的任务演示,机器学习模型则尝试模 仿这些动作。形式上,策略训练采用监督式方法——给定机器人的状态 (例如摄像头图像、机器人关节角度以及可能的任务描述文本),policy 预测已演示的动作 a 通常是一个动作片段(action chun ...
对话小马智行王皓俊:Robotaxi正进入1到1000的阶段
华尔街见闻· 2025-12-20 13:31
作者 | 周智宇 编辑 | 张晓玲 2025年,全球智驾行业正经历一场范式转移。过去十年,自动驾驶是实验室里的代码游戏,是靠Demo 和PPT堆砌的幻梦;而现在,这门生意正式从虚空坠入实地,开始在财务报表上硬碰硬。 当曾经光环满身的L4独角兽因无法跨越规模生死线而陷入停摆,先行者们已经悄然扣响了盈利的大 门。2025年二季度,百度萝卜快跑在武汉实现收支平衡;11月,小马智行宣布其第七代Robotaxi在广州 实现单位经济模型(UE)转正。 小马智行联合创始人、CFO王皓俊在近期的采访中对华尔街见闻表示,能够在广州实现UE转正,意味 着小马智行在规模上量的过程中,逐渐打磨出一个标准的运营流程,能够赋能给小马智行的合作伙伴。 王皓俊认为,前几年Robotaxi的商业化还更多处于0到1的阶段,现在已经逐渐进入到了一个1到100、1 到1000的阶段。 一张清晰的商业化时间表已经浮出水面:从2025年底冲击千辆级车队,2026年提升至3000辆,到2030年 迈向10万辆规模,Robotaxi将成为人们日常生活的一部分。 商业闭环 这意味着,Robotaxi的竞争主战场已经转移。当单车硬件成本下探至25万人民币的生死 ...
「一脑多形」圆桌:世界模型、空间智能在具身智能出现了哪些具体进展?丨GAIR 2025
雷峰网· 2025-12-20 12:07
" 世界模型解决具身智能相关问题,会不会距离太远? " 作者丨张进 编辑丨 林觉民 在 12 月 13 日举行的第八届GAIR全球人工智能与机器人大会"数据&一脑多形"分论坛上,一场有关"一 脑多形"的圆桌论坛,将整个会场气氛推向高潮,在英诺天使基金 ED 王建明的主持下,浙江大学控制学 院副教授,微分智飞创始人高飞,宁波东方理工大学助理教授金鑫,上海人工智能实验室青年科学家王靖 博三位嘉宾围绕着具身智能、空间智能、世界模型等话题进行了热烈讨论。 通过主持人特有的投资人式、抽丝剥茧的提问,围绕着几位学者的研究和创业方向,我们可以了解到当下 最火热的世界模型、空间智能在具身智能领域的研究进展和细节,从而得以穿透资本笼罩在世界模型、空 间智能的迷雾,看到具身智能当下遇到的挑战与机遇。 01 具身智能技术路线仍未收敛 王建明: 三位学者研究的方向都非常不一样,开场先问一个共性的问题热热场,大家怎么看过去两年具身 智能的发展? 高飞: 现在还没到技术路线收敛的时候,还属于探索阶段,这是好事,有发散才有机会。这波具身智能的 热潮,大家本质期待的还是 AI 结合本体能带来的智能性的飞跃。我认为从发散探索到技术路线收敛、到 ...
最近收到了很多同学关于自驾方向选择的咨询......
自动驾驶之心· 2025-12-19 17:25
自动驾驶领域研究方向与人才需求 - 行业收到大量来自计算机、车辆、自动化和机械方向学生的咨询,显示该领域人才需求旺盛且背景多元 [2] - 对于计算机与自动化背景的学生,行业建议主攻深度学习方向,包括视觉语言模型、端到端自动驾驶和世界模型等前沿领域,这些方向被认为从入门到就业乃至深造均有广阔空间 [2] - 对于机械与车辆工程背景的学生,行业建议可从传统规划与控制、3D高斯泼溅等方向入手,这些方向对算力要求相对较低且更易入门 [2] - 行业指出,新人研究者需要经历大量实践与试错才能形成有价值的创新想法,方法论提升的关键在于广泛阅读论文和积极交流 [2] 前沿与细分技术赛道 - 行业关注的前沿研究方向包括视觉语言模型、端到端自动驾驶、强化学习、3D高斯泼溅和世界模型 [2] - 行业认为开集目标检测、占用网络、小样本/零样本学习等是相对竞争不那么激烈的细分赛道 [2] - 行业提供的论文辅导服务覆盖了广泛的技术方向,包括但不限于端到端、视觉语言模型、世界模型、强化学习、3D目标检测、多传感器融合、3D高斯泼溅、鸟瞰图感知、占用网络、多任务学习、语义分割、轨迹预测、运动规划、扩散模型、流匹配、点云感知、毫米波雷达、单目感知以及车道线/在线高精地图 [3] 学术成果与发表支持服务 - 行业提供的论文辅导服务声称具有很高的中稿率,并已有成果被计算机视觉、人工智能、机器人、自然语言处理等领域的顶级会议和期刊收录,例如CVPR、AAAI、ECCV、CoRL、ICLR、IROS、ICRA、ACL [7] - 服务支持发表的论文级别多样,涵盖自动驾驶顶会/顶刊、中国计算机学会推荐的A/B/C类会议期刊、科学引文索引的一至四区期刊、中科院分区的一至四区期刊、以及工程索引和中文核心期刊 [10] - 服务内容全面,包括论文选题、全流程指导以及实验指导 [6] - 服务范围不仅限于学术论文发表,还扩展至毕业设计论文、申请博士以及竞赛支持 [10] - 服务提供针对不同论文级别的差异化定价 [8]
首个文本到3D生成RL范式诞生,攻克几何与物理合理性
量子位· 2025-12-19 15:20
3DGenR1团队 投稿 量子位 | 公众号 QbitAI 在大语言模型和文生图领域,强化学习 (RL) 已成为提升模型思维链与生成质量的关键方法。 但当我们将目光转向更为复杂的文本到3D生成时,这套方法还会还管用吗? 近期,一项由 西北工业大学、北京大学、香港中文大学、上海人工智能实验室、香港科技大学合作 开展 的研究系统性探索了这一重要问 题。 论文链接: https://arxiv.org/pdf/2512.10949 代码链接: https://github.com/Ivan-Tang-3D/3DGen-R1 强化学习是否能够用于Text-to-3D生成,以加强3D自回归模型的逐步推理与生成过程? 在LLM推理和2D文生图中,RL已经证明可以显著提升CoT推理能力和生成质量。但 3D物体更长、更稠密、更具几何约束 。 因此相关方向研究常面临这几个问题: Progressive Investigation:四个层次拆解Text-to-3D+RL 1. Reward设计层 1. 奖励如何同时刻画语义对齐、几何一致性和视觉质量? 2. 现有RL算法是否适合自回归式3D生成? 3. 缺乏专门考察"3D推理能力 ...
亚马逊AGI负责人离职,强化学习大佬Pieter Abbeel接任
机器之心· 2025-12-19 08:21
亚马逊AGI团队高层人事变动 - 亚马逊AGI团队高级副总裁兼首席科学家Rohit Prasad已官宣离职,其于2013年加入公司,曾参与打造Alexa并领导Nova基础模型开发[1][3] - 亚马逊CEO Andy Jassy在公告中认可Rohit Prasad的贡献,指出其推动Alexa成长为一项每天触达数亿用户生活的服务,并领导创建了Amazon Nova及AGI组织,打造了12个业界领先的基础模型,已被数以万计的企业采用[4] - 随着Prasad离职,亚马逊宣布将AI研发职权进一步向云计算部门集中,成立由AWS实用计算高级副总裁Peter DeSantis统一领导的新组织,直接向Jassy汇报[5] 新任领导层与组织架构调整 - Peter DeSantis于1998年加入亚马逊,曾负责革命性的EC2服务及AWS基础设施,其领导的新部门职能涵盖AGI与AI模型研究、自研芯片计划及量子计算[5][6][10] - 顶尖学者Pieter Abbeel将接手前沿AI模型研究团队的领导工作,其是加州大学伯克利分校教授,学术引用量高达23.1万次,也是机器人公司Covariant的联合创始人[7][8][12][15] - Pieter Abbeel领导的伯克利人工智能研究实验室诞生了至少12位知名AI初创公司创始人,其培养的学生已成为AI界的重要力量[16] 亚马逊的AI战略与行业竞争 - 亚马逊一直在努力打破其在AI产品研发方面掉队的印象,为在与OpenAI、谷歌和Anthropic的竞争中加速追赶,推出了自有的基础模型系列Nova[5] - 亚马逊同时研发了自家的Trainium定制AI芯片,直接与英伟达展开竞争[5] - Prasad的离职是AWS近期人事震荡的延续,过去一年中,AI副总裁Matt Wood与生成式AI副总裁Vasi Philomin等资深管理层相继离开[6] 人才流动与公司观点 - 为应对人才缺口,亚马逊积极吸纳新鲜血液,包括前微软高管Julia White出任首席营销官,以及David Richardson、Joe Hellerstein和Chet Kapoor等技术专家入职[6] - AWS首席执行官Matt Garman反对用AI替代初级员工,认为这是最愚蠢的想法之一,并指出2025年调查显示超过55%的初级开发者在日常工作中使用AI,比例远超资深同行[19][20] - Garman强调AI最终创造的职位将多于其取代的职位,拥有扎实核心基础知识的新鲜人才对于填补未来高价值角色至关重要[19]
端到端落地中可以参考的七个Project
自动驾驶之心· 2025-12-19 08:05
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 导航信息、强化学习、扩散模型、自回归、时空联合规划兜底是当下端到端落地中最重要的技术栈。 近期和业内一位招聘朋友聊了聊,他们反馈 头部玩家已经验 证了端到端走的通,其他车企也开始铺 人力和资源跟进。但候选人往往只懂一部分,具体的量产经验如导航信息的引入、强化学习调优、轨迹的建模及优化都有很 多门道,都是实际的落地痛点。 为此我们花了三个月的时间设计了端到端量产进阶课程,七个项目从实战到落地层层展开。 该课程涉及的核心算法包括:一段式端到端、两段式端到端、导航信息的量产应用、开闭环强化学习、扩散模型+强化学习、自回归+强化学习、时空联合规划等 等,最后分享一些实际的量产经验。这门课程是自动驾驶之心联合工业界算法专家开设的《面向量产的端到端实战小班课》!课程只有一个重点:聚焦量产。从一 段式、两段式、强化学习、导航应用、轨迹优化、兜底方案再到具体量产经验分享。面向就业直击落地,所以这门课程目前不打算大规模招生, 仅剩「20名」招生 名额...... 讲师介绍 王路, C9本科+QS50 PhD,已发表CCF-A和 ...
开源首次追平GPT-5!DeepSeek-V3.2:推理与效率兼得
自动驾驶之心· 2025-12-18 17:35
DeepSeek-V3.2 与其同类模型的基准测试结果。 开源模型的三大痛点 要理解DeepSeek-V3.2的突破性,首先需要正视当前开源模型普遍面临的三大核心困境。 从 架构层面 看,传统开源模型大多依赖 标准注意力机制(vanilla attention) ,这种机制在处理长序列文本时,计算复杂度会随序列长度的平方增长 (O(L²)),不仅导致推理速度缓慢,更限制了模型在长上下文场景中的部署与后续训练优化。 点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 在 大语言模型 (LLM)的发展赛道上,闭源与开源阵营的实力差距曾一度呈现扩大态势。随着OpenAI等巨头持续加码算力与数据投入,其闭源模型在 复杂推 理、工具使用 等核心能力上不断突破;而开源社区虽不乏创新尝试,但受限于架构效率、训练资源等多重因素,在高端任务场景中始终难以望其项背。这种不 平衡的发展格局,让业界对开源模型的上限充满疑虑——开源LLM是否注定只能成为闭源模型的"简化版替代品"? 面对这一趋势,DeepSeek团队并未止步,而是通过系统性技术创新,推出了 DeepSeek-V3.2 。这款兼顾计算效 ...
67页深度 | 智能驾驶行业专题:Robo-X的产业趋势、市场空间和产业链拆解【国信汽车】
车中旭霞· 2025-12-18 09:09
文章核心观点 - 在政策支持、技术进步(强化学习+世界模型)和硬件成本下降的共同催化下,L4级自动驾驶(Robo-X)预计将在2026年迎来商业化元年时刻 [3][18] - Robo-X行业是长赛道、大空间,中国自主厂商正在崛起,预计到2030年全球L4市场空间将达上万亿元人民币 [4] - 文章通过系列深度报告和点评,重点分析了小马智行和文远知行等领先企业的商业化进展,并拆解了Robo-X各细分领域的产业趋势、市场空间及产业链 [1][2] 行业趋势与催化因素 - **政策催化**:全球主要国家和地区均在不断放开对自动驾驶的限制并明确监管框架,为商业化扫清障碍 [12] - **美国**:2024年12月,美国国家公路交通安全管理局(NHTSA)发布“自动驾驶汽车安全、透明与评估计划”,简化完全无人驾驶汽车豁免申请流程,并取消2500辆的上限 [13] - **中国**:2024年6月,工信部等四部门发布通知,确定首批9个进入智能网联汽车准入和上路通行试点的联合体 [14] - **欧盟**:2025年3月发布《汽车行业行动计划》,计划建立自动驾驶“单一市场”,并在2027年前共同投入约10亿欧元推动发展 [14] - **中东**:迪拜目标在2030年实现25%的交通出行由自动驾驶车辆完成,并于2023年7月向文远知行发放了中东首个国家级全域自动驾驶路跑牌照 [14] - **东南亚**:新加坡自2013年推出“新加坡自动车计划”,2017年修订道路交通法允许公共道路测试 [14] - **技术催化**:强化学习结合世界模型正构建L4级自动驾驶的技术底层,解决传统L2级模仿学习的能力边界固化、意图理解缺失和开环训练缺陷等问题 [11] - **世界模型**:作为“虚拟驾驶沙盒”和“生产车端模型的数字工厂”,其核心包括场景数据生成器、驾驶行为评估体系、高真实性仿真系统及数据挖掘工具,能生成合成数据以更合理地训练AI模型,提升系统稳定性和泛化能力 [9][11] - **强化学习优势**:通过与环境的交互学习最优策略,避免了模仿学习对专家行为的依赖以及数据稀缺、不平衡等问题,是实现L4级“泛化决策”的关键 [11] - **成本催化**:随着L2/L2+级自动驾驶汽车渗透率提升,相关零部件成本下降,而L4与L2/L2+的零部件存在共通性,进一步降低了L4级自动驾驶硬件的成本 [3][18] - **融资活跃**:2025年截至10月底,国内无人驾驶领域公开超49起“亿元级别”投融资事件,融资总额近218亿元人民币,热门赛道集中在无人配送、无人环卫和矿山无人驾驶等领域 [16][17] 市场空间测算 - **总体空间**:参考文远知行招股说明书,预计2030年全球L4市场空间上万亿元人民币 [4] - **Robotaxi(自动驾驶出租车)**: - **全球市场**:预计2030年市场规模达5450亿美元,2025-2030年复合年增长率(CAGR)为106% [24][25] - **中国市场**:预计2030年市场规模达2010亿美元,2025-2030年CAGR为111% [24][25] - **国内替代空间**:2025年国内出租车和网约车年化市场规模合计2360亿元,假设Robotaxi车队规模7000台,则其在共享出行中占比仅0.6%,潜在替代空间巨大 [4][27][30] - **Robovan(自动驾驶物流车)**: - 国内可替代的轻/微卡潜在市场空间为1645亿元,2025年Robovan在物流配送车中占比约2% [4] - **Robotruck(自动驾驶卡车)**: - 假设2024、2030年国内年销量分别为0.1万台和6万台,重卡售价150万元,则对应市场规模分别为15亿元和900亿元 [4] - **Robobus(自动驾驶巴士)**: - 国内公交年化市场规模150-350亿元,Robobus在其中占比在2%以内 [4] - **Robosweeper(自动驾驶环卫车)**: - 国内环卫车年化市场规模113-225亿元,2025年Robosweeper在其中占比约4.7% [4] 竞争格局与主要玩家 - **Robotaxi**:自动驾驶公司如文远知行、小马智行、萝卜快跑(百度)商业化落地加速 [4] - **Robovan**:代表性玩家包括九识智能、新石器、白犀牛、川行致远(大华股份子公司)、佑驾创新、驭势科技等 [4] - **Robotruck**:玩家包括希迪智驾、易控智驾、小马智行、主线科技、西井科技等 [4] - **Robobus**:玩家包括文远知行、轻舟智航等 [4] - **Robosweeper**:代表性玩家有仙途智能、深兰科技等 [4] 重点公司分析 - **小马智行**: - 作为全球无人驾驶领先企业,其Robotaxi商业化落地正在加速 [1] - 2025年单二季度收入同比增长76%,单三季度收入同比增长72%,规模化运营持续推进 [1] - **文远知行**: - 作为全球L4级自动驾驶产品及解决方案先行者,商业化落地加速推进 [1][2] - 2025年单三季度收入同比增长144% [2] - 与Uber达成战略合作,计划未来五年新增15座国际城市部署Robotaxi服务,并获得了东南亚出行平台Grab的数千万美元股权投资 [23] 商业模式与运营分析 - **商业模式**:目前常见的Robotaxi商业模式主要有三种 [37] - **模式一(主机厂+自动驾驶公司+出行服务商)**:综合各方实力加速市场化,分担成本并共享数据与乘客资源,例如吉利+文远知行+Uber、上汽+Momenta+享道出行 [37][38] - **模式二(主机厂+自动驾驶公司)**:自动驾驶公司自主组建车队并运营 [38] - **模式三(主机厂+出行服务商)**:出行服务商自研L4系统并基于自有平台运营 [38] - **成本效益**: - **购车成本**:Robotaxi造车成本约为传统网约车的3倍(例如30万元 vs 13万元) [28][29] - **运营成本**:无安全员的Robotaxi每公里运营成本仅0.81元,比传统燃油网约车低58%,比传统电动网约车低43% [28][29] - **盈亏平衡测算**:假设拥有1000台Robotaxi(单车成本25万元),每车每天20单(客单价20元),配备200名安全员(人均月薪7000元),在不计研发和保险等前期投入的情况下,单月收入1200万元,成本707万元,模型显示可实现盈亏平衡 [36][39] - **发展路径**:中国Robotaxi发展从测试、试运营(2022年底已允许无人化测试),到2025年实现初步规模化运营,预计2030年有望成为用户采纳率较高的常态化出行方式 [33][34] - **全球进展**:全球Robotaxi商业化发展分为三个梯队,中国、中东、欧洲市场处于全球领先地位(第一梯队),已成功进行无主驾安全员的小规模商业化应用 [35]
复旦&港大等团队!WholeBodyVLA:面向全身移动操作控制的VLA框架
具身智能之心· 2025-12-18 08:07
文章核心观点 - 由复旦、港大等团队提出的WholeBodyVLA框架,是首个实现大范围人形机器人端到端移动-操作的系统之一,通过统一潜在动作学习和面向移动-操作的强化学习策略,解决了现有方法在“操作感知型移动”方面的不足,在AgiBot X2机器人上的实验表明,其性能比现有基线方法提升21.3% [4][5][12] 现有方法的不足与核心挑战 - 现有模块化或端到端方法无法规划和执行能主动创造操作前提条件(如接近、调整姿态)的移动,而是将移动和操作视为独立阶段,限制了机器人的工作空间 [2][3] - 核心挑战在于“操作感知型移动”,以及两个根本问题:人形机器人遥操作数据稀缺,以及现有强化学习控制器的精度和稳定性有限 [4][6] WholeBodyVLA提出的解决方案 - **统一潜在动作学习**:设计了一个学习框架,使视觉语言动作系统能够从低成本、无动作标签的第一视角人类视频中学习移动-操作知识,以缓解数据稀缺问题 [4][6][8] - **面向移动-操作的强化学习策略**:提出采用简化离散指令接口的LMO策略,专门优化前进、转弯、下蹲等核心移动-操作动作的准确性和稳定性,以解决低层执行不可靠的问题 [4][10] - **高效数据采集**:设计了仅需单操作员和单目相机的低成本、高效人类第一视角数据采集流程,以扩充数据集 [4][19] WholeBodyVLA方法细节 - **分离的潜在动作模型**:由于移动和操作视频的视觉变化模式不同,分别训练了用于操作的LAM和用于移动的LAM,再联合监督VLA训练,以避免性能不佳 [17][18] - **VLA训练与执行**:VLA基于视觉和语言指令,通过交叉熵损失联合预测两种潜在动作,轻量级解码器将其映射为机器人特定的上肢关节角度和移动指令,再由LMO策略转换为下肢力矩执行 [19] - **LMO策略设计**:采用仅依赖本体感受状态的紧凑观测空间,以及明确启停语义的离散指令接口,并通过两阶段课程学习和参考塑形来优化精度与稳定性 [20][21][22][24] 实验验证与性能 - **任务设置**:在AgiBot X2机器人上评估了三个综合任务:装袋、装箱和推车,以评估双臂协同、下蹲精度、转弯准确性和重载稳定性 [26][27] - **性能对比**:在三个任务的平均得分上,WholeBodyVLA达到78.0%,显著高于模块化设计的64.0%、GR00T w/ LMO的42.0%和OpenVLA-OFT w/ LMO的56.7% [31] - **消融实验**:移除统一潜在学习会导致成功率下降38.7%;使用基于速度的RL控制器变体成功率低24%;分离LAM设计优于共享单一LAM [31][32][36] 技术贡献验证 - **无标签视频的贡献**:使用人类第一视角视频进行潜在预训练能显著提升性能并减少对遥操作数据的依赖,使用超过50%人类视频预训练的模型,仅用25条遥操作轨迹微调即可匹配使用较少视频但需200条轨迹微调的模型性能 [35] - **LMO的贡献**:LMO策略有效解决了基于速度控制器常见的绊倒、路径偏移等问题,在扩展任务(如不平坦地形、长多步序列)中表现出更高的可靠性 [36] - **泛化能力**:框架在更具挑战性的场景中(如不平坦地形遍历、长时程多步序列、日常移动-操作活动)均保持性能优势,展现出强大的泛化能力和可扩展性 [38]