具身智能之心 - 财报，业绩电话会，研报，新闻 - Reportify

具身智能之心

搜索文档

输出你的insights，邀请更多优秀的具身合作伙伴加入我们～

具身智能之心· 2025-10-16 15:00

共创内容内容分享：欢迎大家参与具身智能之心的公众号、bilibili、视频号等平台做技术talk、圆桌分享等。课程与咨询：我们也期望能够在在线课程、实战项目上展开合作，为领域带来更多高质量的内容。点击下方卡片，关注" 具身智能之心 "公众号编辑丨具身智能之心本文只做学术分享，如有侵权，联系删文大家好，我是峰哥。最近一直在筹划更为细致的内容输出，特别是行业已有的难点和痛点。后面将会陆续为大家增加圆桌、访谈、实战&工业级课程、咨询等各类输出。这段时间自己也陆续看到了很多insights，一直都在有好的内容输出，感谢大家的分享。一个向阳的领域，离不开众人的拾柴和勇于突破的勇气，在质疑声中不断成长尤其重要。作为国内具身领域创作的技术平台，具身智能之心期望能够在这波激流中贡献自己的力量，成为一个真的能给行业带来价值的平台。但少数人的力量始终有限，我们期望有更多优秀的合作伙伴加入我们。主要方向 vla、vln、强化学习、具身仿真、Diffusion Policy、多模态大模型、移动操作、端到端、模型部署等方向。更多内容待遇与合作方式，欢迎添加微信oooops-life做进一步沟通。 ...

刚刚，UCLA周博磊也加入了一家机器人公司

具身智能之心· 2025-10-16 08:03

公司动态与战略 - 加州大学洛杉矶分校副教授周博磊正式加入机器人初创公司Coco Robotics，专注于解决人行道自动驾驶难题 [2] - Coco Robotics联合创始人兼CEO Zach Rash宣布成立Physical AI Lab，并由周博磊担任首席AI科学家 [3] - Coco Robotics成立于2020年，是一家专注于“最后一公里”配送的机器人初创公司，早期依赖远程操作员协助机器人规避障碍 [4] - 公司成立Physical AI Lab旨在深入挖掘其机器人车队在真实世界中采集的大量运行数据，以推进自动化研发 [4][5] - 公司目标为实现机器人在“最后一公里”配送中的完全自动驾驶，从而降低整体配送成本 [5] - 公司已在最复杂的城市环境中积累了数百万英里的数据，数据规模已达到可加速Physical AI研究的临界点 [7] - Physical AI Lab是独立于Coco Robotics与OpenAI合作关系的独立研究项目 [8] - 公司计划将实验室的研究成果用于提升自身自动化水平与运行效率，并应用于其机器人所依赖的本地模型，暂无出售数据给同行的打算 [9] - 公司计划在适当情况下向运营城市分享研究成果，以协助改善道路障碍与基础设施 [9] 核心人物背景 - 周博磊本科毕业于上海交通大学，硕士毕业于香港中文大学，并于2018年在麻省理工学院计算机科学与人工智能实验室获得博士学位 [12] - 其职业生涯包括曾任香港中文大学助理教授，现任UCLA计算机科学系副教授并兼任计算医学系教职，是UCLA周实验室负责人 [12] - 研究方向为机器感知和智能决策，重点是通过学习可解释、结构化的表征，使机器能够在复杂环境中感知、推理和行动 [14] - 在人工智能顶级会议和期刊发表百余篇学术论文，总引用数超过6万次，h-index为78，i10-index为137 [15] - 其一篇一作论文《Learning deep features for discriminative localization》引用接近13929次 [15] 技术专长与贡献 - 周博磊在计算机视觉和机器人领域的研究聚焦于小型出行设备，与Coco Robotics专注于人行道自动驾驶的定位高度契合 [7] - 其核心贡献之一是提出类别激活映射技术，能够可视化卷积神经网络在进行图像分类时所关注的具体区域，对可解释性人工智能领域影响深远 [16] - 在CAM基础上进一步提出网络剖析研究方法，能自动识别和量化神经网络中单个神经元所代表的语义概念 [19] - 领导创建了Places数据库，一个包含超过1000万张已标注场景照片的资源库，为场景识别任务训练强大的深度卷积神经网络树立了行业基准 [21] - 参与构建了用于场景解析的ADE20K数据集，提供对场景、物体及其部件的像素级标注，对机器人导航等应用至关重要 [23]

可解释性人工智能

可解释性人工智能

Google最新！Gemini Robotics 1.5：通用机器人领域的突破进展

具身智能之心· 2025-10-16 08:03

技术架构 - 采用“协调器+动作模型”的双模型协同智能体架构，协调器由Gemini Robotics-ER 1.5实现，负责高层任务规划与拆解，动作模型由Gemini Robotics 1.5实现，负责将自然语言指令转化为机器人底层动作轨迹 [2] - 架构支持ALOHA、Bi-arm Franka、Apollo三种形态机器人的直接控制，无需额外适配，并通过环境反馈形成“感知-思考-行动”的闭环执行链路 [2][4] 核心创新：运动迁移机制 - Motion Transfer机制通过多形态机器人混合数据训练，学习通用运动规律，解决了传统机器人模型的“数据孤岛”问题 [5][7] - 该机制在Apollo人形机器人上实现“零样本技能迁移”，任务泛化得分从单形态数据训练的0.49提升至0.62，提升约26.5% [13] - 对于数据量中等的Bi-arm Franka机器人，引入多形态数据和MT机制后，任务泛化得分从0.30提升至0.50，解决了新机器人数据少、训练难的行业痛点 [13] 核心创新：思考-动作融合 - 在VLA模型中引入“思考-动作交织”机制，将复杂指令的转化拆分为“指令→自然语言思考轨迹→动作”两步，提升任务执行的可解释性和鲁棒性 [8] - 在ALOHA机器人“按颜色分类衣物”任务中，开启思考模式后进度得分从0.55升至0.67，提升约21.8% [11] - 思考VLA展现出隐式成功检测、自主错误恢复和场景几何理解三大关键能力，例如能在0.5秒内完成物体滑落后的纠错指令更新 [16] 嵌入式推理能力 - Gemini Robotics-ER 1.5在嵌入式推理得分（59）和通用性得分（75）上取得平衡，是唯一处于“高推理+高通用”象限的模型，既能处理专用机器人任务，也保留通用多模态能力 [17][19][20] - 在复杂指向任务中表现优异，其精准指向能力能为VLA提供结合物理约束和语义理解的动作目标定位，是机器人精准动作的核心支撑 [20][24] 性能评估：多形态泛化 - 在视觉、指令、动作、任务四个泛化维度上，1.5版本相比前代模型均有显著提升，例如在Apollo人形机器人上的任务泛化得分从0.07提升至0.63 [25][27][28] - 在ALOHA机器人上，指令泛化得分从0.53提升至0.76，能理解不同表述的同一指令 [28] - 在Bi-arm Franka机器人上，动作泛化得分从0.24提升至0.66，能根据物体重量调整握力以避免滑落 [28][29] 性能评估：长周期任务 - “ER 1.5+VLA”组合在长周期多步骤任务中表现优异，在“Blocks in Drawer”任务中得分0.83，是“Gemini 2.5 Flash+VLA”方案的2.4倍，凸显ER模型精准任务拆解的价值 [33] - ER模型具备工具调用能力，如在“Nut Allergy”任务中能通过网页搜索正确判断食物成分，而对比模型则出现误判 [33] - ER方案在需要场景记忆的“Desk Organization”任务中得分0.88，远高于仅使用VLA的0.32，证明其场景记忆优势 [33] 安全机制 - 通过ASIMOV-2.0基准测试，覆盖文本风险识别、多模态约束适配、视频风险干预三大维度，例如在文本风险识别中能准确判断儿童误食药片的风险类型为“中毒”及严重程度为“重度” [34][36] - 在多模态约束适配测试中，对于承重限制规则，ER 1.5指向8kg和15kg物体的准确率达到90.9% [36] - 在视频风险干预测试中，能预测“儿童接近热水壶”视频中的最后可干预帧，展示出关键的时间推理能力 [36]

通用机器人

Software and Internet

Gemini Robotics 1.5

Gemini Robotics-ER 1.5

通用机器人

Software and Internet

Gemini Robotics 1.5

Gemini Robotics-ER 1.5

大模型方向适合去工作还是读博？

具身智能之心· 2025-10-16 08:03

文章核心观点 - 文章探讨了大模型领域从业者面临的职业发展选择问题即继续深造读博还是参与AI Agent创业潮 [1] - 决策需基于个人是否具备扎实的大模型基础以及是否适合扮演“开拓者”的研究角色 [1][2] - 大模型之心Tech知识星球被定位为一个综合性的学习与交流平台旨在为不同阶段的从业者提供系统化支持 [2][4] 大模型行业现状与人才需求 - 大模型技术范围广泛涉及生成、多模态、微调、强化学习、基准测试及多个下游应用领域 [1] - 通用大模型研发存在高壁垒主要由顶级公司主导 [1] - 行业存在导师半路出家、学生基础不扎实的现象凸显了系统性学习的重要性 [1][2] 大模型之心Tech知识星球资源 - 社区形式为视频、图文、学习路线、问答与求职交流的综合体 [2] - 已邀请40余位来自国内外顶尖高校（如清华、北大、上交、港科大等）和头部公司（如阿里、百度、字节、月之暗面等）的嘉宾 [4][66] - 提供大模型全栈学习路线图覆盖RAG、AI Agent、多模态大模型等核心方向 [4] 技术路线覆盖详情 - RAG技术路线细分为Graph RAG、Knowledge RAG、多模态RAG、Reasoning RAG等8个子领域 [9][10][16][18][20][22][24][25] - AI Agent技术路线包括前沿综述、评测、强化学习、多模态Agent、通讯协议等7个细分方向 [26][27][29][31][33][35][36][38][40][42] - 多模态大模型训练涵盖MLLM、VLM、微调、RLHF、MoE等9个技术模块 [44][47][49][51][53][54][55][56][58] - 大模型量化、部署及推理被列为独立的技术板块 [60][61][62][63] 社区附加价值 - 提供大模型学术进展与工业应用的最新信息 [7] - 具备工作岗位推荐功能可第一时间对接企业需求 [7][68] - 计划通过行业大佬直播分享和独家岗位招聘信息进一步赋能社区成员 [64][65][67][68]

多模态大模型

大模型之心Tech知识星球

多模态大模型

大模型之心Tech知识星球

3个月，完成具身的大脑算法+小脑算法学习！

具身智能之心· 2025-10-16 08:03

文章核心观点 - 具身智能技术正经历从低层感知到高层理解与泛化的快速演进，其核心架构围绕“大脑”（感知与规划）和“小脑”（运动执行）展开，目标是实现机器人在真实世界中的自主智能行为[3] - 技术发展已进入第四阶段，当前的研究热点是融合Vision-Language-Action模型与强化学习、世界模型、触觉感知等模块，以克服现有模型的局限性，推动向通用任务和开放环境智能体时代迈进[9][10] - 技术的成熟正驱动产品在工业、家居、餐饮、医疗康复等多领域落地，并带动了相关岗位的爆发式增长和融资活跃，吸引了大量研究者和从业者转入该领域[10] 技术架构与核心模块 - 具身智能领域主要围绕“大脑”和“小脑”两大模块展开，大脑负责思考感知与任务规划，小脑负责高精度运动执行[3] - 细分技术领域包括仿真、VLA、Diffusion Policy、VLN、世界模型、强化学习等多个子模块[5] - Vision-Language-Action和世界模型是当前在自动驾驶和具身智能领域同时发力的两大技术路线[5] 关键技术演进阶段 - **第一阶段**：聚焦于抓取位姿检测，通过点云或图像预测末端执行器姿态，实现静态物体抓取，但策略多为单步决策，缺乏对任务上下文和动作序列的建模[7] - **第二阶段**：进入行为克隆阶段，机器人通过专家演示数据学习端到端映射，具备模仿复杂任务的能力，但存在泛化能力弱、误差累积等问题[7] - **第三阶段**：2023年兴起的Diffusion Policy通过扩散模型生成整个动作轨迹，提升了策略的稳定性与泛化能力；2024年进入VLA模型阶段，模型融合视觉、语言与动作生成，支持零样本或小样本快速泛化，实现了从“感知+控制”向“感知+推理+行动”的范式跃迁[8] - **第四阶段**：2025年以来，业界开始探索VLA模型与强化学习、世界模型、触觉感知等模块的融合，以弥补VLA模型在反馈、未来预测和多模态感知方面的局限[9] 当前研究热点与融合方向 - VLA模型目前主要研究端到端和分层两种方案，并分别基于大模型和扩散技术进行拓展，VLA与强化学习结合的方案正成为探索方向[5] - Diffusion Policy作为动作模块，负责学习具体动作与执行，主要研究方向包括状态扩散、动作空间扩散、三维空间扩散等[6] - VLA与强化学习结合旨在提升机器人在长时任务中的试错与自我改进能力[10] - VLA与世界模型结合引入环境动态预测，使机器人具备“想象未来”的能力，有助于高效规划与决策[10] - VLA与触觉信息融合，推动机器人实现从“看”到“看+触多模态融合”的感知边界拓展，以在复杂非结构化环境下进行更精细安全的操作[10] 其他关键技术领域现状 - **仿真技术**：当前较好的方向是sim2real和real2sim2real，许多公司正致力于解决真机泛化差的问题，并已获得行业认可[6] - **视觉语言导航**：当下更关注于目标导航，并与移动操作相关联，无地图方案有利于任务泛化[6] 产业发展与人才需求 - 技术发展推动了人形机器人、机械臂、四足机器人等产品在工业、家居、餐饮、医疗康复等多个领域的落地，相关产品和融资络绎不绝[10] - 行业岗位呈现爆发式增长，吸引了大量同学和专业人士从传统计算机视觉或自动驾驶等领域转入具身智能领域[10] - 随着产业界重视，具身智能正从“论文”走向“部署”，对工程与系统能力的需求激增[14]

人形机器人

四足机器人

人形机器人

四足机器人

具身走向现实世界！RoboChallenge：从仿真到实体，全球首个大规模多任务真机任务基准

具身智能之心· 2025-10-15 19:03

行业痛点与市场空白 - 具身智能领域缺乏真实、开放的评测基准，真机测试的缺失与现有评测体系的局限已成为限制该领域发展的关键卡点[3] - 当前主流的具身仿真评测benchmark主要依赖仿真环境，面临sim2real问题，模拟器中表现优异的算法在真机上常出现"落地即失效"的问题[4] - 现有在线评测系统存在明显短板，仅部署1-2台机器人、支持少数任务，无法满足"大规模多模型+多任务"的评测需求，且同一模型的成功率在0%到100%间波动，严重影响结果可重复性[4] RoboChallenge平台核心特点 - 平台由Dexmal原力灵机和Hugging Face共同发起，是全球首个大规模、多任务的在真实物理环境中由真实机器人执行操作任务的基准测试[5] - 首次实现"10台真机集群+30个多样化任务"的大规模评测能力，部署4种主流机器人，包括UR5、Franka Panda、Cobot Magic Aloha和ARX-5[10] - 创新采用"远程机器人范式"，用户无需拥有任何机器人硬件，仅需通过在线API即可完成模型与真机的交互，实现"零硬件门槛"[15][19] - 平台坚持全面开放原则，向全球研究者免费提供评测服务，并公开所有任务演示数据及测试中间结果[34] 技术方案与评估体系 - 为解决真机测试中"结果波动大、公平性不足"的核心痛点，创新性地提出"视觉输入匹配"方法，通过将演示数据中的参考图像叠加于测试画面，确保每次测试初始状态一致[23] - 设计了多层级的严谨评估机制，控制测试者差异，并从四个关键维度构建评估体系：VLA解决方案难点、机器人类型、任务场景环境和目标物体属性[23] - 针对"同一模型多次测试波动"问题，设计"基准协议"与"比较协议"，确保评测结果的可重复性与可比性[25] - 评估采用端到端任务成功率与过程评分相结合的机制，测试集所有任务均提供约1000条演示数据[16] 任务设计与模型表现 - 平台提供首套桌面操作基准测试集Table30，包含30个精心设计的日常情境任务，覆盖家庭、餐厅、工作等场景[12][26] - 30个任务围绕VLA模型的7大核心能力展开，包括精确3D定位、遮挡与多视角融合、时间依赖性、双臂协同、柔性物体处理、物体识别与分类以及Long horizon和多阶段操作[27][28] - 官方测试了四种主流开源VLA算法，性能更强的模型表现显著更优，SOTA模型π₀.₅的成功率尚不足50%，其得分为61.84，成功率为42.67%[29][30] - 即使仅使用少量样本（约50个任务片段）且混合多任务数据进行训练，π₀.₅仍展现出不错性能，预示着真正的"通用模型"有望在未来出现[31] 平台价值与行业影响 - 平台填补了评测空白，为VLA模型提供真实性能的"试金石"，避免"纸上谈兵"式研究[38] - 显著降低参与门槛，吸引更多研究者参与，尤其降低中小企业、高校团队的评测成本[38] - 严谨的评估体系与多样化任务能暴露模型短板，明确模型改进方向，推动VLA模型在核心难点上的突破[38] - 通过结果透明、视频公开、鼓励代码开源，构建开放生态，促进跨团队协作，加速具身智能技术的整体迭代[38]

视觉语言动作模型（VLAs）

视觉语言动作模型（VLAs）

ROSCon China 2025 揭秘，具身智能的前沿技术，等你来看！

具身智能之心· 2025-10-15 19:03

大会核心观点 - ROSCon China 2025将于2025年10月31日至11月1日在上海举办，标志着ROS生态从“技术融合”迈向“价值爆发”的关键节点[6] - 大会是推动社区协作、织密行业联结的核心纽带，为研究者、开发者和学生提供观点交流与经验分享的平台[6][7] 参会企业与高校 - 参会企业涵盖科技巨头、汽车制造商、机器人公司及半导体企业，包括英特尔、蔚来汽车、智元机器人、华为技术有限公司、安霸半导体、优必选、海康威视、上汽大众等[14][15] - 参会高校及研究院所汇聚国内外顶尖学术机构，包括清华大学、北京大学、中国科学技术大学、上海交通大学、哈尔滨工业大学、浙江大学、墨尔本大学、香港大学、中国科学院空天信息创新研究院、上海人工智能实验室等[15][16] 会议议程与演讲主题 - 具身智能前沿模型与技术实践专题涵盖大模型控制机器人、VLA技术应用、数据闭环构建及技术生态探索等主题，演讲方包括华南理工大学、地瓜机器人、刻行时空、智元机器人、英特尔、阿加犀智能科技[18] - 具身机器人核心技术与开发平台专题涉及数据生成、策略训练、任务基准测试、边缘AI、模块化解决方案及开源工具链，演讲方包括英伟达、Arm、英飞凌、矽递科技、光轮智能、索尼、华为技术有限公司、集智联[19][20] 合作媒体 - 大会获得众多国内外主流财经、科技及行业媒体支持，包括新华社、人民网、第一财经、中国证券报、财联社、澎湃新闻、新浪网、腾讯网、搜狐网、投资界、机器人之家等[20][21]

腾讯&上海交大等高校联合发布视觉空间推理综述.

具身智能之心· 2025-10-15 19:03

文章核心观点 - 视觉语言模型在视觉空间推理能力方面存在显著不足，尤其在基础感知、量化推理和动态信息处理方面，这对其在自动驾驶和具身智能等领域的应用构成关键挑战 [2][3][27] - 文章通过提出一个名为SIBench的综合测评基准，系统性地梳理了该领域的方法、任务设定，并对主流模型进行了评估，旨在推动视觉空间智能的发展 [4][12][22][23] 方法介绍 - 改进视觉空间推理能力的方法主要围绕四个方向：输入模态、模型结构、训练策略和推理方式 [6] - 在输入模态上，通过引入深度图等辅助信息来帮助模型从2D输入理解3D空间 [8] - 在模型结构上，通过增加专门的空间编码器来从RGB图像中提取更丰富的3D表征 [9] - 在训练策略上，采用针对视觉空间推理任务专门设计的强化学习奖励机制被证明有效 [10] - 在推理方式上，采用了不同于通用思维链的策略，如构建认知图、调用API或采用RAG等方法 [11] 任务设定与分类 - 文章将视觉空间推理任务按层次分为三类：基础感知、空间理解和任务规划 [12] - 基础感知涉及单个目标的静态属性（如颜色、形状）或动态状态（如方向） [15][16] - 空间理解涉及多个目标或目标与环境之间的静态或动态关系（如位置判断、距离估计） [15][18] - 任务规划要求模型理解空间约束和任务需求，以生成解决方案 [15][21] SIBench基准与模型评估 - SIBench整合了18个开源基准，涵盖3个推理层次、23种任务设定，并支持单图、多视角和视频三种输入形式 [22] - 基于SIBench的评估显示，GPT-5以63.41%的综合得分领先，其次是豆包种子模型（60.12%）和Gemini 2.5 Pro（58.83%） [25] - 在规划任务上，Gemini 2.5 Pro表现突出，得分达到80.17% [25] 主要发现与能力短板 - 主流视觉语言模型的基础感知能力有限，其误差会在后续推理链中积累，影响最终结果 [27] - 模型在定量推理任务（如计数、距离估计）上的表现远差于定性推理任务（如相对位置判断） [27] - 模型处理动态信息（如多视角图像或视频）的能力严重不足，在涉及速度或相机位姿估计的任务中性能显著下降 [27]

视觉空间推理

Software and Services

视觉空间推理

Software and Services

Instant4D：分钟级单目视频的4D高斯泼溅重建(NeurIPS 2025)

具身智能之心· 2025-10-15 19:03

核心技术：Instant4D 方法概述 - 提出Instant4D现代化全自动流程，可在数分钟内重建任意单目视频，实现30倍加速[5][6] - 引入网格剪枝策略，将高斯函数数量减少92%，同时保留遮挡结构，使其可扩展至长视频序列[6] - 提出简化、各向同性、运动感知的单目设置4DGS实现，在Dycheck数据集上性能比当前最先进方法提高29%[6] 技术流程与优化 - 采用可微SLAM方法MegaSAM获取相机位姿，并通过视频一致优化深度得到密集点云，对4秒512×512视频序列反投影可得约30百万个原始3D点[8] - 通过体素滤波将密集点云稀疏化，仅保留每个已占用体素内点的质心，以减少冗余和解决遮挡问题[8] - 基于四维高斯初始化，可在2分钟内完成场景重建，并利用动静蒙版对静态和动态区域设置不同时间缩放以优化渲染[7][13] 性能表现与效率 - 在Nvidia数据集上实现0.02分钟优化时间、822 FPS（480×270分辨率）和676 FPS（860×480分辨率）的实时渲染速度，以及23.99 PSNR的渲染质量，相比InstantSplat和Casual-FVS实现8倍加速和10倍实时渲染速度提升[17] - 在Dycheck数据集上，Lite版本实现0.03小时优化时间、1.1GB内存占用和23.02平均PSNR，Full版本实现0.12小时优化时间、8GB内存占用和24.52平均PSNR，相比基线实现30倍加速[20] - 各向同性高斯设计固定旋转R=I，使用空间/时间各一标量缩放，提升单目优化稳定性，并根据实验将渲染质量PSNR提升1.25 dB[12]

4D Gaussian Splatting

4D Gaussian Splatting

NeurIPS 2025｜清华团队分析RL将如何提升VLA泛化性

具身智能之心· 2025-10-15 12:00

研究背景与核心观点 - 视觉-语言-动作大模型在具身智能领域潜力巨大，但当前主流的有监督微调方法在面对新环境或任务时泛化能力有限 [1] - 清华大学研究团队首次系统性揭示了强化学习在提升VLA模型泛化能力上的独特优势，并提出了全面的评测基准和高效训练方法 [1][3] - 强化学习微调VLA模型能显著提升语义理解和任务执行的鲁棒性，在视觉变化场景下保持与有监督微调相当的表现 [3] 研究方法与模型基础 - 研究采用目前最先进的开源OpenVLA模型为基础，该模型从Llama2-7b微调而来，接收RGB图像和指令，输出离散动作token控制机械臂 [4][6] - 团队构建了涵盖视觉、语义和执行挑战的全新评测基准，系统对比强化学习和有监督微调在泛化性上的表现 [3][19] 强化学习方法比较 - 测试了三种在大语言模型领域广受认可的强化学习算法：PPO、DPO和GRPO [8] - 在机器人控制这一多步决策任务中，经典的PPO算法展现出显著优势，而专为语言模型设计的DPO和GRPO难以高效学习 [15] - PPO的优势源于机器人任务的部分可观测马尔可夫决策过程特性，每个动作都会改变环境状态的非平稳性可能破坏了GRPO的优势估计稳定性 [15] - DPO面临的挑战在于稀疏奖励结构难以区分轨迹质量，以及离线数据与在线执行之间存在显著的分布偏移 [15] 高效PPO训练方案 - 提出共享Actor-Critic架构设计，让Actor和Critic共享同一个主干网络，仅添加轻量级MLP作为价值头，使显存占用减少45%，训练速度提升35% [12] - 使用140条高质量轨迹对模型进行预热，让后续的强化学习收敛速度提升50%，大幅减少所需的环境交互次数 [14] - 将PPO训练轮次设为1就已足够，更多更新轮次无法提升性能反而增加训练时间，整个训练过程在单张A100 GPU上仅需42小时即可收敛 [14] 有监督微调与强化学习性能对比 - 有监督微调在演示轨迹数量达到16,000条时性能趋于饱和 [17] - 强化学习在训练分布内任务性能与有监督微调相当，但在分布外任务上取得了42.6%的性能提升，展现出更强的泛化性 [18] - 强化学习在语义理解任务上表现出明显优势，特别是在处理未见物体的抓取任务时 [21] - 在执行鲁棒性方面强化学习大幅领先，无论是物体位置变化、机器人初始姿态偏移，还是任务执行中途的物体移位，都展现出显著更强的适应能力 [21] - 在视觉泛化上，两种方法表现相当 [21] 案例分析与深层差异 - 在强噪声干扰下，有监督微调策略会在抓取物体后反复掉落，而强化学习策略能够稳定完成任务 [23] - 面对未见物体时，有监督微调容易陷入重复尝试抓取已持有物体的死循环，强化学习则能正确判断并完成放置 [23] - 强化学习探索了更广阔的工作空间和更丰富的末端执行器姿态，而有监督微调的轨迹紧密聚集在演示数据的运动规划路径周围，这种更广泛的覆盖解释了强化学习在执行任务上的优越泛化能力 [23]

强化学习（RL）

视觉 - 语言 - 动作（VLA）大模型

有监督微调（SFT）

OpenVLA大模型

强化学习（RL）

视觉 - 语言 - 动作（VLA）大模型

有监督微调（SFT）

OpenVLA大模型