ManiSkill
搜索文档
ImageNet作者苏昊回国任教复旦!李飞飞高徒,具身第一高引,出任通用物理AI院长
量子位· 2026-04-17 09:54
苏昊加盟复旦大学 - 在第五届中国三维视觉大会上,李飞飞弟子、ImageNet作者苏昊正式被复旦大学官宣加盟 [2] - 苏昊将担任复旦大学浩清特聘教授,并领衔建设通用物理智能研究院,出任院长 [3] - 复旦大学官方将此次加盟定义为面向智能时代的关键落子 [5] 苏昊的学术背景与成就 - 苏昊是具身智能领域论文被引次数最高的华人学者,谷歌学术被引次数超过14.5万次 [8][13] - 他是ImageNet奠基性数据集的缔造者之一,并参与了后续的Object Bank项目 [8][25] - 他是ShapeNet、PointNet、PointNet++、PartNet、SAPIEN、ManiSkill等一系列奠基级项目的主导者 [8] - 2025年,他与谢赛宁共同获得了CVPR青年学者奖 [15] - 在加盟复旦前,他是加州大学圣地亚哥分校计算机科学与工程系副教授及具身智能实验室主任 [9] 苏昊的学术历程与研究演进 - 本科就读于北京航空航天大学,师从李未院士,后于微软亚洲研究院实习,研究重心从自然语言处理转向计算机视觉 [19][20][21][22] - 2008年,经推荐先后在普林斯顿和斯坦福参与ImageNet项目,并于2009年跟随李飞飞正式转入斯坦福 [23] - 2015年,发布全球第一个大规模3D数据集ShapeNet,包含逾300万个3D CAD模型,涵盖3135个类别 [28] - 2017年,发布PointNet与PointNet++,使3D视觉相关论文在顶会的占比从不足10%跃升至70% [30] - 2018年获得斯坦福博士后,发布3D物体数据集PartNet,并入职UCSD [34] - 研究从计算机视觉迁移至机器人领域,2021年推出机器人操作仿真平台ManiSkill [35][37] 苏昊的创业实践 - 2024年,苏昊创办具身智能公司Hillbot并担任首席技术官 [40] - Hillbot的核心技术依托于其此前发布的SAPIEN仿真器及ManiSkill训练平台 [42] - 公司已与英伟达合作,借助Nvidia Cosmos平台生成高仿真视频训练数据 [43] - 产品方面推出了轮式机器人Hillbot Alpha,用于零售店、咖啡馆和制造车间等复杂环境下的移动操纵任务 [43] 加盟复旦的动机与愿景 - 苏昊选择加盟复旦大学,是因为双方目标一致,即推动“物理智能”的最终实现 [45][46] - 物理智能旨在让AI系统在物理世界中既能理解世界,也能执行恰当行动 [47] - 苏昊看重复旦大学深厚的数学、物理学科根基、新工科建设以及地处上海和长三角的产业与区位优势 [48] - 他将领衔建设的通用物理智能研究院将打破学科边界,汇聚数学、物理、计算机、人机交互、脑机接口等多领域人才 [50] - 研究院的目标是培养未来5到10年的人工智能领军人物,强调高品位的科研眼光和长周期的探索耐心 [51][52] 对具身智能领域的看法 - 苏昊对当下具身智能赛道持“谨慎的乐观”态度 [54] - 乐观源于这是一个既有科学深度又有巨大产业潜力的真问题 [55] - 谨慎则源于当前大量演示与真正的通用能力之间仍存在关键断层,而填补断层的核心是物理智能 [56][57] - 他认为短期内实现类似大语言模型的泛化还不现实,但长期方向清晰 [59] - 预见具身智能将深度渗透制造业、服务业、养老行业,最终推动进入人机共存的时代 [60]
RLINF-VLA:一种用于 VLA+RL 训练的统一高效框架
具身智能之心· 2025-10-22 14:02
文章核心观点 - 研究团队提出了一个名为RLinf-VLA的统一高效框架,旨在解决视觉-语言-动作模型在强化学习训练中存在的框架零散、效率低下和缺乏统一比较平台的问题 [2] - 该框架通过高度灵活的资源分配设计和统一接口,可无缝支持多种VLA架构、RL算法与模拟器,显著提升了训练效率 [2] - 在仿真实验中,单一统一模型在130个LIBERO任务和25个ManiSkill任务上取得了极高的成功率,分别达到98.11%和97.66% [2][5] - 真实世界部署初步验证表明,经过RL训练的策略比监督微调策略展现出更强的泛化能力 [2][5] 框架设计 GPU分配策略 - 框架针对CPU并行与GPU并行模拟器资源利用模式的差异,支持三种GPU分配模式:共置模式、分离模式和混合模式,用户可通过配置文件轻松切换 [6][8] - 针对GPU并行模拟器,特别提出了“混合分配 + 细粒度流水线”策略,通过将单个GPU上的模拟器拆分为多个子模拟器来减少闲置时间 [8][10] - 混合细粒度流水线分配模式结合了共置和分离模式的优势,训练速度相比基准分离模式提升1.61至1.88倍 [2][35] 模型兼容性 - 框架支持LoRA这一参数高效微调方法,启用后可减少可训练参数、降低内存消耗并加速训练 [12] - 在模型类型上,目前支持OpenVLA(约70亿参数)和其扩展OpenVLA-OFT,后者优化了微调效率、推理速度与部署能力 [12] 多模拟器支持 - 框架选择ManiSkill(擅长基于物理的操作任务)与LIBERO(侧重指令驱动任务)作为主要模拟器,二者功能互补 [13] - 通过统一接口支持不同模拟器的向量化环境,并支持PPO和GRPO等多种强化学习算法 [13] 算法设计 优势函数与对数概率 - 框架支持“动作块”概念,即策略在每个时间步预测一段短期未来动作序列,并为此定义了块级和动作级两种优势函数计算方式 [14] - 支持动作级、块级与令牌级三种对数概率计算粒度,不同选项会带来不同的优化动态 [15] - 优势函数类型兼容所有粒度不细于其自身的对数概率类型,并通过广播机制处理优势值 [17] PPO设计选择 - 在评价网络设计上,为避免增加计算开销,框架让动作网络与评价网络共享大部分参数,仅在VLA模型上附加轻量级价值头 [19] - 实验表明,OpenVLA-OFT模型使用动作级价值估计通常性能更优 [19] - 部分重置模式在“一次成功”优化目标下能提升样本效率,成功率始终高于固定episode长度模式 [19][41] GRPO设计选择 - 框架为GRPO实现了轨迹长度归一化损失,以均衡成功与失败轨迹在优化中的贡献,实验显示该设置能显著提升性能 [20][43] - 成功率过滤机制会丢弃所有轨迹回报相同的组,可提升GRPO训练稳定性,但其有效性具有任务依赖性 [20][46] 实验结果 高性能表现 - 在ManiSkill的25个任务上,无论是OpenVLA还是OpenVLA-OFT模型,强化学习均带来显著性能提升,成功率相比基准提升45%至70% [21][22] - PPO算法在ManiSkill任务中始终优于GRPO,且训练稳定性更高 [22] - 在LIBERO的130个任务上训练单一模型,整体平均成功率从约65.43%提升至98.11%,性能提升约32.68个百分点 [26][28] 高效率表现 - 在GPU并行模拟器评估中,RLinf-VLA的混合模式(pipe=2)在8 GPU配置下吞吐量比基准分离模式提升1.88倍 [35] - 扩展到16与32 GPU时,混合模式通过流水线重叠计算与通信,仍比分离模式提升1.61至1.69倍 [35] - 对于CPU并行模拟器,RLinf-VLA的共置模式相比基准框架SimpleVLA-RL实现1.34至2.27倍的吞吐量提升 [35][37] 消融实验与超参数 - 动作级价值估计相比块级估计能实现更高的成功率与更低的价值损失,学习过程更有效 [39] - 有效动作掩码与轨迹长度归一化结合可带来性能提升,但其效果具有任务依赖性 [44] - 更大的轨迹批次大小有利于性能提升,且不同LoRA配置可能需要单独进行超参数调优 [48][50] 真实世界部署 - 在真实世界Franka机械臂上的部署实验对比了RL训练模型与SFT模型,任务涉及6个未见过物体的拾取放置 [51] - RL训练模型在30次尝试中成功8次,而SFT策略全部失败,显示出RL训练策略更强的零样本泛化能力 [5][51] - 除基础校准外未采用额外仿真-真实迁移技术,初步验证了基于仿真的强化学习在泛化能力上的优势 [51]
统一高效VLA+RL训练平台RLinf-VLA!
具身智能之心· 2025-10-13 08:02
核心观点 - RLinf-VLA是清华大学推出的首个面向具身智能的大规模强化学习框架,提供了一个统一、高效的平台用于视觉语言动作模型与强化学习的研究 [2] - 该框架的核心特点是“快”、“多”、“好”,系统级优化使吞吐量比基线平台提升2.27倍,支持大规模多任务训练,单个模型在130个任务中成功率高达98.11% [2] - 框架旨在解决当前VLA+RL研究中存在的算法设计分析不全面、基础设施上手难度高、算力昂贵等开发困境 [3] 系统设计 - 框架具有“统一”特性,支持LIBERO和ManiSkill两类典型仿真器,支持OpenVLA和OpenVLA-OFT两种主流模型,并支持PPO和GRPO两种强化学习算法 [5] - 框架具有“高效”特性,系统层面通过YAML文件可灵活切换3种分配模式,吞吐量提升高达2.27倍,算法层面引入了轻量化critic、轨迹长度归一化等优化设计 [5] - 针对不同仿真器的资源需求特点,框架提供了共享式、分离式、混合式三类GPU调度模式,并在混合式中支持细粒度流水设计,以优化资源调度减少GPU空闲 [6][7] - 在ManiSkill仿真器中,OpenVLA模型采用混合式细粒度流水调度模式(k=2)展现了最佳吞吐,吞吐量加速达1.61倍至1.88倍 [7][43] - 在LIBERO仿真器中,OpenVLA-OFT模型的最佳调度模式是共享式,其训练速度比基线快1.34倍至2.27倍 [44] 算法设计 - 框架定义了VLA模型输出的三个粒度:Token-level、Action-level和Chunk-level,并支持两种优势函数计算粒度和三种对数概率计算粒度 [12][14] - 在PPO算法中,基于动作级(action-level)的价值估计优于基于块级(chunk-level)的估计,且部分重置(partial resets)可显著提升采样效率 [9][17] - 在GRPO算法中,轨迹长度归一化与动作掩码是稳定训练的关键,框架还设计了过滤机制,可加速策略收敛并提升模型性能 [9][25][29] - 对于PPO算法,框架采用了轻量化的Critic模型设计,与Actor策略共享大部分参数以减少GPU资源占用 [21] 性能表现 - 在ManiSkill的25个pick&place任务中,经过训练的模型成功率相较于基础模型提升幅度在45%至70%,其中PPO算法表现更稳定,OpenVLA-OFT模型达到97.66%的成功率 [31][35] - 在LIBERO所有的130个任务中,采用GRPO算法训练的单个OpenVLA-OFT模型成功率高达98.11%,在部分任务组中成功率超过99% [40] - 在训练数据分布外的泛化能力测试中,OpenVLA模型也表现出色,成功率优于对比基线 [34][35] - 真机实验表明,在Franka机械臂上部署的OpenVLA模型展现出零样本泛化能力,其任务成功率显著优于基于SFT训练的策略 [45][46]
13万被引,ImageNet作者苏昊或将加盟复旦
36氪· 2025-10-10 21:04
人才流动传闻 - 近期有UCSD副教授苏昊将加盟复旦的传言在科研圈流传,但目前尚无权威公开信息证实 [1][5] - 复旦方面尚未发布官方聘任通知,苏昊本人和复旦方面的公开信息尚未披露这一消息 [5][12] - 现阶段应把此事视为极有可能但未定的人才挖角行动,而非已经落定的事实 [14] 苏昊的学术背景与成就 - 苏昊是ImageNet项目早期重要参与者,科研版图后来在3D视觉与机器人方向延展 [6] - 发表过ShapeNet、PointNet / PointNet++、PartNet等一系列在三维视觉领域具有奠基意义的成果 [10] - 论文被引数高达13.3万次,h指数为81 [11] - 其主导的SAPIEN和ManiSkill平台让机器人在模拟环境中练习操作技能 [10] 潜在影响与价值 - 苏昊的归来可能使复旦在机器人、模拟器与三维生成方向形成定海神针级别的核心力量 [17] - 可能带来一批国际项目、国际合作者和学生,加速复旦在具身智能领域的国际化节奏 [18] - 其创业背景可能在校企合作、产业服务、技术孵化等方面打通通道,对机器人、智能制造等行业是潜在推力 [19][21] - 若落地成真,复旦可能成为中国最早拥有具身智能头部实验室+创业载体的高校之一 [22]