RLinf
搜索文档
VLA+RL正在不断拉升着具身操作的上限!
具身智能之心· 2025-11-11 08:02
文章核心观点 - VLA与RL结合的技术路线正成为提升具身操作性能的关键方向,能有效弥补预训练模型与真实任务之间的差距 [1] - RL训练通过直接优化任务完成度这一终极目标,使模型具备处理意外情况的更强鲁棒性,并学习到更平滑的轨迹及与物理世界精细对齐的能力 [1] - 开源项目RLinf通过标准化接口支持主流VLA模型及CPU/GPU模拟器,并率先实现了对π0和π0.5模型系列的强化学习微调 [2][4] 技术性能评估 - 在LIBERO任务组评估中,π0模型在空间、物体、目标和长任务上的成功率分别为96.8%、98.8%、95.8%和85.2%,平均成功率达94.2% [5] - π0.5模型表现更优,在上述四项任务上的成功率分别为98.8%、98.2%、98.0%和92.4%,平均成功率达96.9% [5] - 采用Few-shot数据集SFT结合RL方法后,Flow-SDE π0.5模型在物体任务上达到100%成功率,整体平均成功率提升20.8个百分点至97.9% [5] - Flow-Noise π0.5模型在物体任务上同样达到100%成功率,整体平均成功率提升21.2个百分点至98.3% [5] 社区资源与生态 - 具身智能之心知识星球已汇聚近2000名成员,涵盖国内外知名高校实验室及机器人头部公司 [14] - 社区汇总了40多个开源项目、60多个具身智能相关数据集及行业主流仿真平台 [15] - 技术学习路线覆盖感知、交互、强化学习、VLA、VLN、多模态大模型等20多个专业方向 [15][16] - 社区提供产业研报、零部件品牌、开源数据、仿真平台等全方位资源汇总 [23][28][30][38] 技术发展前沿 - 社区内容涵盖数据采集、灵巧手、VLA模型、多传感器融合、分层感知操作等14个技术模块 [8] - 具体技术方向包括RoboDexVLM分层架构、BridgeVLA真机性能提升32%、具身4D世界模型EnerVerse等创新成果 [8] - 强化学习与VLA结合领域汇总了基于LLM的强化学习、可解释强化学习等主流方案 [40][58] - 多模态大模型方向涵盖理解与生成两大类应用,包括Image/Video/Audio/3D等多种模态组合 [51][53]
【产业互联网周报】 《上海合作组织成员国元首理事会关于进一步深化人工智能国际合作的声明》发布;工信部:前7个月软件业务收入83246亿元,同比增长12....
钛媒体APP· 2025-09-08 10:52
国内AI大模型与开源框架进展 - 美团正式发布并开源采用创新性混合专家模型架构的LongCat-Flash-Chat 总参数560B 激活参数18.6B-31.3B(平均27B)[2] - 清华大学等机构联合开源首个面向具身智能的大规模强化学习框架RLinf 实现超120%系统提速 VLA模型性能提升40%-60% 1.5B和7B数学推理大模型在AIME24等数据集取得SOTA[3] - 阿里推出智能体开发框架AgentScope 1.0 提供覆盖开发部署监控全生命周期的生产级解决方案[8] - 腾讯开源智能体框架Youtu-Agent 不依赖海外闭源大模型API 完全基于开源生态[9] - 月之暗面Kimi K2模型更新至0905版本 上下文长度扩展至256K 输出速度达60-100 Token/s[18] - 华为公布AI模型运行专利 通过嵌入向量预取技术减少处理延时[19] 3D建模与空间智能技术 - 腾讯发布混元Voyager3D世界模型 业界首个支持原生3D重建的超长漫游世界模型 为虚拟现实/游戏开发提供高保真3D场景漫游能力[10] Web3.0与区块链安全布局 - 三未信安作为香港Web3.0标准化协会副理事长单位 针对稳定币/RWA等Web3.0应用场景布局 重点提供RWA数据上链/冷热钱包/资产托管解决方案[7] - 公司牵头制定国内首个区块链密码行业标准GM/T 0111-2021 研制首批通过国家商密认证的区块链密码机[7] 算力基础设施与芯片研发 - 神州数码以神州鲲泰智算产品为基础 丰富算力设备形态 强化智算基建支撑能力[11] - 上海支持人工智能高性能训练/推理芯片及端侧芯片研发应用 加快超大规模智算集群技术突破[44] - 华为公布AI模型运行专利 优化处理器与计算卡间的数据预取机制[19] 具身智能与机器人合作 - 神州数码与宇树科技等多家具身智能头部企业合作 联手打造面向巡检/安防等场景的解决方案[11] - 上海支持具身智能机器人在物流装配/工业制造/医疗康养等领域打造应用示范场景[45] 数据安全与标准化建设 - 人工智能生成合成内容标识等一批国家标准于9月1日实施 GB 45438—2025标准规范AI生成内容标识方法[4] - 北京数据集团正式注册成立 注册资本30亿元 经营范围涵盖大数据服务/人工智能公共服务平台技术咨询[5][6] - 两部门鼓励企业开展DCMM评估 加强人工智能高质量数据集建设[47] 企业战略合作与股权激励 - 字节跳动为Seed部门大模型技术人员增发期权 员工每月可获得9-13万元期权 累计总量达百万元[12] - 抖音在上海成立小荷智能医疗科技公司 注册资本10万元 专注人工智能应用软件开发[13] - 蚂蚁集团旗下公司入股昕原半导体 后者专注ReRAM新型存储技术研发[27] - 蚂蚁集团旗下公司入股烨知芯科技 加强集成电路芯片设计布局[31] 国际合作与政策支持 - 中国-上海合作组织数字经济合作先行区落地天津滨海新区 推动数据基础设施互联互通和标准协议互认[14][15] - 上合组织发布深化人工智能国际合作声明 将加强基础设施合作/人才培养/投资合作[39] - 工信部表示将积极参与数字经济/人工智能等领域全球治理[40] - 国家发改委将持续在算力等领域发放"人工智能券" 推动降低研发使用成本[33] - 围绕"人工智能+"行动将出台配套细则 分层分行业加快标准制订[34] 行业数据与市场表现 - 前7个月软件业务收入83246亿元同比增长12.3% 利润总额10890亿元增长12.4%[41] - 1-7月规模以上互联网企业实现利润总额938.8亿元同比下降1.8% 研发经费580.3亿元增长2.8%[42][43] - 基础软件产品收入1052亿元增长13% 工业软件产品收入1677亿元增长8.8%[41] 融资并购与IPO动态 - Anthropic完成130亿美元新一轮融资 估值达1830亿美元 为AI领域最大规模融资之一[28] - OpenAI以11亿美元收购产品测试初创公司Statsig 为历史上最大收购交易之一[29] - 企业级跨境支付网络Obita完成超千万美元天使轮融资 加速全球稳定币跨境支付网络布局[25] - 数据安全公司Cohesity考虑2026年IPO 英伟达已投资该公司[32] - 新紫光集团等成立芯紫志高科技公司 注册资本1000万元 专注集成电路设计[26] - 智元机器人入股江苏华智天成科技 注册资本增至约1176万元[33] 应用场景创新 - WPS正式上线"HTML素材"功能 支持运行AI大模型生成的HTML代码 为业内首个支持该功能的办公软件[16] - 中国首个"全国茶叶碳足迹数字化平台"发布 实现茶叶全产业链碳足迹精准量化管理[17] - 特斯拉发布"宏图计划4" 重点打造把AI带入物理世界的产品和服务[22]
首个具身智能大规模强化学习框架RLinf开源 无问芯穹联合清华等机构打造
北京商报· 2025-09-01 13:05
公司动态 - 无问芯穹联合清华大学、北京中关村学院及北京大学、加州大学伯克利分校等机构正式开源首个面向具身智能的"渲训推一体化"大规模强化学习框架RLinf [1] - RLinf名称中"inf"代表"infrastructure"(基础设施)并寓意"infinite"(无限扩展) [1] - 框架通过六大层级(用户层、任务层、执行层、调度层、通信层、硬件层)设计突破技术难点 [1] 技术突破 - RLinf核心解决当前框架对具身智能支持受限的问题 [1] - 相比纯推理大模型,具身智能需兼顾"大脑"(推理规划)与"小脑"(执行操作) [1] - 具身智能存在"渲训推一体化"特性,对算力、显存及框架灵活性要求更高 [1]
首个具身智能大规模强化学习框架RLinf开源,无问芯穹联合清华等机构打造
北京商报· 2025-09-01 12:49
公司技术发布 - 无问芯穹联合清华大学、北京中关村学院及北京大学、加州大学伯克利分校等机构开源首个面向具身智能的"渲训推一体化"大规模强化学习框架RLinf [1] - RLinf名称中"inf"代表基础设施和无限扩展 核心解决当前框架对具身智能支持受限的问题 [1] - 框架通过六大层级设计突破技术难点 包括用户层、任务层、执行层、调度层、通信层和硬件层 [1] 行业技术发展 - 具身智能需兼顾"大脑"推理规划与"小脑"执行操作 相比纯推理大模型对算力、显存及框架灵活性要求更高 [1] - RLinf具备"渲训推一体化"特性 为人工智能从"感知"向"行动"跨越提供关键技术支撑 [1]
RLinf开源!首个面向具身智能“渲训推一体化”的大规模强化学习框架
具身智能之心· 2025-09-01 12:02
文章核心观点 - 清华大学、北京中关村学院和无问芯穹联合推出面向具身智能的大规模强化学习框架RLinf 该框架通过创新的混合式执行模式、统一编程接口和自适应通信机制 在具身智能训练场景下实现系统提速超120% 模型性能提升40%-60% 同时支持数学推理大模型训练并取得SOTA性能[5][7][9][24][29] 技术架构设计 - 系统采用六层级抽象架构 包括用户层、任务层、执行层、调度层、通信层和硬件层 支持混合式执行模式[7] - 提出宏工作流到微执行流映射机制(M2Flow) 实现过程式编程灵活性与声明式编程优化能力的结合[14] - 支持三种执行模式:共享式(组件常驻或交替使用GPU)、分离式(组件流水线执行)、混合式(自定义组合放置形式)[15][17] 性能表现 - 在具身智能训练中相比分离式执行模式系统提速超120%[7][24][27] - OpenVLA模型在Maniskill3任务中成功率从SFT后的30%-50%提升至80%-90% 涨幅40%-50%[24][28] - OpenVLA-OFT在LIBERO测试平台平均成功率97.3% 相比SFT模型提升62.4%[24][26] - 1.5B数学推理模型在AIME24/AIME25/GPQA-diamond数据集分别达48.44%/35.63%/38.46% 平均40.84%[29][30] - 7B数学推理模型在相同数据集达68.33%/52.19%/48.18% 平均56.23% 均实现SOTA[29][31] 系统优化特性 - 集成两套后端:Megatron+SGLang/vLLM支持已收敛模型架构 FSDP+HuggingFace支持未收敛模型架构[21] - 自适应通信库包含四项优化:自适应CUDAIPC/NCCL通信、负载均衡传输队列、多通道并发通信、快速通信重配置[19][22][25] - 自动化调度模块支持秒级在线扩缩容 70B模型1秒完成5D并行动态扩缩[23] - 支持LoRA训练、断点续训、多可视化工具集成 正在集成SFT模块提供一站式服务[18] 应用范围 - 专门支持Vision-Language-Action Models(VLAs)+RL训练 集成OpenVLA、OpenVLA-OFT、Pi 0等主流具身大模型[24] - 支持百余类具身智能任务 涵盖CPU-based和GPU-based仿真器[24] - 率先实现Pi 0的大规模强化学习微调 相关算法将于9月底发布[24] - 框架设计具通用性 可快速支持其他非具身智能应用场景[29]
首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源
机器之心· 2025-09-01 10:49
行业背景与趋势 - 人工智能正经历从“感知”到“行动”的跨越,融合大模型的具身智能被认为是人工智能的下一发展阶段,成为学术界与工业界共同关注的话题 [2] - 在大模型领域,随着o1/R1系列推理模型的发布,模型训练的重心逐渐从数据驱动的预训练/后训练转向奖励驱动的强化学习,OpenAI预测强化学习所需的算力甚至将超过预训练 [2] - 具身智能领域不仅继承了推理大模型和数字智能体的难点,还引入了独特的“渲训推一体化”特征,即需要高效并行物理仿真和3D图形渲染,对框架的灵活性、高效性和易用性提出挑战 [4] RLinf框架核心创新 - 该框架是面向具身智能的灵活、可扩展的大规模强化学习框架,其“inf”既代表“infrastructure”,也代表“infinite” scaling,体现了极度灵活的系统设计思想 [5][7] - 框架系统抽象为6大层级:用户层、任务层、执行层、调度层、通信层和硬件层,相比其他框架的分离式执行模式,其提出的混合式执行模式在具身智能训练场景下实现了超120%的系统提速,VLA模型涨幅40%-60% [7] - 框架采用创新的宏工作流到微执行流的映射机制,实现从组件级进行调度,兼具过程式编程的灵活性和声明式编程的编译优化能力,使用户能够以高度可适配的方式编排组件 [14][15] 技术设计与性能优势 - 针对具身智能大小脑不同训练需求,框架采用低侵入式多后端集成方案,集成Megatron+SGLang/vLLM和FSDP+Hugging Face两套后端,分别服务于大规模集群训练和快速小规模验证 [16][19] - 框架设计了面向强化学习的自适应通信库,包含自适应CUDAIPC/NCCL通信、负载均衡传输队列、多通道并发通信机制、快速通信重配置等四项优化技术 [22][28][29] - 自动化调度模块可针对用户的训练流和计算资源选择最优执行模式,并集成“秒级在线扩缩容”能力,70B模型只需1秒即可完成5D并行动态扩缩,而传统方案需十几秒甚至更久 [24][25] 应用性能与成果 - 在具身智能应用上,框架支持Vision-Language-Action Models+RL,在Maniskill3任务测试中,相比其他框架的分离式执行模式,系统效率显著提速120%以上 [27][33] - 使用框架训练后,OpenVLA及OpenVLA-OFT在Maniskill3自建25个任务中的成功率可从SFT后的30%-50%提升至80%-90%,涨幅40%-50%以上;在LIBERO平台的4个场景中,平均成功率达到97.3%,相比SFT模型涨幅62.4% [30][31][35] - 框架在数学推理大模型训练上也展现通用性,所训练的1.5B和7B模型在AIME24、AIME25和GPQA-diamond数据集上均取得SOTA性能,例如RLinf-math-1.5B在三个测试集上的平均Pass@1达到40.84% [7][36][38] 生态与未来发展 - 框架提供了全面且系统化的使用文档,采用公司级代码开发流程,确保文档内容覆盖从入门到深度开发的各层次需求,并集成AI问答机器人以提升开发体验 [40] - 开发团队具有交叉研究背景,包含从系统到算法到应用的技术全栈,能够实现应用需求驱动算法设计,算法指导系统设计,高效系统加速算法迭代的新型科研形态 [41]