Workflow
强化学习(RL)
icon
搜索文档
3个月!搞透VLA/VLA+触觉/VLA+RL/具身世界模型等方向!
具身智能之心· 2025-08-22 08:04
国内外相关领域产业分析 近2年,许多具身明星团队陆续出来创业,成立了多家非常有价值的公司。星海图、银河通用、逐际动力等团队陆续从 实验室走向商业和工业界,推动具身本体和大小脑技术的不断进步。 国内传统大厂,华为于2024年底启动"全球具身智能产业创新中心",与乐聚机器人、大族机器人等企业合作,共同建设 具身智能大脑、小脑等关键技术;京东自2025年5月以来连续投资智元机器人、千寻智能、逐际动力等多家公司,以强 化其在物流科技与家庭服务场景中的效率与服务能力。此外,腾讯、蚂蚁集团、小米等科技巨头也积极通过战略投资与 合作布局,加快构建具身智能产业生态。 国外方面,Tesla/Figure AI在工业与物流机器人应用上持续推进,而美国投资机构也积极支持 Wayve、Apptronik 等公司 落地自动驾驶与仓储机器人。总体而言,国内企业以产业链投资与综合平台驱动具身智能落地,国外科技巨头则侧重基 础模型、模拟环境与类人机器人原型研发,双方在该领域正加速进入关键竞赛阶段。 具身智能的技术演进 在通往通用人工智能(AGI)的探索中,具身智能逐渐成为关键方向之一。相比于传统的预设动作序列不同,具身智能 强调智能体与物理 ...
能横着走的轮足机器人诞生?
机器人大讲堂· 2025-08-19 18:32
轮腿机器人FLORES的核心创新 - 采用轮腿结合设计,实现平路高效移动与复杂地形跨越的无缝切换 [12] - 前腿关节改造为侧摆结构,兼具汽车转向灵活性与四足机器人稳定性 [12][15] - 能耗表现突出:直线运动能耗仅为传统轮腿机器人的30%,转弯能耗仅35% [9] 技术实现细节 - 配备基于强化学习的智能控制器,可自适应生成多模态运动策略 [15][17] - 采用混合内部模型(HIM)架构,针对机械结构优化奖励机制 [18] - 关键硬件包括Intel i7处理器、44.4V锂电池及Motorevo系列关节电机 [11] 性能优势 - 全地形适应能力:在石板路/草坪/坑洼路面均能保持稳定行进 [6] - 运动模式切换速度超越宇树B2W等竞品 [6] - 支持横向移动等特殊机动动作 [3] 应用场景规划 - 重点部署于办公楼/商场等混合地形环境,执行物资运输/巡逻任务 [20] - 未来将加装机械臂拓展物体操控功能 [20] - 通过sim2real技术强化双足运动能力以适应极端环境 [20] 行业参考标的 - 直接竞品包括宇树科技B2W、ANYmal等轮足机器人 [15] - 技术借鉴对象涵盖传统轮式机器人mobED等成熟产品 [15] - 相关企业涉及优必选、云深处等50余家机器人产业链公司 [22][23][25][26]
VLA/VLA+触觉/VLA+RL/具身世界模型等方向教程来啦!
具身智能之心· 2025-08-18 08:07
具身智能概述 - 具身智能强调智能体与物理环境的交互与适应 聚焦于感知环境 理解任务 执行动作并反馈学习的能力 [1] - 具身智能的核心模块分为大脑(语义理解与任务规划)和小脑(高精度运动执行) 类比人类神经系统结构 [1] 产业动态 - 近2年星海图 银河通用 逐际动力等明星团队从实验室走向商业化 推动本体与大小脑技术进步 [3] - 国内华为2024年启动"全球具身智能产业创新中心" 联合乐聚机器人 大族机器人攻关关键技术 [5] - 京东2025年起连续投资智元机器人 千寻智能 逐际动力 强化物流与家庭服务场景能力 [5] - 国际方面Tesla/Figure AI聚焦工业物流机器人 Wayve/Apptronik获资本支持发展自动驾驶与仓储机器人 [5] 技术演进路径 - **第一阶段**:抓取位姿检测(Grasp Pose Detection) 通过点云/图像预测末端执行器姿态 但缺乏任务上下文建模 [6] - **第二阶段**:行为克隆(Behavior Cloning) 通过专家数据学习端到端映射 存在泛化能力弱 误差累积问题 [6] - **第三阶段**:2023年Diffusion Policy引入序列建模 2024年VLA模型实现多模态协同 支持零样本泛化 [7] - **第四阶段**:2025年探索VLA与强化学习 世界模型 触觉感知融合 解决反馈 预测与触觉局限 [8] 应用与产品 - 技术演进推动人形机器人 机械臂 四足机器人在工业 家居 餐饮 医疗等场景落地 [9] - 行业岗位呈现爆发式增长 吸引大量从业者转入具身智能领域 [9] 技术体系与课程 - 课程系统梳理大脑+小脑技术路线 涵盖灵巧手 移动操作 人形机器人方法 [15] - 包含主流仿真框架配置 DP/VLA/VLA+RL/VLA+触觉等方法详解 以及世界模型下一代范式 [15] - 实践环节覆盖Sim2Real演进 IsaacGym/Mujoco仿真环境 Diffusion Policy代码实战 VLA模型训练等 [21] - 目标群体包括具身算法从业人员 研究方向学生 以及传统CV/自动驾驶转行者 [24][29]
VLA/VLA+触觉/VLA+RL/具身世界模型等!国内首个具身大脑+小脑算法实战教程
具身智能之心· 2025-08-14 14:00
具身智能技术发展 - 具身智能强调智能体与物理环境的交互与适应,聚焦感知、理解、执行和反馈学习能力,其核心模块为大脑(语义理解与任务规划)和小脑(高精度运动执行)[1] - 技术演进分为四个阶段:从抓取位姿检测(静态物体单步决策)→行为克隆(端到端模仿但泛化弱)→Diffusion Policy(扩散模型提升时序稳定性)→VLA模型(多模态协同实现零样本泛化)[6][7] - 2025年技术前沿探索VLA与强化学习、世界模型、触觉感知的融合,以解决"理解不反馈"、"关注当下不预测未来"等局限[8] 产业竞争格局 - 国内企业以产业链投资驱动:华为2024年建"全球具身智能产业创新中心"联合乐聚机器人等;京东2025年连续投资智元机器人等强化物流与家庭服务场景;腾讯/蚂蚁/小米通过战略合作布局生态[5] - 海外企业侧重基础研发:Tesla/Figure AI推进工业物流机器人;Wayve/Apptronik获资本支持发展自动驾驶与仓储机器人;中美进入关键技术竞赛阶段[5] - 明星创业团队涌现:星海图、银河通用、逐际动力等从实验室走向商业化,推动本体与大小脑技术进步[3] 应用与商业化进展 - 技术落地产品涵盖人形机器人、机械臂、四足机器人,应用于工业、家居、餐饮、医疗康复等领域,融资与岗位呈爆发式增长[9] - 工程化需求激增:产业界要求从论文转向部署,需掌握Mujoco/IsaacGym等仿真平台训练、Diffusion Policy/VLA模型部署、强化学习微调等能力[24] 技术培训市场动态 - 课程体系覆盖全技术栈:包括具身仿真框架配置、Diffusion Policy/VLA/VLA+RL算法详解、触觉融合与世界模型等前沿内容[15][20] - 实践导向设计:每个模块配备实战代码(如DP3、SmolVLA)、大作业监督,目标使学员达到1-2年从业经验水平[20][30] - 受众定位明确:面向算法从业人员、转行者及在校生,要求具备Python/Pytorch基础及3090ti以上算力[13][30]
OpenAI联合创始人Greg Brockman:对话黄仁勋、预言GPT-6、我们正处在一个算法瓶颈回归的时代
AI科技大本营· 2025-08-13 17:53
行业演进与公司发展 - 计算机行业正经历从个人魔法到工业革命的演进,OpenAI驾驭十万GPU集群标志着AI基础设施的成熟[3] - Stripe早期通过第一性原理突破传统限制,24小时完成银行需9个月的技术对接,体现硅谷创新精神[15][16] - OpenAI构建了研究-工程双引擎文化,工程能力与研究洞见同等重要,共同推动AGI发展[27][28][29] 技术突破与创新 - 深度学习从AlexNet开始颠覆传统规则,神经网络在多个领域超越人类设计的系统[24][25] - 强化学习(RL)和混合专家模型(MoE)成为解决算法瓶颈的关键方向,推动AGI研究进入新阶段[49][48] - Codex已贡献OpenAI内部10%代码合并请求,外部GitHub日处理24000个PR,重塑软件开发流程[42] 基础设施与硬件需求 - AI基础设施需兼顾高计算量任务与低延迟响应,催生专用加速器需求[45][47] - 模型规模扩大带来系统复杂性挑战,检查点机制和可靠性设计成为训练长周期智能体的关键[43][44] - 黄仁勋提出未来数据中心需支持多样化工作负载,包括多模态AI和实时交互系统[45][46] 产品化与生态发展 - AI产品化面临模型与产品的鸿沟,需结合领域专业知识构建垂直智能体生态[52][53] - GPT-4o图像功能5天获1亿用户,反映AI应用病毒式传播特性与规模化挑战[35][36] - 经济将因AI驱动产生10倍增长,医疗、教育等领域需定制化解决方案[54][55] 研发趋势与瓶颈 - 基础研究回归成为核心,算法瓶颈重新成为制约AGI进展的关键因素[49][50] - 当前研发受计算资源、数据、算法、电力等多维度限制,需动态平衡[49] - GPT-4暴露可靠性问题,显示AI需突破"隔玻璃观察"的学习模式[50][51]
为何强化学习火遍硅谷?AGI的关键一步
虎嗅· 2025-08-07 15:46
强化学习技术趋势 - 强化学习在AI Agent技术架构和模型预训练中成为硅谷主流趋势,顶级人才需求旺盛[1] - 强化学习框架适用于目标驱动型任务,与监督学习形成互补[6][8] - RL pretraining(强化学习预训练)成为研究热点,但验证机制泛化仍是技术瓶颈[9][11][26] 技术架构对比 - 基于LLM的token决策架构与基于action的强化学习架构各有适用场景[5] - 监督学习适合已有标注数据的任务,强化学习适合无数据/目标驱动型任务[8][30] - 强化学习微调成本是监督学习的10倍,但复杂任务中不可替代[29] AGI发展路径 - OpenAI将AGI划分为五个层级:聊天机器人→推理型AI→Agent→创新型AI→组织型AI[13][15][16] - 第三到第四层级(Agent→创新型AI)存在最大技术鸿沟,核心是验证能力突破[16][21][24] - 创新型AI需具备反事实知识发现能力,可能产生超越人类认知的解决方案[13][27] 行业应用与商业化 - 专业领域工作流(金融、供应链、科研等)是强化学习的优势场景[10][44][45] - AI Agent商业化面临成本控制挑战,技术路径决定企业存活能力[63] - 多模态数据标注成为中期发展瓶颈,Meta收购ScaleAI旨在解决该问题[31][36][37] 人才与技术生态 - 强化学习核心人才集中在OpenAI、DeepMind、Meta等机构及少数高校[58][59] - 产业界强化学习应用从专用优化器向通用解决方案演进[60] - Richard S Sutton等先驱者奠定了强化学习理论基础,关注模型可塑性和奖励设计[55][56] 企业战略差异 - Pokee AI采用端到端模型架构,压缩工具链提升专业场景泛化能力[41][44][45] - 行业出现技术路线分化,各公司根据创始人背景形成差异化发展路径[62] - 产品体验与模型能力需平衡,专业型工作流是创业公司突破方向[46][47]
国内首个具身大脑+小脑算法实战全栈教程
具身智能之心· 2025-08-07 10:38
具身智能概述 - 具身智能强调智能体与物理环境的交互与适应 聚焦于感知环境 理解任务 执行动作并反馈学习的能力 [1] - 大脑模块负责语义理解和任务规划 小脑模块负责高精度运动执行 构成具身机器人核心架构 [1] 产业动态 - 2024年华为启动"全球具身智能产业创新中心" 联合乐聚机器人 大族机器人等企业共建大脑 小脑关键技术 [5] - 京东2025年起连续投资智元机器人 千寻智能 逐际动力等公司 强化物流科技与家庭服务场景能力 [5] - 腾讯 蚂蚁集团 小米通过战略投资加速构建具身智能产业生态 [5] - 国外Tesla/Figure AI聚焦工业与物流机器人 Wayve Apptronik获资本支持推进自动驾驶与仓储机器人应用 [5] 技术演进路径 - **第一阶段**:抓取位姿检测技术依赖单步决策 缺乏任务上下文建模能力 [6] - **第二阶段**:行为克隆技术通过专家数据实现端到端映射 但存在泛化能力弱 误差累积缺陷 [6] - **第三阶段**:2023年Diffusion Policy采用扩散模型生成动作轨迹 提升策略稳定性与泛化能力 [6] - **第四阶段**:2024年VLA模型融合视觉 语言与动作模块 支持零样本快速泛化 实现"感知+推理+行动"范式跃迁 [7] - 2025年技术探索聚焦VLA与强化学习 世界模型 触觉感知的融合 突破环境预测与多模态感知边界 [8] 商业化应用 - 技术演进推动人形机器人 机械臂 四足机器人在工业 家居 餐饮 医疗康复领域落地 [9] - 行业岗位呈现爆发式增长 吸引大量跨领域人才转入具身智能研究 [9] 工程化挑战 - 产业界需求推动从论文向部署转型 对Mujoco IsaacGym Pybullet等仿真平台训练能力要求提升 [13] - 需解决Diffusion Policy/VLA模型训练部署 强化学习反馈微调 世界建模一体化架构等工程难题 [13] 人才能力需求 - 从业者需掌握Python/Pytorch基础 具备3090ti及以上算力设备 [17] - 核心技能覆盖仿真环境搭建 模型训练优化 触觉信息融合 世界模型应用等全栈能力 [17]
都说强化+VLA才是未来?相关工作汇总来啦
具身智能之心· 2025-08-01 08:03
视觉-语言-动作(VLA)模型与强化学习(RL)结合的新范式 - 视觉-语言-动作(VLA)模型与强化学习(RL)结合成为极具前景的新范式,能充分发挥环境试错交互和预收集次优数据的双重优势 [2] 无环境离线RL训练 - MoRE研究通过无环境离线RL训练提升四足机器人VLA模型的可扩展性,论文发表于ICRA2025 [3] - Q-Transformer通过自回归Q函数实现可扩展的离线强化学习,论文发表于2023年 [3] 有环境在线RL训练 - ReinboT通过在线RL增强机器人视觉-语言操作能力,论文发表于ICML2025 [5] - GeRM采用混合专家(MoE)架构构建通用四足机器人模型,项目已开源,论文发表于IROS2024 [5] - 离线Actor-Critic RL可扩展至大型模型,论文发表于ICML2024 [5] 基于仿真器的研究 - OctoNav致力于通用具身导航研究,项目已开源 [6] - TGRPO通过轨迹分组相对策略优化微调VLA模型 [6] - SimpleVLA-RL提供简化版VLA-RL实现,项目已开源 [6] - RFTF利用时序反馈进行具身智能体微调 [6] - VLA-RL通过可扩展RL实现通用机器人操作,项目已开源 [6] - RIPT-VLA采用交互式后训练方法改进VLA模型,项目已开源 [6] - iRe-VLA通过在线RL改进VLA模型,论文发表于RAL2025 [6] - Policy Agnostic RL支持任意类别和骨干网络的离线/在线RL微调,项目已开源 [6] - FLaRe通过大规模RL微调实现自适应机器人策略,论文发表于ICRA2025 [6] 基于真实世界的研究 - DYNA-1模型在性能和产品化方面取得突破,由Dyna公司开发 [9] - ConRFT通过一致性策略强化VLA模型微调,项目已开源 [9] - RLDG通过RL实现通用机器人策略蒸馏,项目已开源 [9] - Hume在VLA模型中引入系统2思维,项目已开源 [9] - 通过价值引导改进机器人基础模型,项目已开源 [9] RL对齐训练 - GRAPE通过偏好对齐实现机器人策略泛化,论文发表于ICLR2025 workshop [11] - SafeVLA通过约束学习实现VLA模型安全对齐,项目已开源 [12]
从“炫技”转向“干活”,轮子比双足更吃香......高盛总结了WAIC人形机器人最新趋势
硬AI· 2025-07-28 23:03
行业趋势 - 2025年WAIC上轮式机器人成为主流,因其更易快速部署,加速短期商业化 [1] - 行业从追求技术"完全拟人"转向优先考虑"近期商业可行性",轮式方案在稳定性、成本和能耗上优势明显 [4] - 轮式趋势可能对行星滚柱丝杠等与双足步态强相关的零部件供应商构成利空 [4] 商业化进展 - 展会规模显著扩大:会场面积7万平方米(同比增长35%),参展商800家(增长60%),门票价格168元人民币(上涨31%) [4] - 展出机器人产品超过60款,远超去年的25款静态原型,大多数进行实时交互式任务演示 [4] - 应用场景明确化,机器人被设计用于解决特定问题,如工业、消费服务、医疗康复等领域 [6] 技术瓶颈 - 机器人手部精细操作仍是主要瓶颈,任务成功率、稳定性和操作速度距离取代人力仍有差距 [2] - 展会演示中操作失败频发,取货等简单任务需30-40秒,远慢于人类 [9] - 视觉-语言-行为(VLA)大模型与强化学习(RL)结合被视为商业化关键路径 [9] 成本与数据 - 宇树科技推出售价4万元人民币的入门级机型,但主流全尺寸机器人售价仍在40-50万元人民币区间 [11] - 高质量真实世界数据收集成本高昂,公司普遍采用10%-50%真实数据与合成数据混合的训练策略 [11] - 成本曲线下行但未现显著拐点,技术拐点临近但尚未到达强劲可见性阶段 [11] 应用场景案例 - 工业领域:电力巡检、钢铁厂"3D"环境作业(宝信软件Turin机器人) [6] - 消费服务:打冰淇淋、衣物整理、零售门店部署(盖博特系统获100家订单) [6] - 医疗康复:傅利叶智能GR-3机器人已在300家医疗机构部署 [7]
90%被大模型吃掉,AI Agent的困局
投中网· 2025-07-25 16:33
通用Agent行业现状 - 通用Agent面临尴尬境地,90%的市场份额可能被大模型吞噬[3][4][8] - Manus等头部公司出现收入下滑和用户活跃度下降,Manus 6月访问量1781万次,较3月峰值2376万次下降25%[5][22] - Genspark发布45天即达3600万美元ARR,但6月MRR环比下跌13.58%至295万美元[20][22] 商业化与竞争格局 - 头部产品商业化表现分化:Manus 5月ARR达936万美元,但6月MRR环比暴跌51.79%至167万美元[20][21] - 国内大厂主导市场,百度、字节等通过免费策略挤压创业公司空间[26][27][29] - 收费模式对比:Manus Pro会员199美元/月限积分制(约10次/天),Claude Opus 4同价但支持不限量使用[9][11] 技术瓶颈与场景困境 - 大模型能力溢出直接冲击Agent价值,用户更倾向使用基础模型API[9][12] - 垂类Agent在企业端优势显著,可对接内部知识库实现精准输出[15][16] - 当前通用Agent核心场景局限在PPT生成、深度研究等办公功能,但存在信息错漏和低价值输出问题[24][32][34] 技术演进方向 - MiniMax采用线性注意力机制支持100万上下文输入,强化法律文书处理能力[35] - 强化学习(RL)成为突破关键,月之暗面Agent模型在HLE测试得分从8.6%提升至26.9%[36][38] - OpenAI最新Agent产品ChatGPT Agent在HLE测试创41.6%的SOTA成绩[38] 市场趋势 - 行业呈现"模型即Agent"趋势,大模型公司直接切入Agent赛道[28][29] - 开发者生态成竞争焦点,阿里、字节等通过平台推广和比赛吸引开发者[26] - 深度研究功能因成本较低成为主流方向,多模态能力成为标配[30][32]