具身智能之心
搜索文档
CoRL 2025 | SafeBimanual: 基于扩散的安全双手操作轨迹优化
具身智能之心· 2025-09-10 08:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Haoyuan Deng等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 1.前言 双手操作(Bimanual Manipulation)是机器人在家庭服务、制造业以及医疗等场景中不可或缺的能力。相比单臂操作,双臂机器人能够通过协调配合完成更复杂 的任务,例如烹饪、组装和物品搬运。 2.简介 目前的扩散式策略生成方法虽然能够在高维动作空间中实现稳定的动作建模与生成,但其 核心问题是缺乏安全性意识 。现有方法往往只关注如何高效完成任 务,却没有在轨迹生成过程中引入明确的物理安全约束,从而导致一系列危险行为: Figure1 双手操纵不安全模式分类 忽视物理约束 :现有扩散策略直接从去噪分布中采样动作,缺乏对双臂空间位置与动态关系的约束,容易导致机械臂轨迹交叉、两臂动作错位、末端执行器 不一致等情况。 存在危险交互 :常见的风险模式包括双臂夹具互相碰撞、在操作刚性物体时发生撕裂、夹具对物体 ...
π0.5开源了!!!
具身智能之心· 2025-09-09 14:45
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 π0.5开源了!!! π0.5模型是π0的升级版本,通过知识隔离( knowledge insulation)训练获得更强的开放世界泛化能 力!今天看到了项目主页上更新了0.5的信息。 项目链接:https://github.com/Physical-Intelligence/openpi | πο-ALOHA- | Inference | πο model fine-tuned on public | gs://openpi- | | --- | --- | --- | --- | | pen-uncap | | ALOHA data: can uncap a pen | assets/checkpoints/pi0_aloha_pen_uncap | | | | που το 19 model fine-tuned for the | | | ...
我们正在找具身领域的合伙人......
具身智能之心· 2025-09-09 12:00
最近收到越来越多合作伙伴和中小公司的诉求,期望具身智能之心团队能够在方案和数采、技术升级、 企业培训等多个方向上赋能。 虽然从上半年开始,我们一直在筹办相关事宜。但众人拾柴火焰高,要推动大的行业进步,需要更多优 秀的伙伴加入我们。 现面向全球的具身领域从业者发出邀请函,具身智能之心期望能够和您在技术服务、培训、课程开发与 科研辅导等多个领域展开合作。 我们将提供高额的酬金与丰富的行业资源。 主要方向 包括但不限于:VLA、VLN、Diffusion Policy、强化学习、VLA+RL、遥操作、动捕、sim2real、多模态 大模型、仿真、运动控制、端到端、3D感知等多个方向。 岗位说明 主要面向具身方案研发、硬件研发、培训合作(B端主要面向企业和高校、研究院所培训,C端面向较多 学生、求职类人群)。 联系我们 感兴趣的可以添加微信oooops-life做进一步咨询。 ...
VLA与强化学习技术交流群来啦!
具身智能之心· 2025-09-09 12:00
技术交流平台 - 行业旨在为四足机器人、人形机器人、机械臂相关的运动控制技术搭建一个技术交流与分享平台 [1] - 交流群专注于具身智能领域的视觉语言模型和强化学习技术 [1]
花了很长时间,汇总了大模型相关的技术栈......
具身智能之心· 2025-09-09 12:00
大模型技术社区概述 - 社区名称为“大模型之心Tech”,旨在打造一个集视频、图文、学习路线、问答、求职交流于一体的综合类大模型技术社区,期望未来2年内达到近万人的规模[3] - 社区创建的出发点是提供大模型相关的技术交流平台,交流学术、应用和工程问题[6] - 社区已邀请40+位来自国内外知名高校实验室和头部公司的嘉宾,高校包括上交、清华、北京大学、上海人工智能实验室、港科大、港大等,公司包括阿里千问、美团LongCat、深度求索DeepSeek、字节豆包、百度文心一言、月之暗面Kimi等[6][67] 大模型行业趋势与人才需求 - 大模型技术是RAG和AI Agent等前沿领域发展的基础,企业对掌握RAG、Agent等技术的人才需求高涨,这些技能已成为AI从业者的核心竞争力[1] - 算法开发、工具链开发、后端、产品经理、架构师等相关岗位需求非常旺盛,算法核心岗位的年薪表现突出[1] - 开源大模型生态为学习者提供绝佳机会,国外有Meta的LLaMA 3,国内DeepSeek采用完全开源模式,其衍生项目超过800个,通义千问衍生模型数破10万,居世界第一[3] 社区技术内容体系 - 社区汇总了大模型全栈学习路线图,主要涵盖RAG、AI Agent和多模态大模型三大方向[6] - RAG学习路线包括Graph RAG、Knowledge RAG、多模态RAG、Reasoning RAG等子领域[6][10] - AI Agent学习路线包括Agent评测、强化学习、多模态Agent、Agent通讯、基座Agent、自进化Agent、Multi-Agent等细分方向[6][26] - 多模态大模型训练内容涵盖MLLM、VLM、大模型微调、RLHF、MoE、VLM提示适配器学习、LLM在3D世界中的应用等[43] 社区资源与福利 - 社区提供Awesome系列工具汇总、开源Benchmark汇总、评测框架汇总等技术资源[6] - 会员可第一时间掌握大模型相关的学术进展和工业落地应用[7] - 提供与行业大佬交流工作与求职问题的机会,包括大模型相关工作岗位推荐和行业机会挖掘[11] - 未来计划不定期邀请国内外顶尖学术界和工业界大佬进行直播分享[66] 技术细分领域覆盖 - RAG领域详细覆盖BenchMark汇总、综述汇总、Graph RAG、Knowledge-Oriented RAG、多模态RAG、Reasoning RAG、RAG在AIGC中的应用、个性化RAG等[13][15][17][19][21][23][24] - AI Agent领域包含前沿综述汇总、Agent评测、Agent强化学习、多模态Agent、Agent通讯、基座Agent汇总、自进化Agent、Multi-Agent等[28][30][32][34][35][37][39][41] - 多模态大模型训练涵盖多模态大模型MLLM、视觉语言模型VLM、大模型微调、强化学习与RLHF、MoE混合专家模型等技术方向[46][48][50][52][54] - 大模型量化、部署及推理部分包括大模型量化、大模型推理、大模型部署等实践性内容[61][62][64]
国产具身AI平台来了!这家公司让具身AI真正从“虚拟走进现实”
具身智能之心· 2025-09-09 08:03
在具身AI技术加速发展的当下,智能机器人正逐步从实验室走向实际应用场景。从家庭扫地机器人到工业装配臂,从仓储物流搬运到医疗护理,机器人 应用边界持续拓展。尤其随着大模型技术突破,机器人的环境理解与任务执行能力显著提升,在复杂家庭服务、高精度工业生产中展现出巨大潜力。 然而,具身AI要实现规模化商用部署,仍需突破三大核心挑战: 1. 缺乏高性能低延时底层操作系统 :现有解决方案在实时性、稳定性上存在短板,限制复杂任务执行与多机器人协同部署。 2. 高质量训练数据稀缺 :传统人工演示、遥操作数据采集效率低、成本高,难以覆盖现实世界复杂多变场景; 3. 验证测试成本高昂 :真实环境中测试机器人算法耗时久,且存在安全风险,单次失败可能导致设备损坏、人员受伤; 长期以来,ROS(机器人操作系统)是机器人研发的主流工具,为开发者提供消息通信、传感器与算法集成、机器人建模仿真等功能,助力快速搭建系 统、验证功能。但在工程化与大规模应用中,ROS存在 实时性不足、通信开销大、安全性欠缺 等问题,无法满足高性能、低延时的具身AI场景需求。 在此背景下,Dora(Dataflow Oriented Robotics Archit ...
具身VLA后训练:TeleAI提出潜空间引导的VLA跨本体泛化方法
具身智能之心· 2025-09-09 08:03
文章核心观点 - 中国电信人工智能研究院提出了一种名为"对齐-引导-泛化"的VLA跨本体泛化框架,旨在解决视觉-语言-动作模型在后训练阶段面临的跨本体适配挑战 [1][2] - 该框架的核心思想是在潜空间中对齐跨本体动作分布,并利用统一潜空间梯度引导VLA策略更新,实现了从调架构向调分布的范式转移 [2][9] - ATE框架能够适配Diffusion和Flow-Matching等主流VLA模型,极大减少了VLA跨本体适配的数据需求,在仿真和真实机器人实验中均表现出显著性能提升 [2][16] 研究背景与动机 - 现有VLA基座模型在进行目标场景应用时,需要采集数十至数百小时目标本体数据完成后训练,当预训练和后训练阶段动作分布出现严重失配时,引发跨本体适配挑战 [1] - 决定VLA能否进行跨本体迁移的关键是预训练阶段与后训练阶段动作分布的一致性,而非参数规模或主干架构复杂度 [5] - 当目标本体的机械臂构型、执行器形态、关节自由度等发生变化时,目标动作分布会偏离预训练阶段学得的动作分布域 [5] ATE框架方法论 - ATE框架分为两个阶段:第一阶段构建统一动作潜空间并对齐动作分布,第二阶段设计引导函数并利用分类器引导VLA模型更新 [9] - 在潜空间对齐阶段,通过训练两个小型变分自编码器模型,将适配数据的潜变量分布逼近预训练潜分布的某一模态 [17] - 在引导阶段,通过能量函数和分类器衡量生成动作与目标动作分布的差异,将引导梯度整合进训练目标函数中,对生成轨迹的分布施加"拉力" [14] 技术优势 - ATE框架带来三方面优势:样本效率提升、训练效率提升、工程可复用性增强 [10] - 潜空间对齐将策略搜索范围约束在包含目标分布域的流形上,显著降低了拟合到可行动作分布所需的数据量 [10] - 分布引导避免模型全参数重训练,在既定训练预算内获得更快的有效收敛,且与顶层模型解耦,具备即插即用特性 [10] 实验结果 - 在ManiSkill与RoboTwin 1.0等多任务仿真评测中,ATE相较于直接后训练,平均多任务成功率最高提升9.8% [16] - 在真实机器人跨本体现实场景中,ATE带来最高32%的成功率增益,且表现出更稳健的收敛行为与对光照、干扰的鲁棒性 [16] - 具体任务表现:RDT在Empty Cup Place任务成功率由22%提升到61%,Pi-0在Dual Bottles Pick任务上成功率由48%提升到85% [18] - 从样本效率角度,ATE在70k步即可超过传统RDT的90k步效果,说明对齐-引导机制显著提升了任务成功率 [18] 实际应用验证 - 在自行搭建的双臂睿尔曼实验环境中,ATE算法能够将基座RDT和Pi-0等VLA模型快速适配到目标本体上 [20] - 在需要双臂协同、时序规划与多阶段配合的分钟级长程任务上,ATE框架能使模型更快地收敛到目标域动作分布 [20] - ATE框架在未见的光照、杂物干扰、空间偏移与外部干预下仍能维持任务相关注意与恢复能力 [22]
面向VLA方向的1v6科研论文辅导小班课来啦~
具身智能之心· 2025-09-09 08:03
VLA科研背景与介绍 VLA,Vision-Language-Action模型,是具身智能领域的新范式,从给定的语言指令和视觉信号,直接生成出机 器人可执行的动作。这种范式打破了以往只能在单个任务上训练大的局限性,提供了机器人模型往更加通用,场 景更加泛化的方向发展。VLA模型在学术界和工业界的重要性主要体现在其将视觉信息、语言指令和行动决策 有效整合,显著提升了机器人对复杂环境的理解和适应能力。 VLA打破了传统方法的单任务局限,使得机器人能够在多样化的场景中自主决策,灵活应对未见过的环境,广 泛应用于制造业、物流和家庭服务等领域。此外,VLA模型已成为研究热点,推动了多个前沿项目的发展,如 pi0、RT-2、OpenVLA、QUAR-VLA和HumanVLA,这些研究促进了学术界与工业界的合作。其适应性体现在能 够应用于机械臂、四足机器人和人形机器人等多种平台,为各类智能机器人的发展提供了广泛的潜力和实际应用 价值,成为智能机器人领域的关键驱动力。 从产业角度看,国内外具身智能领域正处于蓬勃发展阶段,Unitree、智元、星海图、银河通用、逐际动力等团 队从实验室走向商业化,华为、京东、腾讯等科技巨头也积 ...
花了很久,才整理的具身学习路线......
具身智能之心· 2025-09-08 12:00
行业人才现状与挑战 - 具身智能行业面临系统性人才培养体系缺失的问题,导致人才在数量和质量上均显不足 [1] - 当前从业者背景多元,主要包括自动驾驶、大模型、传统机器人以及其他工程领域,但普遍缺乏完整的技术闭环 [1] - 行业发展迅速,但教育体系转型滞后,许多新入行者缺乏正规指导,呈现“野路子”现象 [1] 社区平台价值与规模 - “具身智能之心知识星球”是国内首个具身全栈技术社区,集视频、图文、学习路线、问答、求职交流于一体,目前拥有近2000名成员 [3] - 社区目标在未来2年内将规模扩大至近万人,旨在打造技术分享与交流的聚集地 [3] - 社区已汇聚近200家具身公司与机构成员,成员来自斯坦福大学、清华大学、智元机器人、优必选等国内外顶尖高校和头部企业 [16] 社区核心内容与资源 - 社区汇总了超过40个开源项目、近60个具身智能相关数据集以及行业主流仿真平台 [17] - 提供了近30条技术路线,覆盖从Benchmark、综述到入门学习的全方位内容 [4] - 整理了包括具身智能感知、交互、VLA、强化学习、机器人导航等在内的17个以上技术子领域的学习路线 [17][44][46][48][50][52][54][58][60][62][64][66][69][71][73][75] 技术交流与前沿探讨 - 社区定期举办圆桌论坛和直播,内容涵盖机器人本体、数据、算法等前沿话题 [4] - 社区问答板块活跃,针对设备使用、数据采集、模型部署等实际问题提供快速解答 [3] - 具体技术讨论包括VLA模型泛化差的原因与解决方法、BridgeVLA方案带来的真机性能提升32%、以及Sim2Real等核心挑战 [4] 职业发展与产业对接 - 社区与多家具身公司建立内推机制,为成员提供求职岗位第一时间对接 [7] - 社区内汇总了国内外具身智能高校和公司信息,为成员深造和职业选择提供参考 [21][22] - 行业观察显示,具身智能目前发展阶段对标自动驾驶17/18年,仍存在入场窗口期,技术栈与自动驾驶有较高通用性 [79][81]
IROS 2025 | 走向物理智能,“桃源”与真实世界机器人学习挑战赛启动
具身智能之心· 2025-09-08 08:03
赛事概览 - 上海人工智能实验室将于2025年10月IROS会议期间举办“物理世界中的多模态机器人学习研讨会”并同期举行“桃源”机器人学习挑战赛 [1] - 挑战赛旨在推动具身智能技术从仿真到现实应用的关键跨越 设置操作与导航2大赛道 [1] - 赛程分为线上仿真阶段和线下决赛阶段 线上赛在“桃源 Intern·Utopia”通用具身仿真平台进行 [1] 技术平台与引擎 - 上海人工智能实验室发布了“书生”具身全栈引擎Intern-Robotics 通过虚拟仿真建模、虚实数据贯通等技术体系 一站式解决具身智能从数据、训练到应用的全链条难题 [1] - 该引擎旨在推动具身大脑从“碎片化开发”迈向“全栈化量产”时代 [1] 赛道一:视觉语言操作任务 - 任务聚焦于开放桌面场景 要求构建具备语言理解与执行能力的多模态机器人操作系统 [6] - 参赛者需设计端到端操控策略模型 实现从视觉感知、语言指令理解到动作控制预测的完整流程 [6] - 机器人需控制机械臂完成复杂指令引导下的多种操控任务 [6] 赛道二:视觉语言导航任务 - 任务聚焦于物理环境 要求构建具备语言理解能力的多模态移动机器人导航系统 [9] - 参赛者需设计感知-决策模型 实现从视觉感知、语言指令理解到导航动作预测的完整流程 [9] - 机器人需驱动足式机器人在语言引导下完成室内导航 并应对视角抖动、高度变化及局部避障等挑战 [9] 赛事挑战 - 赛道一主要挑战包括融合语言与视觉信息驱动一体化流程 长程操作任务的稳定性与自我纠偏 以及应对多样化场景和指令的模型泛化能力 [11] - 赛道二主要挑战包括在物理引擎中稳健处理行走过程中的视角抖动与避障 以及应对复杂新场景与指令的泛化能力 [17] 奖励与支持 - 赛事总奖励价值近百万元人民币 包括奖金、奖品和机器人代金券等 [18] - 每个赛道冠军团队可获得70,000元人民币奖金 第二名35,000元 第三名21,000元 [18] - 优胜团队将受邀在IROS Workshop展示算法方案 并与领域专家交流 优秀参赛者有机会参加上海AI实验室的前沿学术活动 [2] - 赛事由上海AI实验室主办 群核科技与阿德莱德大学协办 并获字节跳动、华为等多家企业联合赞助 [2] 赛程安排 - 2025年7月25日报名启动及赛事材料包发布 7月30日测试服务器上线 [18] - 2025年9月30日提交截止 10月18日进行线下挑战 10月20日在IROS 2025现场颁奖 [18] - 上海AI实验室将于2025年10月20日在IROS大会现场举办研讨会 多位国内外顶尖专家将出席分享 [19]