Workflow
具身智能之心
icon
搜索文档
DreamVLA:全球首个“世界知识预测”VLA模型,操作成功率近八成
具身智能之心· 2025-07-10 21:16
研究背景与动机 - 视觉-语言-动作(VLA)模型在机器人操作领域展现出潜力,但现有方法存在信息冗余、缺乏动态和空间知识等问题,难以形成闭环的感知-预测-动作循环 [3] - 人类行动前会形成多模态推理链,而现有VLA模型直接从观测映射到动作,缺乏前瞻推理能力 [3] - 部分方法尝试生成未来帧或关键点辅助动作预测,但仍存在像素冗余、3D空间信息缺失和高层语义不足等局限 [3] 模型设计核心思路 - DreamVLA通过预测动态区域、深度和语义三类核心世界知识,构建更有效的感知-预测-动作循环 [4][5] - 动态区域预测利用光流模型识别任务关键运动区域,避免冗余帧重建,优化目标为最大化对数似然的证据下界 [4] - 深度感知预测采用深度估计算法生成深度图,提供3D空间上下文,通过尺度归一化均方误差训练 [5] - 高层基础特征整合DINOv2和SAM等视觉基础模型的语义特征,通过InfoNCE损失进行对比语义预测 [5] 结构注意力与动作生成 - 块结构注意力机制将查询分解为动态、深度、语义三个子查询,屏蔽子查询间相互注意力,避免跨类型知识泄露 [6] - 采用扩散Transformer解码器从共享潜在特征中分离动作表示,通过迭代自注意力和去噪过程生成动作序列 [8] 实验结果与分析 - 在CALVIN模拟基准上,DreamVLA平均任务长度达4.44,超过RoboVLM(4.25)和Seer(4.28)等方法 [9][10] - 真实世界实验中,DreamVLA在Franka Panda机械臂任务中平均成功率达76.7%,显著高于Diffusion Policy(50.8%)和Octo-Base(45.0%) [10] - 消融实验显示动态区域预测单独使用时增益最大,深度和语义线索增益较小但接近 [11] - 预测未来知识的性能(平均长度4.44)显著优于仅重建当前信息(4.14) [12] - 块结构注意力使平均任务长度从3.75提升至4.44,证明其在抑制跨信号干扰中的有效性 [13] 核心贡献与局限 - 将VLA模型重构为感知-预测-动作模型,通过预测动态、空间和高层语义信息提供前瞻线索 [16] - 提出块结构注意力机制结合扩散Transformer解码器,实现连贯的多步动作推理 [16] - 当前主要适用于平行夹爪操作,依赖RGB数据,场景几何和材料多样性有限 [15]
CEED-VLA:实现VLA模型4倍推理加速,革命性一致性蒸馏与早退解码技术!
具身智能之心· 2025-07-10 21:16
视觉语言动作模型(VLA)加速技术 - 提出CEED-VLA框架,通过Jacobi Decoding和Early-exit Decoding策略实现推理速度提升,最高达4.1倍加速比和执行频率4.3倍提升 [2][6][15] - 引入一致性蒸馏机制与混合标签监督方法,确保学生模型从中间状态准确预测动作,保留操作技能 [9][11][13] - 识别Jacobi解码迭代效率瓶颈,通过提前退出策略优化高频任务执行,保持成功率的同时减少冗余计算 [15][20] 模型架构与训练方法 - 框架基于预训练VLA模型(如LLaVA-VLA)生成训练数据,结合一致性损失(KL散度)和自回归损失进行联合优化 [6][12][14] - 混合标签监督动态调整样本标签,对偏差较大样本采用真实标签,提升模型鲁棒性 [13][19] - 消融实验显示混合标签方案速度提升2倍,平均预测长度3.67,优于纯教师模型或真实标签方案 [19][21] 性能评估结果 - 在CALVIN基准测试中,CEED-VLA固定token数达13.5,速度提升2倍,显著优于PD-VLA(8.75 token,1.33倍)和基线模型 [20] - 真实世界任务(如叠毛巾)成功率超70%,机械臂动作连续性优于LLaVA-VLA,后者因低频控制常出现抓取失败 [30][31] - LIBERO LONG基准测试显示,模型在长序列任务中保持高效执行,任务完成率与推理速度同步优化 [22][23] 技术对比与创新 - Jacobi解码并行输出token但收敛条件严格,Early-exit策略通过预设步数提前输出,利用后期token变化微小特性提升效率 [15] - 一致性训练使中间点收敛至固定点,KL散度约束分布差异,自回归损失继承教师模型能力 [9][12][14] - 开源代码与Arxiv论文提供完整实现细节,包括轨迹收集、蒸馏流程和解码优化 [4][6]
双非同学竟然是这样发第一篇CVPR的!
具身智能之心· 2025-07-10 21:16
论文辅导服务案例 - 双非硕士生在无导师指导情况下通过10个月辅导成功发表CVPR25论文 成为学院首位CVPR发表者 [1] - 成功关键因素包括学生主动寻求外部辅导 以及自身勤奋刻苦的研究态度 经常工作至凌晨 [1] - 案例证明无人指导时主动行动的重要性 被动等待可能导致错过发表机会 [1] 服务内容与方向 - 提供从研究构思到实验设计、论文写作到投稿的全流程一站式服务 [1] - 覆盖多个前沿技术领域包括大模型、视觉语言导航、强化学习、机器人控制等16个具体研究方向 [1] - 支持带课题咨询 满足各类论文发表需求 [1] 服务分级与定价 - 按论文级别提供差异化定价服务 [2] - 涵盖计算机领域CCF-A/B/C类会议期刊 [2] - 服务范围包括SCI各分区期刊 中科院分区期刊 EI检索及中文核心期刊 [2] - 同时支持毕业论文、申博论文及竞赛论文等需求 [2]
MuJoCo实战教程即将开课啦!从0基础到强化学习,再到sim2real
具身智能之心· 2025-07-10 16:05
具身智能技术发展现状 - 全球顶尖科技公司如Tesla、Boston Dynamics、OpenAI、Google等正在竞相布局具身智能领域,代表性产品包括Optimus人形机器人、Atlas、机械手和RT-X项目 [1] - 具身智能的核心在于让AI系统不仅拥有"大脑",还具备感知和改变物理世界的"身体",能够理解物理定律、掌握运动技能并适应复杂环境 [1] - 该技术将革命性改变制造业、服务业、医疗健康、太空探索等多个行业,应用场景包括精密装配、手术协助、家庭服务和危险环境救援 [1] MuJoCo技术的关键作用 - MuJoCo(Multi-Joint dynamics with Contact)是连接虚拟与现实世界的重要桥梁,为机器人学习提供高保真、高效率的训练环境 [3] - 解决了传统机器人学习方法的痛点:避免昂贵硬件损坏、加速学习过程(仿真速度比现实快数百倍)、支持极端情况测试 [5] - 技术优势包括:先进的接触动力学算法、高度并行化计算、丰富的传感器模型(视觉/触觉/力觉)、出色的稳定性和数值精度 [5] - 已成为学术界和工业界标准工具,被Google、OpenAI、DeepMind等科技巨头广泛使用 [7] 具身智能实战课程体系 - 课程采用六周模块化设计,包含MuJoCo基础、高级建模、强化学习、机器人控制、多智能体系统和Sim-to-Real迁移等完整知识体系 [13][17] - 设计了六个递进式实战项目:智能机械臂控制(六自由度模型/PID控制器)、视觉引导抓取系统、强化学习运动技能、自适应控制(MPC算法)、多机器人协作、Sim-to-Real迁移验证 [16][18][19][20][21][22] - 教学特色:项目驱动学习、中英双语资料、真实产业应用场景、多难度级别设计、完整工具链实践(PyTorch/Stable Baselines3) [9][10][22] 技术能力培养目标 - 技术能力:掌握MuJoCo高级功能、强化学习核心算法、机器人控制理论和Sim-to-Real迁移技术 [24] - 工程能力:具备完整项目开发经验,熟悉AI工具链(Python生态/深度学习框架),培养代码规范、文档编写等专业素养 [24] - 创新能力:通过六个项目培养需求分析、方案设计、实施验证、迭代优化的完整研发流程,成为复合型人才 [25] 目标受众与课程安排 - 主要面向四类人群:机器人从业者、相关领域学生、行业转行者和技术爱好者 [28] - 课程将于2025年7月15日开课,采用6周离线视频教学+vip群答疑模式 [26]
找了具身算法岗位!怎么过HR面试这关?如何谈薪和battle?
具身智能之心· 2025-07-10 11:36
HR面试要点 HR考察核心 - HR最看重候选人的稳定性、忠诚度、合作能力、沟通能力、良好态度和责任感 [1] - 具体评估维度包括:工作稳定性(避免频繁跳槽)、逻辑思维与临场反应、乐观团队意识、抗压能力、沟通协作能力 [5] 常见问题分类 沟通与综合能力 - 自我介绍需逻辑清晰、突出优势,采用总分结构 [2] - 优缺点回答需真诚谦虚,技术类缺点可提及"爱钻牛角尖"等中性表述 [2] 稳定性评估 - 离职原因需客观被动(如公司业务调整),避免负面评价前公司 [3] - 求职动机需结合应聘公司特点,强调成长机会与公司发展契合度 [3][6] 冲突处理与态度 - 与主管分歧时需从自身找原因,强调全局观和公司利益优先 [4][6] 薪资谈判技巧 - 期望薪资可参考岗位范围并上浮2k-3k,需提前了解薪资架构(绩效、五险一金基数等) [7] - 持有多个offer可增加谈判筹码 [7] 具身智能行业资源 技术社区概况 - 具身智能之心知识星球覆盖国内外近200家高校与企业,包括斯坦福、清华、优必选、小米等头部机构 [14] - 提供40+开源项目、60+数据集及20+技术路线,涵盖感知、交互、强化学习、大模型部署等领域 [14][15] 核心资源分类 学习体系 - 技术路线包含机械臂策略学习、触觉感知、Diffusion Policy等16个专项方向 [14][39][40] - 提供机器人导航、动力学等专业书籍PDF及仿真平台资源 [26][27][37] 产业应用 - 汇总30家头部公司研报及零部件供应商(芯片、激光雷达等) [21][23][29] - 开源项目覆盖抓取、控制、VLA模型等应用场景 [31][54][65] 数据与工具 - 多模态数据集涵盖触觉感知、机械臂抓取等垂直领域 [35] - 仿真平台支持Sim2Real迁移学习与真实场景模拟 [37][62] 社区附加价值 - 提供行业直播、求职对接及项目方案指导 [71][73] - 成员可获取企业岗位内推及研究方向选择建议 [19][74]
有几个Top具身公司的大模型、强化学习、VLA和具身导航岗位!
具身智能之心· 2025-07-10 11:36
多模态大模型职位 - 工作地点为北京和深圳,月薪范围为40k-80k [2] - 研究方向包括移动操作、导航和VLA(视觉语言行动) [2] - 职责涵盖具身智能大模型框架设计、模型优化及下游任务训练部署 [2] - 要求计算机/人工智能/机器人相关专业硕士学历,具备机器人感知/导航/操作或AI大模型经验 [3] - 优先考虑有NaVid/MobilityVLA等机器人导航领域算法落地经验者 [3] - 加分项包括顶级会议论文发表、熟悉Transformer/RLHF算法、多模态数据处理经验 [4] 强化学习职位 - 工作地点为北京,月薪范围为40k-80k [5] - 研究方向包括强化学习和VLA [5] 具身导航算法职位 - 工作地点为深圳,月薪范围为30k-60k [6] - 研究方向包括多模态和VLN(视觉语言导航) [6] - 职责涉及多模态数据到规划的端到端映射及世界模型应用 [6][7] - 要求计算机/自动化/电子相关专业,具备机器学习/深度学习/强化学习基础 [7] - 优先考虑有ICLR/NeurIPS等论文发表或ACM/ICPC竞赛获奖者 [7] 岗位咨询方式 - 可通过添加微信Remix-clover咨询多模态导航移动基础模型相关岗位 [9] - 咨询需备注"具身之心+具体岗位" [9]
具身数采方案一览!遥操作和动捕的方式、难点和挑战(2w字干货分享)
具身智能之心· 2025-07-09 22:38
遥操作技术发展现状 - 遥操作概念起源于太空探索和军事领域,已有数十年历史,早期应用于手术机器人和远程挖掘机等场景[6][10] - 具身智能的兴起使遥操作技术重要性显著提升,主要因其在数据采集方面的关键作用[15][17] - 当前主流遥操作方案包括同构臂控制、VR操控和视觉动捕技术,其中纯视觉IK方案因操作自由度优势获得专家认可[21][29][31] 技术挑战与解决方案 - 系统延迟是核心瓶颈,整体延迟需控制在40毫秒以内以避免眩晕,远程操作普遍面临100毫秒延迟难题[34][118] - 异构映射问题突出,特别是手部操作环节,需设计新型reward函数优化人手到机械手的转换[83] - 动捕系统面临精度与自由度平衡难题,光学方案精度高但设备复杂,纯视觉方案便捷但存在遮挡问题[74][94][96] 行业应用场景 - 医疗领域已实现四手手术机器人系统,医生通过同构操作台完成精密手术[6] - 工程机械领域出现远程遥控挖掘机,操作员可在空调房内完成作业[6] - 人形机器人控制提出驾驶舱概念,通过多功能按钮集成实现移动与关节协同操作[68][71] 技术演进方向 - 未来可能形成纯虚(纯视觉)与纯实(力反馈外骨骼)两种互补方案[38][45] - 智能辅助系统将成为关键,类似汽车ESP的自动补偿机制可提升操作效率[125][126] - 脑机接口被视为终极解决方案,可绕过当前感知-动作转换链条的直接控制[37][144] 行业生态建设 - 标准化缺失制约发展,ALOHA系统首次提供完整硬件算法套件但尚未形成行业标准[103][109] - 机器人操作系统需从功能模块导向转向以人为中心,类似Windows的交互范式变革[146][147] - 封闭生态趋势显现,各厂商自定义中间件导致底层适配工作量大,亟需统一平台[159][160] 商业价值展望 - 遥操作将长期存在,即使实现AGI仍需要保留人类参与感和控制权[134][136] - 分身应用场景潜力巨大,可实现跨空间实体存在,但受限于图传等技术瓶颈[61][122] - 设计理念转向"Teleoperation First",将遥操作作为产品核心而非过渡方案[161][162]
灵活迅捷,开发友好,魔法原子最新人形机器人 Z1 来了
具身智能之心· 2025-07-09 22:38
产品发布 - 魔法原子发布新款双足人形机器人MagicBot Z1,采用"高性能可靠本体+开放AI生态系统+丰富场景落地应用"三位一体策略 [1] - MagicBot Z1拥有24基础自由度,可扩展至49自由度,关节最大扭矩超过130N·m,支持320°运动范围 [1] - 产品具备"大扰动冲击恢复"、"连续倒地起身"等高爆发运动能力,支持"下腰"等高难度动作 [1] 硬件性能 - 采用高强度铝合金和工程塑料,通过拓扑优化和正向分析设计提升抗摔、抗磨损能力 [5] - 利用热仿真技术优化整机结构与风道设计,确保长时间稳定性能输出 [5] - 配备3D激光雷达、深度相机、双目相机等传感器,搭载自主定位导航系统 [7] 开发平台 - 开发者可在20分钟内掌握一套全新动作,加速机器人训练 [9] - 提供标准机器人控制器,依托鲁棒运动控制算法适应不同地形与环境 [9] - 多源数据库和标准控制器助力开发者快速开发自有控制器及应用案例 [9] 交互能力 - 具备拟人化情感交互能力,基于多模态交互构建拟人化系统 [13] - 支持语音交互和拟人化动作如扭头、招手等 [13] - 通过视觉和触觉感知信息改变机器人冰冷形象 [13] 产品定位 - 提供标准版和开发版两大系列,开发版可选装灵巧手、高性能算力包等 [15] - 标准版为爱好者提供入门体验,开发版支持科研教育、商业服务等多场景应用 [15] - 公司总裁表示产品重新诠释"智能体"概念,具备超越人类的运动能力和智能感知 [15] 公司背景 - 全球领先具身智能科技公司,专注人形机器人研发、生产与产业化 [16] - 拥有全栈自研软硬件技术,覆盖关节模组、灵巧手等核心零部件 [16] - 核心团队来自行业顶尖企业,产品已实现量产及交付 [16] 融资情况 - 2024年12月至2025年5月完成两轮超亿元融资,总融资额超2.5亿元 [17] - 资金用于具身智能技术研发、VLA模型搭建及工业/商业场景落地 [17] - 自研核心零部件占比达90% [17]
VLA爆发!从美国RT-2到中国FiS-VLA,机器人的终极进化
具身智能之心· 2025-07-09 22:38
具身智能与VLA模型发展 - 2025年全球具身智能赛道爆火,视觉语言动作模型(VLA)成为核心驱动力,从美国RT-2到中国FiS-VLA实现技术快速迭代 [4][6][7] - 谷歌DeepMind、Figure AI等硅谷领军企业加速布局VLA,谷歌发布首个离线VLA模型实现机器人精准离线操控 [8][9] - 中国智平方联合高校推出FiS-VLA模型,通过快慢双系统架构解决机器人操控效率与推理能力矛盾问题 [10][12] 技术演进关键节点 - 谷歌RT-1(2022年)开创机器人Transformer模型,首次实现"预训练+微调"范式,完成多步骤任务如"把可乐放入冰箱" [23][25][27] - 微软ChatGPT for Robotics(2023年)实现零样本任务规划,但暴露语言模型在动作控制上的局限 [31][32][34] - 谷歌RT-2(2023年7月)确立VLA范式,将动作离散化为文本token联合训练,在未见任务上成功率超50% [38][39][40][46] 中国技术创新突破 - 智平方推出RoboMamba模型,引入Mamba架构使推理速度达主流模型3倍,仅微调0.1%参数实现SE(3)位姿预测 [45][47][50][52] - HybridVLA模型融合自回归与扩散架构,在仿真任务成功率提升8%,真实环境提升11% [74][77][79] - FiS-VLA实现21.9Hz控制频率,是CogACT的2倍以上,在RLBench任务平均成功率69%领先基线方法 [105][114][115] 国际竞争格局 - 开源模型OpenVLA以7亿参数超越55亿参数的RT-2-X,29种操作任务成功率高出16.5% [54][57][58] - Figure AI发布Helix双系统模型,系统1(80M参数)与系统2(VLM主干)实现7-9Hz工作频率 [88][89][93][96] - 英伟达开源GROOT N1人形机器人基础模型,融合互联网与机器人数据实现广义推理 [97][98][101] 行业应用前景 - VLA技术推动机器人从实验室走向工业落地,已在人形机器人和智能制造领域部署应用 [123][124] - π系列模型实现开放世界泛化,在未见家庭场景零样本完成清洁任务,标志技术具备大规模推广能力 [63][69][70] - 技术演进形成"自回归到扩散到混合"与"非端到端到快慢耦合"双路径,推动机器人向通用能力进化 [122]
智元先于宇树上市?星海图最新A轮融资超1亿美元
具身智能之心· 2025-07-09 11:30
智元机器人收购上纬新材股份 - 智元机器人将收购上纬新材至少63.62%股份 交易完成后控股股东变更为智元机器人及其管理团队共同持股的主体 实际控制人变更为邓泰华 核心管理团队包括B站UP主"稚晖君"等 [1] - 智元机器人已推出"远征""精灵""灵犀"三大产品线 覆盖交互服务 工业制造 商业物流与科研教育等场景 预计2025年出货量达数千台 [1] - 此次交易可能成为"国九条"与"并购六条"发布后新质生产力企业在A股的标志性案例 也是具身智能领域首个登陆科创板的收购项目 [1] - 智元机器人已完成多轮融资 3月获腾讯领投 龙旗科技 卧龙电气等跟投 5月京东 上海具身智能基金加入 估值突破150亿元 [1] 国产机器人赛道动态 - 宇树科技完成C轮融资并股改 传出科创板IPO计划 智元机器人通过"借壳"方式率先迈出上市关键一步 [2] 星海图融资进展 - 星海图完成A4轮及A5轮战略融资 合计超1亿美元 A4轮由今日资本 美团龙珠领投 中金保时捷基金 襄禾资本等跟投 A5轮由美团龙珠 美团战投领投 北京机器人基金超额加注 [3] 具身智能之心知识星球资源 - 社区成员来自斯坦福大学 清华大学等高校及智元机器人 优必选等企业 覆盖近40+开源项目 60+数据集 [11] - 技术学习路线包括具身智能感知 强化学习全栈 VLN VLA 多模态大模型 机械臂策略 双足/四足机器人等16个方向 [11] - 汇总国内外40+具身智能实验室 公司涉及教育 宠物 工业等方向 包含大模型 人形机器人行业研报 [14][17][19] - 提供机器人导航 动力学等书籍 PDF 零部件品牌清单 开源项目 仿真平台 ToF相机技术手册等资源 [22][24][26][28][31] - 专项整理触觉感知 多模态大模型理解/生成 Diffusion Policy 机械臂抓取等前沿领域技术资料 [41][43][45][51][59] 行业交流与案例 - 社区定期举办行业大佬直播 成员可自由提问工作选择 研究方向等问题 案例显示某控制专业学生咨询具身智能仿真项目建议 [64][67][68]