具身智能之心
搜索文档
EmbodyX最新!VOTE:集成投票&优化加速VLA模型的通用框架,吞吐量加速35倍!
具身智能之心· 2025-07-13 17:48
具身智能与VLA模型优化 核心观点 - VOTE框架通过无分词器微调和集成投票策略显著提升VLA模型的推理速度(35倍加速)和泛化能力(成功率提升20%以上)[4][9][31] - 该方法摒弃传统扩散技术和额外视觉模块,采用单一<ACT> token压缩动作块表示,使边缘设备吞吐量达42Hz[9][21][31] - 在LIBERO和SimplerEnv基准测试中超越CogACT等SOTA模型,WidowX机器人任务平均成功率54.2%[28][32] 技术背景 - 现有VLA模型依赖动作分词器或扩散技术,导致CogACT延迟增加33.8%内存开销,SpatialVLA因多模态输入使token序列延长50%[7][11][13] - 传统方法在跨形态数据训练时需162K-200K轨迹数据,而VOTE通过LoRA微调(秩r=32)降低70K步训练成本[24][25] - 7自由度动作空间设计(平移+旋转+gripper状态)兼容多样化机器人控制需求[16] 创新架构 - 引入<ACT> token替代传统分词器,将ND个动作解码简化为1次MLP前向传播,A6000 GPU吞吐量达145Hz[18][19][21] - 动态投票集成策略基于余弦相似度(阈值τ=0.5)筛选历史动作,错误预测过滤效率提升40%[22][23] - 双token变体支持16动作块解码,NVIDIA Orin平台内存占用仅0.7%[31][32] 性能验证 - LIBERO测试中块大小8的单token方案最优,跨任务成功率超OpenVLA基准线15-25%[27][32] - SimplerEnv评估显示每帧3倍延迟优化,WidowX任务执行误差降低3% vs CogACT[28] - 消融实验证实block大小与吞吐量正相关,但单token8块配置保持精度优势[32]
MuJoCo明天即将开课啦!从0基础到强化学习,再到sim2real
具身智能之心· 2025-07-13 17:48
具身智能技术发展 - 具身智能正在全面崛起 重新定义人类与机器的关系 从Tesla的Optimus到Boston Dynamics的Atlas 全球顶尖科技公司都在布局这一领域 [1] - 具身智能将彻底改变制造业、服务业、医疗健康、太空探索等多个行业 机器人在工厂精密装配、医院协助手术、家庭服务、危险环境救援等方面具有革命性潜力 [1] MuJoCo技术核心价值 - MuJoCo是连接虚拟世界与现实世界的重要桥梁 为机器人学习提供高保真、高效率的训练环境 [4] - MuJoCo可加速学习过程数百倍 支持极端情况测试 通过域随机化技术实现仿真到现实的策略迁移 [6] - MuJoCo采用先进接触动力学算法 支持高度并行化计算 提供视觉/触觉/力觉等多模态传感器模型 已成为学术界和工业界标准工具 [6] 行业应用与生态 - Google、OpenAI、DeepMind等科技巨头都在使用MuJoCo进行机器人研究 顶级会议ICRA、IROS、NeurIPS、ICML大量前沿研究基于MuJoCo [8] - 掌握MuJoCo意味着站在具身智能技术最前沿 获得参与技术革命的入场券 [8] 技术课程体系 - 课程包含MuJoCo技术细节与完整具身智能技术栈 涵盖物理仿真原理、深度强化学习、机器人控制理论、Sim-to-Real迁移技术 [9] - 采用项目驱动学习方式 构建机械臂控制、视觉抓取、运动技能、多机器人协作等实际应用 项目来自中国机器人企业真实场景 [11][30] - 课程工具链包括MuJoCo、Stable Baselines3、PyTorch等 培养从环境搭建到模型训练的完整工作流程 [13] 职业发展路径 - 技术专家方向:机器人算法工程师年薪30-60万 一线城市可达80-150万 涵盖控制算法、感知算法、规划算法研发 [34] - 产品经理方向:机器人产品经理年薪30-80万 需具备技术细节理解与市场洞察能力 可发展为技术总监或创业者 [34] 课程结构设计 - 六周进阶式学习模块:MuJoCo基础→高级建模→强化学习→机器人控制→多智能体系统→Sim-to-Real迁移 [15][17] - 六个实战项目:智能机械臂→视觉抓取→强化学习运动技能→自适应控制→多机器人协作→Sim-to-Real验证 [16][19][21][23][25][27][29]
模拟大脑功能分化!Fast-in-Slow VLA,让“快行动”和“慢推理”统一协作
具身智能之心· 2025-07-13 17:48
研究背景与挑战 - 机器人操作系统需依据传感器输入和语言指令生成精确控制信号,但大规模视觉-语言模型(VLMs)因参数庞大和推理速度慢,限制了高频控制任务的实用性[9] - 现有双系统结构(系统1快速执行/系统2深度推理)存在协同效率低下问题,系统1无法充分利用系统2的语义推理结果[9] 技术方案创新 - FiS-VLA通过将VLM末端Transformer层重构为系统1执行模块,实现快慢系统一体化设计,系统2低频处理2D图像/语言指令,系统1高频响应实时感知输入[11] - 采用异构模态输入设计:系统2接收语言指令与2D图像,系统1接收2D图像/机器人状态/3D点云信息[15] - 双系统协作采用1:4频率比,系统2每运行一次可为系统1后续H步动作生成提供约束[14] 架构与训练 - 基于Prismatic VLM架构,包含SigLIP+DINOv2视觉编码器、LLaMA2-7B语言模型(最后n层Transformer用于系统1)、轻量级3D tokenizer[13] - 系统1采用扩散建模增强动作生成能力,系统2保留自回归推理能力,联合优化训练使用86万条轨迹数据[15][16] 性能表现 - 仿真测试:RLBench任务平均成功率69%,显著优于CogACT(61%)与π0(55%),控制频率达21.9Hz(CogACT的2倍)[18][19] - 真机测试:Agilex与AlphaBot平台平均成功率分别达68%与74%,在"倒水"等高精度任务中优势显著[20] - 泛化能力:面对未见物体/复杂背景/光照变化时,FiS-VLA准确率下降幅度(19%-31%)远小于π0(27%-46%)[23][24] - 消融实验:共享2层Transformer时性能最佳,单步预测8个动作理论控制频率达117.7Hz[25] 应用前景 - 通过统一VLM嵌入执行模块实现推理与控制融合,具备高频(117.7Hz)/高精度/强泛化特性[29] - 未来引入动态调整共享结构与协同频率策略可进一步提升自适应性与鲁棒性[29]
头部互联网具身实验室招募:多模态大模型、机器人多模态交互、强化学习等算法岗位
具身智能之心· 2025-07-13 13:03
招聘岗位概述 - 头部大型互联网具身实验室正在招聘具身多模态大模型、机器人多模态交互、强化学习等方向的研究员 岗位base北京 薪资open [1] 具身多模态大模型研究员 职位描述 - 主导具身智能大模型的核心算法研发 包括多模态感知(视觉、语言、动作)、强化学习策略优化、世界模型构建等方向 [1] - 研究传统仿真与生成式仿真相结合的数据合成方案 构建机器人及具身智能领域的新型数据范式 [1] - 跟踪学术界与工业界最新进展(如VLA、具身智能等) 保持技术领先性并推动团队技术迭代 [1] - 推动模型在机器人场景的落地 解决实际应用中的挑战 [1] 职位要求 - 计算机科学、人工智能、数学、机器人学等相关专业 博士学位优先 5年左右大模型相关工作经验 [2] - 熟悉机器人学、强化学习、多模态融合(VLA)等技术 具备学术敏感度与工程化思维 [2] - 对具身智能、通用机器人方向有浓厚兴趣 具备优秀的逻辑表达与跨团队沟通能力 [2] - 在顶会(CVPR、ICLR、ICRA等)发表过相关论文或主导过开源项目 [2] 机器人多模态交互算法研究员 职位描述 - 研究多模态智能体、多模态推理规划、流式音视频对话模型等前沿技术 推动机器人交互技术创新 [3] - 探索多模态大模型、强化学习算法、大模型Agent在机器人上的创新应用 参与研发下一代智能机器人系统 [3] 职位要求 - 硕士研究生及以上学历 具备优秀的代码能力、数据结构和基础算法功底 [4] - 在大模型、多模态、NLP、CV、强化学习等领域有一定研究基础或项目经验 [4] - 主导过相关重要项目或在顶会(CVPR、ACL、NeurIPS等)发表过论文者优先 [4] - 具备良好的沟通协作能力 能够与团队紧密合作推进项目 [4] 强化学习研究员 职位描述 - 探索多模态大模型、VLA等前沿技术方向 [5] - 推动世界模型、强化学习在具身智能的应用 参与研发下一代智能机器人 [5] 职位要求 - 计算机、自动化、电子等相关专业 [6] - 扎实的机器学习、深度学习、强化学习基础 [6] - 在具身智能、多模态、大模型等领域有研究基础或项目经验 在顶会发表过论文 [6] - 具备良好的沟通协作能力 能推进技术进步 [6] 加分项 - 动手能力和代码能力强 ACM、ICPC等比赛获奖者优先 [9] - 对机器人技术有浓厚兴趣 参加过机器人比赛者优先 [9] - 熟悉物理仿真和常见的虚拟仿真环境 [9]
具身目标导航是怎么找到目标并导航的?
具身智能之心· 2025-07-13 12:13
机器人导航技术演进 - 技术路线从传统建图定位导航向基于大模型方案演变 分为视觉语言导航(VLN)和目标导航两类 [1] - VLN核心是"听懂指令走对路" 目标导航是"看懂世界自己找路" [1][6] 视觉语言导航(VLN)技术架构 - 任务包含三要素:理解语言指令 感知环境 规划运动策略 [2] - 系统由视觉语言编码器 环境历史信息表征 动作策略三大模块构成 [2] - 编码器采用预训练视觉语言模型 LLM用于指令拆解成为主流范式 [2] - 序列决策采用隐式端到端(隐变量表示)或显式端到端(拓扑图/BEV地图等)方法 [2] 目标导航技术突破 - 需在陌生环境中仅凭目标描述自主完成探索与路径规划 [4] - 实现从显式指令到自主决策跃迁 需融合语义解析 环境建模 动态决策能力 [6] - 关键技术包括端到端强化学习 模块化语义地图构建 LLM/VLM集成方法 [17] 商业应用现状 - 终端配送领域:美团无人车实现动态路径重规划 Starship园区配送机器人欧美落地 [8] - 服务场景:嘉楠科技 云迹科技 擎朗智能等公司实现药品/文件/餐食自主配送 [8] - 人形机器人领域:宇树科技Unitree 智元机器人 特斯拉Optimus集成导航模块 [8][9] 行业人才需求 - 导航技术被公认为具身智能最先落地的子领域 [9] - 具身公司为导航岗位开出七位数年薪 [9] 技术学习难点 - 需掌握NLP CV 强化学习 图神经网络等多领域知识 [10] - 知识碎片化严重 论文数量繁多导致入门困难 [10] 专业课程内容 - VLN课程覆盖仿真环境 基准测试 端到端方法 数据增强等模块 [13] - 目标导航课程包含语义框架 Habitat仿真 LLM/VLM系统等方向 [16] - 学习成果包括掌握3D仿真接口 复现主流框架 实现Sim2Real迁移等能力 [16][17]
具身智能之心多模态大模型交流群成立啦!
具身智能之心· 2025-07-12 21:59
具身智能技术交流群 - 该群专注于多模态大模型技术交流 包括视觉+语言(V+L) 视觉+语言+触觉(V+L+触觉)等方向 [1] - 目标人群为从事具身智能模型微调 部署 量化 轻量化等工作的研究人员 [1] - 提供微信交流群加入渠道 并设有严格的广告管理规则 [1] - 群满后可联系助理CLmovingup 需备注"具身大模型+入群"申请加入 [1] 技术研究方向 - 重点关注具身智能相关模型的优化与应用 包括模型微调 部署实施 量化处理 轻量化设计等 [1] - 交流内容涵盖多模态大模型的前沿技术 特别是视觉与语言 触觉等多感官融合领域 [1]
倒计时2天,即将开课啦!从0基础到强化学习,再到sim2real
具身智能之心· 2025-07-12 21:59
具身智能技术发展 - 具身智能技术正在快速成为现实 全球顶尖科技公司如Tesla、Boston Dynamics、OpenAI、Google等都在布局这一领域 该技术将彻底改变制造业、服务业、医疗健康、太空探索等行业 [1] - 具身智能的核心在于让AI系统不仅拥有"大脑" 还要拥有能够感知和改变物理世界的"身体" 使其能够理解物理定律、掌握运动技能、适应复杂环境 [1] - 该技术的应用场景包括工厂精密装配、医院手术协助、家庭贴心服务、危险环境救援等 潜在影响力是革命性的 [1] MuJoCo技术优势 - MuJoCo是连接虚拟世界与现实世界的重要桥梁 为机器人学习提供高保真、高效率的训练环境 [3] - 相比传统方法 MuJoCo可使仿真速度比现实时间快数百倍 支持高度并行化计算 可同时运行成千上万个仿真实例 [5] - MuJoCo采用先进接触动力学算法 精确模拟机器人与环境的复杂交互 提供视觉、触觉、力觉等多种感知模态 具有出色稳定性和数值精度 [5] 行业应用与认可 - MuJoCo已成为学术界和工业界标准工具 大量前沿研究基于MuJoCo进行 Google、OpenAI、DeepMind等科技巨头都在使用该技术 [7] - 掌握MuJoCo意味着站在具身智能技术最前沿 拥有参与技术革命的入场券 [7] 课程内容设计 - 课程采用项目驱动学习方式 包含六个递进式实战项目 从机械臂控制到人形机器人行走、灵巧手抓取、多智能体协作等前沿应用 [9][15] - 项目一:智能机械臂控制系统 涉及MuJoCo建模、物理仿真、基础控制等技术 构建六自由度机械臂模型 [17][18] - 项目二:视觉引导的抓取系统 添加视觉感知能力 实现物体检测和抓取 理解感知与控制的关系 [19] - 项目三:强化学习驱动的运动技能 训练智能体学会复杂运动技能 如机械臂抛接球、四足机器人奔跑等 [20] - 项目四:自适应控制与轨迹优化 实现模型预测控制算法 进行实时轨迹优化 [21] - 项目五:多机器人协作系统 设计多机器人协调配合 共同完成复杂任务 [22] - 项目六:Sim-to-Real迁移验证 通过域随机化技术提高鲁棒性 在真实机器人上进行验证 [23] 技术能力培养 - 课程将培养学员掌握MuJoCo各项功能 构建复杂机器人仿真环境 实现高保真物理交互 [25] - 深入理解强化学习核心算法 掌握机器人控制理论基础和实践技巧 实现精确运动控制和轨迹跟踪 [25] - 掌握Sim-to-Real迁移技术 将仿真成果成功应用到真实世界 [25] - 培养完整项目开发经验 熟悉现代AI开发工具链 包括Python生态、深度学习框架等 [25] - 通过六个递进式项目实践 培养独立解决复杂问题的能力 成为具身智能领域复合型人才 [26] 课程安排 - 课程采用六周渐进式学习设计 每周有明确学习目标和实践项目 [14] - 每周内容:MuJoCo基础入门、高级建模与传感器集成、强化学习与智能决策、机器人控制理论、多智能体系统、Sim-to-Real迁移 [17] - 开课时间为2025年7月15日 采用离线视频教学 vip群内答疑方式 [27] 目标人群 - 机器人/强化学习方向研究生、本科生 期望快速补齐实战能力 [29] - 具身与机器人从业者 已有编程或算法基础 想进军该领域 [29] - 从传统CV、自动驾驶、机械臂转向具身机器人研究或工程的转行者 [29] - 对前沿技术感兴趣的爱好者 [29]
武汉大学&北理工等SOTA方案!DEGround:增强具身三维环境中的语境理解
具身智能之心· 2025-07-12 21:59
3D Grounding模型性能问题 - 当前主流的两阶段3D Grounding模型在实证中表现不佳,未达到预期效果,反而未接受语言监督、仅依赖目标类别筛选的检测模型在Grounding任务中表现更优[2] - 实验结果显示,仅通过关键词匹配的简单策略在性能上超越了经过完整语义解析训练的Grounding模型,暴露出当前模型在物体类别识别层面的短板[2] DEGround设计理念与方法架构 - DEGround通过共享查询机制实现检测能力向Grounding任务的自然迁移,采用RAG模块增强语言语义与空间区域的对齐能力,并引入QIM模块提升查询对指令的适应性[4][6] - RAG模块通过跨模态语义对齐与空间显著性建模锁定目标区域,QIM模块利用语言引导的特征变换动态调整查询表示空间[12] DEGround性能表现 - 在EmbodiedScan视觉定位基准上,DEGround以71.42%的Easy@0.25分数和60.99%的Hard@0.25分数排名第一,显著超越第二名BIP3D的71.22%和62.91%[5] - 在3D检测任务中,DEGround实现24.68%的整体性能,相比BIP3D的20.91%提升3.77个百分点,在Head类别上达到34.45%的检测率[10][11] - 在EmbodiedScan测试集中,DEGround以62.18%的Overall分数超越使用更强视觉主干网络(Swin-T)的BIP3D(54.66%)[9] 可视化与语义理解优势 - 可视化结果显示DEGround能精准识别复杂指令中的目标物体,如"find the ball that is near the paper",而基准模型EmbodiedScan出现误选[13] - 在涉及空间关系的指令处理中,DEGround能准确区分干扰物并锁定目标,展示出更强的语义理解与空间推理能力[13] - RAG模块生成的区域相似度图证实其能有效激活与语言描述高度相关的空间区域[15] 技术突破与行业影响 - DEGround的统一架构实现多模态多视角输入的融合,构建同时包含空间结构与语义信息的三维特征表达[12] - 该方法在CVPR 2024 Autonomous Grand Challenge的Multi-view 3D Visual Grounding赛道全面超越DenseGrounding等现有方案[9] - 框架在ScanNet(65.03%)和3RScan(65.98%)数据集上表现尤为突出,显示对复杂室内场景的强适应能力[9][10]
从本体到数据,从VLA到VLN!一个近2000人的具身社区,大家在这里抱团取暖
具身智能之心· 2025-07-11 17:47
具身智能社区发展 - 社区成立三周年,当前重点推进具身智能方向,目标将社区规模扩展至2000人[1] - 已见证ACT、RDT-1/RDT-2、CogACT、OpenVLA、π0、π0.5等系列技术成果推出,显示领域发展迅速[1] - 社区成员包括学术研究者和求职者,提供30+技术路线梳理,覆盖benchmark检索、综述学习等需求[1] 社区资源与支持 - 邀请数十位产业界与学术界嘉宾参与,涵盖顶会专家和行业领袖,提供实时答疑[1] - 建立与近200家具身公司的内推合作机制,直接对接求职需求[2][5] - 汇总40+开源项目、60+数据集及主流仿真平台,技术路线包括强化学习、多模态大模型等12个细分领域[11] - 提供国内外高校实验室及头部公司名录,涉及斯坦福、清华、智元机器人等200+机构[11][14][17] 技术内容体系 - 按应用场景分类技术路线,包括机械臂抓取、机器人导航、Diffusion Policy等25个方向[11][35][37][51] - 整理行业研报、零部件品牌(芯片/激光雷达等)、机器人书籍及仿真平台资源[19][22][24][31] - 数据集覆盖触觉感知、视觉语言导航等8类任务,支持算法训练与验证[29] 会员服务与活动 - 定期举办圆桌论坛与直播,主题涵盖本体设计、算法优化等全产业链议题[1][64] - 提供专属学习视频、岗位推荐及项目对接服务,日均成本低于0.5元[16][71] - 社区互动案例:协助学生规划仿真环境项目,优化实习申请策略[68][69]
从近30篇具身综述中!看领域发展兴衰(VLA/VLN/强化学习/Diffusion Policy等方向)
具身智能之心· 2025-07-11 08:57
具身智能研究综述 - 文章整理了数十篇具身智能领域的综述论文,涵盖数据集、评测、视觉-语言-动作模型(VLA)、视觉语言导航(VLN)、强化学习、基础模型和扩散策略(DP)等方向 [1] 视觉-语言-动作模型(VLA) - 从动作标记化视角综述VLA模型的发展 [2] - 自动驾驶领域的VLA模型应用现状 [2] - VLA模型后训练与人类运动学习的类比研究 [2] - 探讨VLA模型的概念、进展、应用与挑战 [5] - 机器人视觉中的多模态融合与VLM应用 [6] 机器人基础模型 - 机器人领域基础模型的应用现状与未来挑战 [3] - 深度强化学习在机器人领域的实际应用案例 [3] - 扩散策略在机器人操作中的分类与发展方向 [3] - 面向具身AI的机器人基础模型研究进展 [9] 工业机器人技术 - 具身智能工业机器人的概念与技术框架 [4] - 受神经科学启发的具身智能体框架Neural Brain [4] 机器人导航与操作 - 物理模拟器在具身AI时代的机器人导航与操作应用 [5] - 目标导向导航的多模态感知技术 [5] - 扩散模型在机器人操作中的应用现状 [5] - 基于模仿学习的灵巧操作技术综述 [5] - SE(3)等变机器人学习与控制方法 [6] 多模态大模型 - 具身多模态大模型的发展与数据集建设 [8] - 大模型在具身AI中的研究挑战 [8] - 网络视频数据在通用机器人学习中的应用 [9] 数据集与评测 - 通用型具身智能体数据集标准建设 [9] - 人形机器人远程操作技术研究 [9]