具身智能之心
搜索文档
只需少量演示即可灵活应对多样物体!阿米奥冯骞团队携低成本精准灵巧操作方案亮相IROS!
具身智能之心· 2025-10-20 08:03
技术方案核心创新 - 提出LensDFF框架,利用语言特征作为语义锚点,通过动态投影公式将CLIP提取的2D视觉特征对齐到3D空间,从根源解决跨视角特征不一致问题,且全程无需微调或额外训练对齐网络[2] - 将5种抓取原语(捏、钩、三脚架等)融入少样本演示,搭配法向量引导初始化和低维eigengrasp优化,使DLR-HIT灵巧手能根据物体形状自适应调整手指动作,显著提升灵巧性[2] - 设计real2sim流水线实现仿真快速调参,端到端耗时压缩至13秒,比SparseDFF快3秒、比F3RM快近5分钟[2] 性能表现与实验数据 - 在12个YCB物体测试中,单视角抓取成功率超40%(仿真)、64%(真实场景),在核心指标(>3秒成功率)上超越F3RM 16.9%、SparseDFF 15.8%[2][30][32] - 特征对齐仅需70毫秒,整体运行时间仅13秒(含SAM2与CLIP推理),真实场景成功率64%,运行时间比SparseDFF短3秒,远快于F3RM的5分钟[2][30][32] - 消融实验验证技术必要性:无特征对齐成功率0%,仅语言增强成功率34.17%,完整LensDFF方案成功率40.83%[33] 行业应用前景 - 技术使机器人在家庭服务、工业分拣等场景中,无需依赖海量数据,仅通过少量演示就能应对多样物体,为低成本落地灵巧操作提供了新路径[3][38] - 方案尤其适用于需要快速适配未知物体的场景,如柔性制造、物流分拣等对机器人操作效率和适应性要求高的领域[38] - 通过多模态大模型的特征蒸馏实现少样本学习,降低了机器人灵巧操作的数据采集和训练成本,提升了技术商业化落地的可行性[3] 公司技术背景 - 技术由阿米奥机器人公司研发,成果一作为公司联合创始人兼技术负责人冯骞,其硕博就读于德国慕尼黑工业大学,师从机器人泰斗Alois Knoll,曾是思灵机器人早期员工、研究科学家[5][39] - 公司团队为复合型作战团队,由汽车/3C大厂高管带队,涵盖科学家、大模型人才及工程落地专家,创始人刘方为小米早期员工及小米汽车自动驾驶产品技术负责人[39] - 公司专注于为全球制造业智能化转型提供核心技术,聚焦工业场景的柔性生产需求,致力于通过自主创新的机器人解决方案重构企业级生产效能[39]
端到端基础模型!VCoT-Grasp: 视觉思维链增强的机器人抓取检测大模型
具身智能之心· 2025-10-19 21:50
技术方法与创新 - 提出VCoT-Grasp模型,一种端到端的语言驱动抓取基础模型,通过引入视觉思维链(Visual Chain-of-Thought)推理来增强视觉理解能力 [2][5][7] - 模型采用两阶段推理:第一阶段根据指令预测目标物品的边界框(bounding box),第二阶段将边界框图像、原图像和指令共同输入,解码出最终抓取动作 [7] - 模型架构基于PaliGemma-3B视觉语言模型,在预测动作时,采用离散化token形式的动作头(LM Head)性能最优,平均抓取成功率可达69.16% [7][8][12] 数据集构建 - 为训练模型构建了高质量数据集VCoT-GraspSet,该数据集在Grasp Anything基础上通过开集检测模型YOLO-World进行优化 [9] - 数据集包含167K张合成图像和1.36M抓取标签,以及400张实机采集数据和1200个手动标注的抓取标签 [9][10] 性能表现 - 在数据集测试中,VCoT-Grasp模型(使用LM Head)在已见物体上的抓取成功率为83.60%,在未见物体上为58.98%,平均成功率为69.16%,显著优于对比方法 [11][12] - 实机测试显示,VCoT-Grasp在15种已见物体上的整体抓取成功率为0.71(71%),优于GR-ConvNet+CLIP的0.55和RT-Grasp的0.53 [12] - 模型在面对背景变化和干扰物时表现出强鲁棒性,在原始场景、背景变化和存在干扰物的场景下,抓取成功次数分别为19/25、21/25和16/25 [16]
ROSCon China 2025 大会议程公布!
具身智能之心· 2025-10-19 00:03
大会基本信息 - ROSCon China 2025将于2025年10月31日至11月1日在上海虹桥新华联索菲特大酒店举行 [4] - 大会旨在提供从技术深度到落地实效的全维度内容,汇聚核心开发者、产业领袖和资深工程团队 [4] - 目标参会人群包括机器人开发者、企业技术负责人、高校科研人员及机器人爱好者 [4] 10月31日主会场议程 - 上午议程涵盖开幕式、主旨发言及来自英伟达、英特尔、索尼和Arm的技术分享,主题包括数据生成最佳实践、具身智能开发实践、开源社区合作及边缘AI赋能 [5] - 下午议程聚焦多机器人协同控制、具身智能中的VLA/VLN技术、人形机器人解决方案及行业经验分享,演讲方包括华中科技大学、地瓜机器人、英飞凌、华南理工大学等 [5][6] - 闪电会议环节包含全自主ROS无人船和机器人技术迁移等简短主题分享 [6] 11月1日主会场议程 - 上午议程涉及人工智能在大健康领域应用、具身智能基座平台、ROS算法突围、机器人足球及合成数据等主题,演讲方包括华南理工大学、非夕科技、擎朗智能、光轮智能等 [8] - 下午议程覆盖从ROS到openEuler的实践、RISC-V MCU技术、飞行汽车、Jetson Orin开发工具链及机器人中间件等话题,演讲方包括华为、先楫半导体、清华大学、矽递科技等 [8] Workshop分会场与特别活动 - 10月31日下午举办由NVIDIA深度学习培训中心主办的AI实战培训,主题为“使用NVIDIA Isaac加速机器人开发”,该课程原价值每学员3500元,现场免费提供50个名额 [9] - 11月1日下午举办《具身智能训练场》Workshop,由刻行时空和穹彻智能主办 [9] 赞助商与社区服务 - 大会设有铂金赞助商、金牌赞助商和银牌赞助商等多个赞助级别 [12][13][14] - 公众号同时提供具身智能方向的论文辅导服务、知识星球社区及技术交流群,社区汇总了30多条学习路线、40多个开源项目及近60个数据集 [25][26][27][28]
港科广&清华联合提出Spatial Forcing:隐式空间对齐,超越主流2D/3D VLA模型性能
具身智能之心· 2025-10-19 00:03
文章核心观点 - 提出一种名为Spatial Forcing (SF)的新方法 该方法无需依赖显式的3D传感器输入 而是通过隐式空间对齐策略 使视觉-语言-动作模型在训练过程中自发形成空间感知能力 从而显著提升机器人在真实物理世界中的操作性能 [2][10][16] 技术背景与现有范式局限 - 当前主流的视觉-语言-动作模型大多仅依赖2D视觉数据 缺乏对真实3D空间的深层理解 难以应对复杂的物理世界操控任务 [2] - 现有3D VLA模型尝试通过深度相机或激光雷达引入显式3D信息 但面临传感器数据质量低 不同机器人传感器类型和安装方式差异大 以及无法利用现有纯2D大规模机器人数据集等限制 [2][8] - 另一种方法是使用深度估计网络从2D图像中估计3D信息 但效果受限于离线深度估计器的性能 导致训练结果非最优 [9] Spatial Forcing方法论 - 方法核心是通过将VLA骨干网络的中间层视觉特征 对齐到外部3D基础模型生成的强大3D几何表征 使模型隐式获得空间理解能力 [10][16] - 具体流程包括:使用预训练的3D基础模型提取像素级空间表征 取出VLA模型的视觉token并通过MLP投影 计算与3D表征的余弦相似度作为空间对齐损失 并与动作生成损失共同优化模型 [16] - 实验发现 在VLA骨干网络中较深但非最深的注意力层施加空间对齐监督 能最有效地提升模型动作表现 [16] - 在推理阶段 该方法不会带来额外的结构或计算开销 模型运行方式与普通VLA完全一致 具备高实用性与可扩展性 [16] 实验验证与性能提升 - 深度探测实验表明 在纯2D图像数据上预训练的传统VLA模型 其视觉特征无法生成有意义的深度结构 缺乏准确的空间感知 [11][13] - 在LIBERO仿真环境中 该方法超越了主流2D和3D VLA模型 平均任务成功率达到了98.5% 优于GeoVLA的97.7%和3D-CAVLA的98.1% [18] - 在真实机器人环境的双臂和单臂操作任务中 该方法显著提高了任务成功率 [14][18] - 该方法展现出卓越的训练效率和数据利用效率 训练效率提升高达3.8倍 数据利用效率提升高达5.9倍 [14] 技术优势总结 - 该方法的核心优势在于让机器人无需看3D也能懂3D 解决了显式3D方法对特定传感器的依赖问题 并能够充分利用现有的大规模2D机器人数据集 [2][10]
从300多篇工作来看, VLA是否为通向通用具身智能的必经之路?
具身智能之心· 2025-10-18 00:02
文章核心观点 - 视觉语言动作模型代表了从传统控制向通用机器人技术的范式转变,将视觉语言模型重塑为能在复杂动态环境中决策的主动智能体 [2] - 文章旨在通过综述形式对VLA研究领域提供清晰的分类法和全面回顾,探讨其作为通用具身智能发展路径的价值 [2][5] - 基于对三百多项近期研究的综合,文章描绘了该快速演进领域的轮廓,并指出塑造可扩展通用VLA方法发展的机遇与挑战 [2] VLA模型研究方法论 - VLA方法被划分为几种主要范式:基于自回归的、基于扩散的、基于强化的、混合方法以及专门化方法 [2] - 研究详细审视了各种范式的动机、核心策略与实现 [2] - 研究介绍了基础性的数据集、基准测试以及仿真平台 [2] 直播内容重点 - 直播将探讨VLA的起源和研究细分,分析热点方向和未来发展趋势 [5] - 直播精彩看点包括VLA研究领域分类、VLA和强化学习结合、Sim2Real等关键技术话题 [6] - 直播时间为10月18日19:30-20:30,由兰州大学和新加坡国立大学的嘉宾分享 [5][6] 深度内容扩展 - 知识星球提供完整版深度内容,涵盖所有技术细节、QA及未公开彩蛋 [8] - 扩展内容涉及灵巧手设计与难题、Agent概念探讨、Spec-VLA推理加速框架、跨实体世界模型等前沿话题 [8] - 深度解析保持精度提升速度的Spec-VLA框架,这是首个专为VLA推理加速设计的推测解码框架 [8]
穹彻智能获阿里投资,加速具身智能全链路技术突破
具身智能之心· 2025-10-17 16:12
公司概况 - 公司由具身智能领域领军人物卢策吾教授带领,兼具学术高度与产业经验 [1] - 公司具备从技术研发到商业化交付的全栈能力 [1] - 公司核心技术为基于力的具身智能大脑技术,突破传统轨迹控制框架 [1] - 公司构建了覆盖感知、认知、规划与执行的全链路自主决策体系 [1] - 公司依托多模态大模型与深厚的力觉数据积累,实现对物理世界的高维理解和柔性操作 [1] 融资与资金用途 - 公司近日宣布完成新一轮融资,由阿里巴巴集团投资,多位老股东追投 [1] - 本轮资金将用于加速技术产品研发、具身应用落地和行业生态拓展 [1] 技术与业务进展 - 公司正凭借“以力为中心”的具身智能大模型技术,持续突破数据采集、模型训练与人机协作部署等关键环节 [1]
独家|穹彻智能获阿里新一轮融资,上交教授卢策吾领衔,突破无本体数据采集,打通具身智能全链路
具身智能之心· 2025-10-17 15:46
融资与资金用途 - 公司于近期完成新一轮融资,投资方包括阿里巴巴集团以及多位老股东追投 [2] - 本轮融资资金将用于加速技术产品研发、具身应用落地和行业生态拓展 [2] - 公司成立于2023年底,此前已完成数亿元Pre-A++轮及Pre A+++轮融资 [4] 技术与产品进展 - 公司快速迭代自研的实体世界大模型和“以力为中心”的具身智能大模型 [4] - 于今年推出穹彻具身大脑升级版产品Noematrix Brain 2.0 [4] - 在关键技术领域取得进展,包括无本体数据采集方案、通用端到端模型方案以及人机协作的规模化部署系统 [4] - 致力于打通从数据采集、模型预训练到后训练的完整技术链 [4] - 公司核心技术为基于力的具身智能大脑技术,突破传统轨迹控制框架 [8] - 构建了覆盖感知、认知、规划与执行的全链路自主决策体系 [8] - 依托多模态大模型与力觉数据积累,实现对物理世界的高维理解和柔性操作 [8] 商业化与合作伙伴 - 公司已与零售、家居领域多家头部企业达成合作 [6] - 合作旨在推进软硬件一体化具身智能解决方案的批量交付 [6] - 未来将依托大模型产品和数据至模型闭环能力,持续提供创新实用的解决方案 [6] - 公司具备从技术研发到商业化交付的全栈能力 [8] 管理与团队 - 公司由具身智能领域领军人物卢策吾教授带领,兼具学术高度与产业经验 [8]
VLA可以赋于强化学习更智能的场景应用......
具身智能之心· 2025-10-17 12:01
强化学习在机器人领域的应用 - 强化学习是具身智能机器人(如人形、四足机器人)实现步态控制等复杂任务的核心技术,赋予产品适应救援、测量、危险环境的能力 [3] - 机械臂的视觉语言动作模型与强化学习结合方案在学术领域越来越受欢迎,使机器人执行任务更高效顺畅 [4][9] 论文辅导课程核心信息 - 课程目标为帮助学员产出一篇符合RAL/ICRA/IROS/CoRL等顶级会议或期刊要求的论文初稿,涵盖论文IDEA确认、项目实现、实验指导、写作润色全流程 [8][10] - 课程周期为14周核心在线集中辅导加8周维护答疑,采用6人小班制,配备专属助教 [8][10][18] - 课程提供四足机器人、人形机器人、机械臂、VLA+RL四个大方向的可创新研究idea,每个题目均配备场景与基线代码 [19][30] 课程内容与产出 - 课程基于最新的Isaac Lab等仿真训练环境,提供SAC/PPO/BC/Diffusion Policy等基线代码,并涵盖sim2real/real2sim2real完整技术流程 [18][19][23] - 学员将完成从强化学习基础、仿真环境搭建到具体机器人任务训练(如复杂地形行走、灵巧操作)的系列实战,最终交付论文初稿v1.0及定量分析报告 [23][24][29] - 课程评测标准包括成功率、能耗、步态、接触冲击、鲁棒性等指标,并要求进行不少于5次随机种子的统计显著性检验流程 [19] 师资与特色 - 授课导师为来自美国顶尖高校的博士后研究员,在RSS、ICRA、IROS、RAL等顶级会议期刊有发表经验并担任审稿人 [27] - 课程特色为科研全闭环陪跑,包括每周里程碑、组会、代码/实验复盘、写作修改建议,结营后提供8周论文维护支持(补实验、改图、润色与审稿回复) [18][25][36]
AIR科研|X-VLA重磅开源,全面刷新机器人基准性能记录
具身智能之心· 2025-10-17 08:04
核心观点 - 清华大学智能产业研究院与上海人工智能实验室联合发布全开源通用跨本体具身基座模型X-VLA,该模型以仅0.9B的参数量在五大权威仿真基准上实现性能突破,并成功完成120分钟无辅助自主叠衣任务,为行业提供了新的技术范式 [3][8] 核心亮点 - 性能突破:模型率先实现超长时序灵巧操作任务(如自主叠衣)的全流程开源,攻克长期复杂自主作业难题 [8] - 极致高效:仅0.9B超轻量参数即在五大仿真基准上实现SOTA性能,达成卓越的效费比 [8] - 创新技术:通过Soft-Prompt与定制化训练范式打破大规模异构数据训练难题,构建高效通用的跨本体基座模型 [8] - 开源开放:完整公开模型参数、代码与训练数据,助力行业复现与创新 [7][8] 高效模型设计 - 面向本体泛化的Soft-Prompt机制:通过可学习的Soft-Prompt动态编码机器人硬件配置信息,增强模型对异构机器人平台的适应能力并提升混合数据训练稳定性 [10] - 基于功能分工的多模态编码策略:主视角图像由高性能视觉-语言模型编码以提取高层语义特征,辅助视角则通过轻量化网络进行局部特征提取,优化计算资源分配 [10] - 基于flow-matching的生成式动作解码器:采用概率生成方式建模机器人动作序列,增强动作轨迹平滑性与对环境不确定性的鲁棒性 [10] 大规模高质量异构数据预训练 - 实施平衡化数据采样策略,确保异构数据集的均衡训练,避免模型偏斜 [12] - 建立多模态数据清洗与时空对齐流水线,将动作数据统一映射至标准任务空间并进行时序对齐与重采样,提升数据质量 [12] - 确立以语义-动作对齐为导向的数据遴选标准,筛选视觉帧清晰、语言指令精准且与动作序列高度关联的样本,确保模型学习明确因果关系 [12] 定制后训练流程与技巧 - 预训练缩放定律曲线呈现优异线性增长趋势,表明模型性能随参数和数据规模扩大可稳定提升,验证了架构的可扩展性 [15] - 后训练阶段展现出极高数据效率与稳定性,仅需中小规模场景专属数据微调即可快速适应下游任务并达到SOTA性能 [16] - 采用分层分组的自适应学习率调整和面向异构模块的渐进式warm-up策略,保证训练稳定性并优化收敛效率 [17] 仿真基准测试结果 - 在五大权威仿真基准(包括LIBERO、SIMPLER等)上全面超越现有SOTA模型 [18] - 具体性能表现:在Simpler基准的VM任务上达到80.4%,VA任务上达到75.7%,WidowX任务上达到95.8%;在LIBERO基准的Spatial任务上达到98.2%,Object任务上达到98.6%,Goal任务上达到97.8%,Long任务上达到97.6%,平均达到98.1%;在Calvin基准的ABC -> D任务上达到4.43;在RoboTwin-2.0基准的Easy任务上达到70.0%,Hard任务上达到39.0%,平均PS达到51.1%;在NAVSIM基准的PDMS任务上达到87.3% [18] 实机实验测试结果 - 在真实机器人平台上,模型在常规抓取和复杂桌面操作任务中展现强大性能,并成功完成不限时长的自主叠衣任务 [19] - 模型具备零样本迁移部署至全新环境的能力,展示了其应对复杂长程任务的卓越能力 [19]
仅用三五条样本击败英伟达,国内首个超少样本具身模型登场
具身智能之心· 2025-10-17 08:04
文章核心观点 - 国内通用具身智能公司中科第五纪发布了新一代具身操作基础模型FiveAges Manipulator-1(FAM-1),该模型是国内首个少样本通用具身操作基础模型 [2][5] - FAM-1模型在少样本学习、跨场景适应及复杂任务理解方面实现重大突破,仅需3-5条机器人数据/任务即可完成精准具身操作学习,成功率高达97%并全面超越SOTA模型 [5] - 该模型的核心架构源于团队入选NeurIPS 2025的论文《BridgeVLA》,首次实现了大规模视觉语言模型与三维机器人操作控制之间的高效知识迁移与空间建模融合 [5] 模型技术创新 - 与传统的VLA架构相比,BridgeVLA实现了知识驱动的预训练和三维少样本微调两大技术创新 [8][9] - 知识驱动的预训练通过从网络收集海量图像视频数据构建操作场景知识库,对预训练的VLM进行二次预训练,挖掘模型隐含的操作知识 [9] - 三维少样本微调将VLM和VLA的输出和输入升维到三维热力图,充分利用三维空间结构信息,显著降低模型对样本数量的依赖 [9] 实验性能表现 - 在国际公开评测基准RLBench上,FAM-1取得88.2%的操作成功率,超越RVT-2、Act3D、3D Diffuser Actor等SOTA模型6%以上 [11] - 在特定任务如"Insert Peg"、"Open Drawer"、"Sort Shape"等上成功率大幅领先,平均成功率大幅提升30%以上 [11] - 真机部署测试中,FAM-1在仅使用3-5条样本每个基础任务的情况下,达到97%成功率,远超其他对比模型 [15] 公司未来规划 - 公司未来将深耕三大方向:提升通用基础模型的泛化性、可靠性和适应性;推动基础模型在工业场景下的更多应用;面向导航场景推出通用基础模型 [20] - 团队另一项成果EC-Flow已被ICCV 2025接收,展示了从无标注人类操作视频中自监督学习操控策略的新路径 [19] - 公司的探索正推动具身智能从“单点技术突破”走向“体系化落地”,为机器人走进工业生产、日常生活提供技术支撑 [19]