Workflow
具身智能之心
icon
搜索文档
腾讯&上海交大等高校联合发布视觉空间推理综述.
具身智能之心· 2025-10-15 19:03
文章核心观点 - 视觉语言模型在视觉空间推理能力方面存在显著不足,尤其在基础感知、量化推理和动态信息处理方面,这对其在自动驾驶和具身智能等领域的应用构成关键挑战 [2][3][27] - 文章通过提出一个名为SIBench的综合测评基准,系统性地梳理了该领域的方法、任务设定,并对主流模型进行了评估,旨在推动视觉空间智能的发展 [4][12][22][23] 方法介绍 - 改进视觉空间推理能力的方法主要围绕四个方向:输入模态、模型结构、训练策略和推理方式 [6] - 在输入模态上,通过引入深度图等辅助信息来帮助模型从2D输入理解3D空间 [8] - 在模型结构上,通过增加专门的空间编码器来从RGB图像中提取更丰富的3D表征 [9] - 在训练策略上,采用针对视觉空间推理任务专门设计的强化学习奖励机制被证明有效 [10] - 在推理方式上,采用了不同于通用思维链的策略,如构建认知图、调用API或采用RAG等方法 [11] 任务设定与分类 - 文章将视觉空间推理任务按层次分为三类:基础感知、空间理解和任务规划 [12] - 基础感知涉及单个目标的静态属性(如颜色、形状)或动态状态(如方向) [15][16] - 空间理解涉及多个目标或目标与环境之间的静态或动态关系(如位置判断、距离估计) [15][18] - 任务规划要求模型理解空间约束和任务需求,以生成解决方案 [15][21] SIBench基准与模型评估 - SIBench整合了18个开源基准,涵盖3个推理层次、23种任务设定,并支持单图、多视角和视频三种输入形式 [22] - 基于SIBench的评估显示,GPT-5以63.41%的综合得分领先,其次是豆包种子模型(60.12%)和Gemini 2.5 Pro(58.83%) [25] - 在规划任务上,Gemini 2.5 Pro表现突出,得分达到80.17% [25] 主要发现与能力短板 - 主流视觉语言模型的基础感知能力有限,其误差会在后续推理链中积累,影响最终结果 [27] - 模型在定量推理任务(如计数、距离估计)上的表现远差于定性推理任务(如相对位置判断) [27] - 模型处理动态信息(如多视角图像或视频)的能力严重不足,在涉及速度或相机位姿估计的任务中性能显著下降 [27]
Instant4D:分钟级单目视频的4D高斯泼溅重建(NeurIPS 2025)
具身智能之心· 2025-10-15 19:03
核心技术:Instant4D 方法概述 - 提出Instant4D现代化全自动流程,可在数分钟内重建任意单目视频,实现30倍加速[5][6] - 引入网格剪枝策略,将高斯函数数量减少92%,同时保留遮挡结构,使其可扩展至长视频序列[6] - 提出简化、各向同性、运动感知的单目设置4DGS实现,在Dycheck数据集上性能比当前最先进方法提高29%[6] 技术流程与优化 - 采用可微SLAM方法MegaSAM获取相机位姿,并通过视频一致优化深度得到密集点云,对4秒512×512视频序列反投影可得约30百万个原始3D点[8] - 通过体素滤波将密集点云稀疏化,仅保留每个已占用体素内点的质心,以减少冗余和解决遮挡问题[8] - 基于四维高斯初始化,可在2分钟内完成场景重建,并利用动静蒙版对静态和动态区域设置不同时间缩放以优化渲染[7][13] 性能表现与效率 - 在Nvidia数据集上实现0.02分钟优化时间、822 FPS(480×270分辨率)和676 FPS(860×480分辨率)的实时渲染速度,以及23.99 PSNR的渲染质量,相比InstantSplat和Casual-FVS实现8倍加速和10倍实时渲染速度提升[17] - 在Dycheck数据集上,Lite版本实现0.03小时优化时间、1.1GB内存占用和23.02平均PSNR,Full版本实现0.12小时优化时间、8GB内存占用和24.52平均PSNR,相比基线实现30倍加速[20] - 各向同性高斯设计固定旋转R=I,使用空间/时间各一标量缩放,提升单目优化稳定性,并根据实验将渲染质量PSNR提升1.25 dB[12]
NeurIPS 2025|清华团队分析RL将如何提升VLA泛化性
具身智能之心· 2025-10-15 12:00
研究背景与核心观点 - 视觉-语言-动作大模型在具身智能领域潜力巨大,但当前主流的有监督微调方法在面对新环境或任务时泛化能力有限 [1] - 清华大学研究团队首次系统性揭示了强化学习在提升VLA模型泛化能力上的独特优势,并提出了全面的评测基准和高效训练方法 [1][3] - 强化学习微调VLA模型能显著提升语义理解和任务执行的鲁棒性,在视觉变化场景下保持与有监督微调相当的表现 [3] 研究方法与模型基础 - 研究采用目前最先进的开源OpenVLA模型为基础,该模型从Llama2-7b微调而来,接收RGB图像和指令,输出离散动作token控制机械臂 [4][6] - 团队构建了涵盖视觉、语义和执行挑战的全新评测基准,系统对比强化学习和有监督微调在泛化性上的表现 [3][19] 强化学习方法比较 - 测试了三种在大语言模型领域广受认可的强化学习算法:PPO、DPO和GRPO [8] - 在机器人控制这一多步决策任务中,经典的PPO算法展现出显著优势,而专为语言模型设计的DPO和GRPO难以高效学习 [15] - PPO的优势源于机器人任务的部分可观测马尔可夫决策过程特性,每个动作都会改变环境状态的非平稳性可能破坏了GRPO的优势估计稳定性 [15] - DPO面临的挑战在于稀疏奖励结构难以区分轨迹质量,以及离线数据与在线执行之间存在显著的分布偏移 [15] 高效PPO训练方案 - 提出共享Actor-Critic架构设计,让Actor和Critic共享同一个主干网络,仅添加轻量级MLP作为价值头,使显存占用减少45%,训练速度提升35% [12] - 使用140条高质量轨迹对模型进行预热,让后续的强化学习收敛速度提升50%,大幅减少所需的环境交互次数 [14] - 将PPO训练轮次设为1就已足够,更多更新轮次无法提升性能反而增加训练时间,整个训练过程在单张A100 GPU上仅需42小时即可收敛 [14] 有监督微调与强化学习性能对比 - 有监督微调在演示轨迹数量达到16,000条时性能趋于饱和 [17] - 强化学习在训练分布内任务性能与有监督微调相当,但在分布外任务上取得了42.6%的性能提升,展现出更强的泛化性 [18] - 强化学习在语义理解任务上表现出明显优势,特别是在处理未见物体的抓取任务时 [21] - 在执行鲁棒性方面强化学习大幅领先,无论是物体位置变化、机器人初始姿态偏移,还是任务执行中途的物体移位,都展现出显著更强的适应能力 [21] - 在视觉泛化上,两种方法表现相当 [21] 案例分析与深层差异 - 在强噪声干扰下,有监督微调策略会在抓取物体后反复掉落,而强化学习策略能够稳定完成任务 [23] - 面对未见物体时,有监督微调容易陷入重复尝试抓取已持有物体的死循环,强化学习则能正确判断并完成放置 [23] - 强化学习探索了更广阔的工作空间和更丰富的末端执行器姿态,而有监督微调的轨迹紧密聚集在演示数据的运动规划路径周围,这种更广泛的覆盖解释了强化学习在执行任务上的优越泛化能力 [23]
近70亿!9月具身机器人领域最新融资情况
具身智能之心· 2025-10-15 09:26
文章核心观点 - 2025年9月机器人与具身智能领域融资活动活跃,多家公司获得大额投资,显示资本市场对该行业的高度关注 [1][2][3][4][5][6] 9月份具身智能与机器人领域融资概况 - 星迈创新完成A+轮融资,专注于高端智能泳池清洁机器人研发,投资方包括美团龙珠、高瓴创投、顺为资本等 [1] - 自变量机器人完成近10亿元A+轮融资,由阿里云和国科投资领投 [2] - 一星机器人完成数亿元种子轮融资,定位为高精数据驱动的智能进化机器人研发商,投资方包括BV百度风投、同创伟业等 [3] 详细融资企业列表分析 - 融资轮次覆盖广泛,从天使轮到B+轮及战略投资均有涉及,表明行业处于从早期到成长期的不同发展阶段 [4][5][6] - 融资金额规模较大,多笔融资达到亿元级别,例如乐学科技天使++轮2亿元、LINKHOU A轮超亿元、Motorevo A轮过亿元等 [4][5] - 部分企业获得大额融资,如Beatbot A+轮融资10亿元,自变量机器人A+轮融资近10亿元,显示出资本对特定赛道的高度押注 [2][5][6] - 融资企业业务多元化,涵盖泳池清洁机器人、人形机器人、工业机器人、核心部件(如关节模组、传感器)、低空经济飞行器等多个细分领域 [4][5][6]
各大顶会对RL和这些工作的结合很青睐~
具身智能之心· 2025-10-14 18:00
强化学习行业重要性 - 强化学习是具身智能机器人领域的核心技术,在人形机器人、四足机器人和机械臂的步态控制、高难度动作学习中发挥关键作用[2] - 强化学习与视觉语言动作模型结合在机械臂控制等学术领域越来越受欢迎,能提升机器人执行任务的效率和流畅度[3][8] - 强化学习技术被广泛应用于产品优化,例如自动驾驶等领域,显示出其跨行业的重要性[1] 行业技术应用现状 - 行业内领先公司如宇树、智元的人形机器人主要通过强化学习完成爬楼梯、爬山、跑步、跳舞、翻跟头等高难度动作训练[2] - 强化学习技术赋予机器人产品适应救援、测量、危险环境等复杂场景的能力,是迈向通用具身智能必须攻克的关键技术[2] - 基于IsaacLab等最新仿真训练环境的强化学习方案成为学术和工业界的前沿趋势[17][18] 行业人才发展挑战 - 强化学习体系庞大且内容繁杂,对研究经验要求高,初学者入门难度极大[5][9] - 缺乏完整学习体系导致研究人员容易处处踩坑,久久不能入门,最终错失发展机会[6][9] - 产出符合顶级会议期刊标准的论文需要在方法论证、实验结果、写作方式等多个模块达到高标准要求[5] 专业培训解决方案 - 针对行业痛点推出14周核心训练加8周论文维护的强化学习论文辅导课程,采用1v6小班教学模式[7][17] - 课程面向硕博生群体,提供每周直播授课、课程录播和专属助教答疑服务[7][17] - 课程设置四足、人形、机械臂三轨并行的研究方向,学员可根据需求选择特定主题[17][18] - 课程目标产出包括论文IDEA确认、项目实现、实验指导、写作润色和初稿形成,瞄准RAL/ICRA/IROS/CoRL等顶级会议期刊[7][11] 课程核心技术内容 - 基于IsaacLab/MuJoCo等最新仿真训练框架,提供SAC/PPO/BC/Diffusion Policy等基线代码[18][22] - 涵盖sim2real/real2sim2real完整技术流程,包括复杂地形鲁棒行走、外推冲击恢复、速度曲线跟踪等关键技术模块[10][22] - 包含视觉语言动作模型与强化学习结合的创新方向,支持多模态感知信息的仿人灵巧操作研究[10][25] - 提供完整的论文写作指导体系,包括结构化论文模板、统一图表体例、补充材料清单和投稿审稿回复辅导[18][24] 课程特色与优势 - 采用科研闭环模式,实现方法-工程-评测-写作-投稿-维护全流程陪跑,每周设置明确任务指标[17][31] - 即使学员没有成熟idea,也能在提供的idea与baseline上迭代出可投论文初稿[16] - 师资来自美国顶尖高校的博士后研究员,具备RSS、ICRA、IROS、RAL等顶级会议期刊的发表和审稿经验[23] - 课程配备真机部署参考代码,支持Unitree/Franka/xArm/云深处/松灵机器人等设备实机环节[26][28]
史上最全robot manioulation综述,多达1200篇!西交,港科,北大等八家机构联合发布
具身智能之心· 2025-10-14 11:50
文章核心观点 - 具身智能是人工智能迈向通用智能的关键前沿,其核心在于机器人操作技术,该技术正经历从基于规则到融合大语言模型和多模态模型的范式转变 [3][4] - 一篇由多机构学者联合撰写的综述论文系统性地梳理了机器人操作领域,提出了统一的理解框架,涵盖硬件基础、任务数据、控制框架及泛化研究,旨在推动机器人从“执行任务”到“理解与学习任务”的演进 [4][6][7] 机器人操作领域综述概览 - 该综述使用17张图、15张表格和超1000篇参考文献,构建了机器人操作的全景图谱,内容覆盖硬件与控制基础、任务与数据体系、高低层控制框架及跨本体与跨模态的泛化研究 [4][6] - 论文扩展了传统的“高层规划—低层控制”框架,高层规划纳入语言、代码、运动、可供性与三维表示,低层学习控制则提出基于训练范式的新分类法,包含输入建模、潜表征学习和策略学习三个核心部分 [6][9][13] 机器人硬件与控制范式演进 - 机器人硬件从机械手、机械臂发展到移动机器人平台,控制范式从基于经典算法(如RRT、MPC)演进到基于学习的方法(如强化学习/模仿学习) [14] - 机器人模型的分类方式及其验证流程构成了评估体系,反映了领域技术栈的成熟度 [14] 仿真器、基准与数据集 - 综述整理了多个主流仿真器与基准,例如MetaWorld(80物体、50任务)、CALVIN(40M演示数据)、Maniskill2(2144物体、20任务)等,覆盖从基础操作到灵巧操作、移动操作等多种任务类型 [15][18] - 数据集类型包括抓取数据集、单/跨具身仿真器基准、轨迹数据集及具身问答数据集,支持多样化的机器人操作研究与验证 [17] 高层规划与低层控制框架 - 高层规划被扩展至语言、代码、运动、可供性和3D表示,凸显其在语义决策中的作用,例如通过大语言模型生成任务计划或代码 [21][24] - 低层学习控制提出三层结构分类法:输入建模(处理输入数据)、潜表征学习(构建可迁移表示)、策略学习(生成精准动作),为控制策略研究提供系统化视角 [22][23] 机器人操作核心瓶颈 - 领域面临两大瓶颈:数据采集与利用(涉及人类示教、合成数据生成、众包收集等途径)以及系统泛化能力(包括环境、任务和跨具身泛化) [27][28] - 数据利用方法涵盖数据扩展、选择重加权、检索与增强技术,而泛化挑战的解决方案旨在提升机器人对未知场景的适应能力 [27][28] 未来研究方向 - 未来重点方向包括构建通用“机器人脑”实现认知与控制、突破数据瓶颈以 scalable 生成利用数据、强化多模态感知提升复杂物体交互、确保人机共存安全推动真实世界应用 [32][34]
最近面向具身科研级的硬件好像越来越多了......
具身智能之心· 2025-10-14 08:02
行业现状与商业模式 - 当前大量机器人公司,包括元老级公司和新兴具身智能公司,其产品均面向科研场景,业务涉及高校 [1] - 教育场景的落地模式主要包括提供科研本体、组织赛事、线下基地建设和学科建设等 [1] - 行业内存在明显的错位竞争,公司分别专注于提供灵巧手、完整机器人本体、视觉系统(眼睛)或具身大脑等不同环节 [1] 社区资源与平台服务 - 社区已完成产业、学术、求职、问答交流等多个领域的闭环,提供问题解决方案和前沿研究思路 [3] - 社区汇总了超过30种技术路线,涵盖基准测试、综述和学习路径,以缩短用户检索时间 [4] - 社区邀请了数十位来自产业界和学术界的具身智能领域专家,提供答疑解惑服务 [4] - 社区与近2000名成员及200家公司和机构建立了联系,提供学术进展、工业应用和交流机会 [76] - 社区汇总了40多个开源项目、60多个数据集以及行业主流仿真平台 [13] 技术研究与发展方向 - 技术研究覆盖数据采集、灵巧手、VLA模型、VLN模型、多传感器融合、分层感知操作、机器人操作系统、协同感知、机器人模型、Sim2Real泛化、具身世界模型、触觉感知、大模型规划推理、模型加速与微调等多个领域 [5] - 具体技术议题包括机器人仿真与数据采集平台、人形机器人模仿学习、VLA在抓取与规划中的应用、VLA+RL方法、sim2real挑战、分层决策与端到端方案比较等 [4] - 社区为不同基础的学习者提供了从入门到进阶的多种学习路线,包括具身智能感知、交互、强化学习、VLN、VLA、多模态大模型、Diffusion Policy等 [13][14] 行业生态与基础设施 - 社区汇总了国内外具身智能领域的高校实验室和机器人公司,涵盖教育、宠物、工业、救援、物流、交互、医疗等多个方向 [13][19] - 基础设施资源包括行业研报、机器人相关书籍、零部件品牌(芯片、激光雷达、相机、IMU、底盘等)、ToF与3D相机厂家、数据采集方案、开源数据集和仿真平台等 [16][19][21][24][25][27][29][31][33][35][37]
马斯克从英伟达挖人做AI游戏!第一步:研发世界模型
具身智能之心· 2025-10-14 08:02
xAI入局世界模型 - 马斯克的xAI公司已正式进入世界模型研发领域,加入与Google DeepMind、Meta、英伟达等巨头的竞争 [2][7][8] - 为增强实力,xAI于2024年夏季从英伟达挖来多名资深研究员,包括Zeeshan Patel和Ethan He [2][9][16] 核心人才引进 - Zeeshan Patel于2024年5月硕士毕业于UC伯克利,研究方向为深度学习、生成模型和物理人工智能,此前曾在英伟达研究院从事生成式世界模型研究 [10][11] - Ethan He本科毕业于西安交通大学,在CMU获得计算机视觉硕士学位,其Google Scholar被引数高达8495,在加入xAI前于英伟达从事MoE模型、多模态模型和世界模型研究 [12][13][15][16] - 两位研究员均参与了英伟达Omniverse平台的核心开发工作,该平台是全球最成熟的物理一致性仿真系统之一 [18][19][20] 世界模型的战略意义与技术路径 - 世界模型被视为实现AGI(通用人工智能)的核心底座,其目标是让AI系统真正理解和推理物理3D世界,而不仅限于文本处理 [23][24][26] - xAI计划将英伟达在图形与物理模拟领域的积累(如Omniverse技术)应用到自家的世界模型体系中 [21][22] - 世界模型的应用前景广泛,可驱动AI游戏、智能体、自动驾驶乃至具身智能机器人 [38][39] 游戏领域作为首要落地场景 - xAI入局世界模型后的首批落点可能是电子游戏,团队正尝试让AI自动生成自适应、逼真的3D场景,并能根据玩家行为实时变化 [30][31] - 马斯克设下目标,计划在2026年底前推出一款由世界模型驱动的AI生成游戏 [3][32] - 为达成目标,xAI正在组建全模态团队(Multimodal Team),并公开招聘“电子游戏导师”(Video Games Tutor),时薪45–100美元,旨在向模型讲解游戏机制与设计逻辑 [33][34][35][36] 马斯克AI帝国的协同效应 - xAI的使命是“让AI理解宇宙的本质”,世界模型是实现该目标的关键路径 [37] - xAI、特斯拉、Neuralink、X平台之间可能形成协同效应:xAI研发模型,特斯拉提供机器人和自动驾驶数据,Neuralink提供脑机接口,X平台则作为社交与实时反馈渠道 [40][41]
ICLR 2026惊现SAM 3,分割一切的下一步:让模型理解「概念」
具身智能之心· 2025-10-14 08:02
SAM 3 技术发布与背景 - 一篇匿名论文“SAM 3: SEGMENT ANYTHING WITH CONCEPTS”登陆ICLR 2026,引发广泛关注,外界普遍猜测其为Meta公司“Segment Anything”系列的正式续作[3][5] - SAM系列发展节奏清晰,SAM 1于2023年4月发表并获得ICCV最佳论文提名,SAM 2于2024年7月发表,SAM 3的登场符合一年一度的更新节奏[6][7][8] - 该工作被定义为一个更高级的任务:可提示概念分割(Promptable Concept Segmentation, PCS),其核心是识别原子视觉概念[9] SAM 3 核心技术突破 - SAM 3实现了从“手动一个个点出来”到“告诉模型一个概念,它帮你全部找出来”的升级,用户可通过简短名词短语、图像范例或两者组合来指定视觉概念并分割所有实例[9][12][13] - 模型在论文提出的新基准SA-Co上性能比之前系统提升至少2倍,在LVIS数据集上零样本掩码平均精度达到47.0,超越之前最佳纪录38.5[13] - 模型处理效率高,在单个H200 GPU上处理一张有超过100个物体的图像仅需30毫秒[13] - 针对PCS任务的固有模糊性问题,公司在数据收集、指标设计和模型训练等多个阶段进行了系统化处理,并允许用户通过添加优化提示来消除歧义[19] 数据、架构与基准测试 - 研究构建了人机协同数据引擎,成功标注了包含400万独特短语和5200万掩码的高质量训练数据,以及包含3800万短语和14亿掩码的合成数据集[20] - 模型采用双编码器-解码器Transformer架构,是一个具有图像级识别能力的检测器,通过与跟踪器和内存模块相结合可应用于视频领域[19] - 本文创建了用于PCS任务的Segment Anything with Concepts(SA-Co)基准测试,涵盖124K张图像和1.7K视频中的214K独特概念,其概念数量超过现有基准测试集50倍以上[24] 实验性能表现 - 在零样本设置下,SAM 3在LVIS掩码任务上表现显著更好,在开放词汇SA-Co/Gold数据集上的CGF分数是最强基线OWLv2的两倍[27][28] - 在ADE-847、PascalConcept-59和Cityscapes上进行的开放词汇语义分割实验显示,SAM 3的表现超越了强大的专家型基线APE[29] - 在小样本自适应方面,SAM 3在10-shot设置下实现了当前最优性能,超过了Gemini的上下文提示以及目标检测专家模型[30] - 在物体计数任务中,SAM 3不仅实现了良好的物体计数准确率(如CountBench上MAE为0.11,Acc为95.6),还提供了大多数MLLM无法提供的对象分割功能[32][33] - 在视频分割任务中,SAM 3的表现远超基线,在大多数基准测试中比SAM 2取得了显著改进,对于交互式图像分割任务,SAM 3在平均mIoU方面优于SAM 2[33][34][35]
LightVLA:你的VLA真的可以又强又快!
具身智能之心· 2025-10-14 08:02
LightVLA技术核心与创新 - 提出一种面向视觉-语言-动作模型的可微分token剪枝框架,旨在解决资源受限平台上的计算开销难题 [2] - 采用自适应、性能驱动的视觉token剪枝方法,生成动态查询以评估token重要性,并使用Gumbel softmax实现可微分token选择 [2] - 框架无需依赖启发式参数且不引入额外可训练参数,使其能够兼容现代推理框架 [2] 性能表现与效率提升 - 在LIBERO基准测试中,LightVLA在计算量和延迟上分别降低59.1%与38.2%,同时任务成功率提升2.6% [3][8] - 该方法在多种任务中均优于不同VLA模型及现有token剪枝方法,以显著降低的计算开销实现了更高的成功率 [3] - 实现了效率与性能的双重提升,任务成功率提升至97.4% [8] 技术意义与行业影响 - 该研究是首个将自适应视觉token剪枝应用于VLA任务并同步优化效率与性能的工作 [3] - 标志着向高效、强大且实用的实时机器人系统迈出关键一步 [3] - 首次打破了“效率与性能不可兼得”的魔咒 [8]