Workflow
具身智能之心
icon
搜索文档
最火VLA,看这一篇综述就够了
具身智能之心· 2025-11-03 08:03
文章核心观点 - 视觉-语言-动作模型是当前人工智能领域极具吸引力的前沿阵地,其目标是让机器人具备听懂人话、看懂世界、动手干活的能力 [7] - ICLR 2026会议上VLA模型相关投稿量从去年的个位数飙升至164篇,增长了18倍,显示出该领域的爆发式增长 [6] - 学术界对VLA尚无统一定义,但核心标准是模型必须使用经过大规模互联网级别视觉-语言数据预训练的骨干网络 [8][9] VLA概念定义与区分 - VLA模型强调基因,必须继承自强大的视觉语言模型,具备语言理解、视觉泛化和任务迁移能力 [9][12] - 大型行为模型强调养料,指在大规模多任务机器人演示数据上训练出的策略 [11][13] - 一个在大量机器人数据上微调的VLA同时也是一个LBM,但LBM不一定是VLA [13][14] - 简单拼接独立视觉编码器和文本编码器的模型应称为多模态策略,而非VLA [11] ICLR 2026 VLA八大技术趋势 - **高效架构新范式**:离散扩散模型成为新风向,可并行生成整个动作序列,在LIBERO评测中取得近乎饱和表现 [15][16][17] - **具身思维链**:让机器人生成动作前先产生中间推理步骤,提升计划与解释能力,在SIMPLER等评测中表现突出 [18][19][20][21] - **动作分词器**:将连续高频机器人动作转换为VLM能理解的离散词汇,包括FASTer Tokenizer和OmniSAT等新进展 [22][25][31] - **强化学习微调**:作为VLA策略的微调利器,代表作在LIBERO和SIMPLER上分别取得99%和98%的成功率 [26][27][32] - **效率优化**:通过HyperVLA的超网络机制和AutoQVLA的智能量化等技术降低硬件门槛,使VLA走向平民化 [28][29][33] - **视频预测赋能**:利用视频生成模型理解时序动态和物理规律,为机器人控制提供强先验知识 [30][35][36] - **真实评测基准**:社区开发如RoboCasa365和WorldGym等新基准,致力于打破对现有测试集的过拟合 [37][40][47] - **跨体态学习**:通过X-VLA的软提示、XR-1的统一视觉-运动编码等技术让模型适应不同结构的机器人 [41][43][48] 行业现状与挑战 - 主流仿真评测存在性能天花板问题,开源模型仿真得分高但真实世界表现仍难匹敌前沿产品如Google的Pi-0.5 [44][45] - 头部公司凭借海量高质量真实数据、更看重开放环境和泛化能力的评测维度以及大规模工程支持占据优势 [49] - 数据质量中的噪声、歧义和次优行为可能限制模型上限,上下文学习机制向机器人领域的迁移或是通用VLA的突破口 [50] 作者背景与权威性 - 作者Moritz Reuss是德国卡尔斯鲁厄理工学院四年级博士生,2025年Apple AI/ML学者奖得主 [4][46][52] - 作为将扩散模型引入机器人策略研究的先行者,其研究成果多次发表于RSS、ICLR、NeurIPS等顶级会议 [4][52]
具身科研平台来了,为具身领域打造,高性价比
具身智能之心· 2025-11-03 08:03
面向具身科研领域打造的轻量级高性价比机械臂 还在为具身智能领域的硬件选择发愁吗? 太贵的机械臂买不起,太便宜的又难用、难上手? 别担心,Imeta-Y1 来了——这是一款专为新手和科研初学者设计的轻量级高性价比机械臂。 无论你是学生、教育工作者,还是刚踏入机器人领域的开发者,Imeta-Y1 都能帮你低成本、高效率地完成 算法验证与项目开发。 对小白尤其友好的是: ✅ 提供全流程开源工具链+代码示例,从数据采集到模型部署一气呵成; ✅ 支持 Python / C++ 双语言接口,无论你擅长哪种语言都能快速上手; ✅ 兼容 ROS1 / ROS2,并提供 URDF 模型,仿真与真机无缝切换; ✅ 24小时快速售后响应,遇到问题不卡壳,学习路上有保障! 该机械臂融合高精度运动控制、低功耗设计与开放软硬件架构,支持从仿真到真机的无缝联调,并提供全 流程开源SDK与工具链,助力用户快速实现算法验证、数据采集、模型训练与部署应用。 其紧凑型结构与模块化接口,尤其适用于嵌入式AI与机器人学习平台的开发与应用推广。 | 本体重量 | 4.2KG | 额定负载 | 3KG | 自由度 | 6 | | --- | --- | ...
新国立等校企3D与4D世界建模联合综述
具身智能之心· 2025-11-03 08:03
文章核心观点 - 该综述首次对3D和4D世界建模领域进行了全面系统的梳理,明确定义了“世界模型”和“3D/4D世界建模”的概念,为研究社区提供了统一的术语和清晰的概念框架 [8][13] - 文章提出了一个层次化的分类体系,将当前方法基于表示模态划分为基于视频生成、基于占用生成和基于激光雷达生成三大类,并进一步按功能类型细分为数据引擎、行动解释器、神经模拟器和场景重建器 [8][13] - 研究系统总结了专门针对3D和4D场景的数据集和评估协议,并对相关领域的最新方法进行了基准测试,旨在填补现有综述多强调2D模态、对原生3D/4D数据研究不足的空白 [8][9][13] 3D和4D世界建模的重要性与意义 - 世界建模是人工智能和机器人学中的基础任务,目标是使智能体能够理解、表示和预测其所处的动态环境,近年来生成建模技术的进展极大地丰富了该领域 [9] - 与2D投影不同,原生3D/4D信号在坐标中编码了度量几何、可见性和运动,这些是物理作用发生的坐标,使其成为满足可操作建模需求(如多视图一致性、运动学、遮挡推理)的首选载体 [9] - 在安全关键的应用中,智能体不仅要生成逼真的帧,还要遵守几何、因果关系和可控性,RGB-D、占用和激光雷达数据提供了满足这些要求的归纳偏差 [9] - 工业界已启动雄心勃勃的世界建模计划,目标应用于交互式机器人、沉浸式模拟和大规模数字孪生,凸显了该领域在学术界和工业界日益增长的重要性 [9] 基础知识与定义 - 3D和4D世界建模常用的场景表示方法包括视频流、占用网格、激光雷达点云和神经表示,这些表示强调几何一致性和时间一致性,以确保物理上合理的模拟 [14] - 文章为世界建模建立了精确的定义:其目标是生成或预测满足几何、时间和语义一致性的3D或4D表示,生成过程通常需要几何条件、行动条件或语义条件作为引导 [15] - 世界建模方法被分为四种功能类型:数据引擎(生成多样化场景)、行动解释器(预测未来世界状态)、神经模拟器(模拟闭环交互)和场景重建器(从部分观测恢复完整场景) [15] 生成模型与方法分类 - 生成模型是3D/4D世界建模的基础,核心算法包括变分自编码器、生成对抗网络、扩散模型和自回归模型,使智能体能够学习、想象和预测感官数据 [17][19] - 基于视频生成的方法专注于从多视角视频数据生成或预测动态场景,应用包括感知数据增强、规划导向的数据挖掘和场景编辑与风格转换 [20][21][24] - 基于占用生成的方法利用占用网格作为几何一致的中间表示,应用于3D感知增强和未来占用预测,支持行为感知和可控预测 [26] - 基于激光雷达生成的方法通过生成多样化的点云来缓解训练数据稀缺问题,应用于感知数据增强、场景完成和罕见条件建模 [29][30] 数据集与评估 - 研究覆盖了用于视频生成、占用生成和激光雷达生成的主流数据集,例如nuScenes数据集包含1000个场景、140万张图像(6个视角)和40万帧数据,采集频率为2Hz [32][37] - 评估指标分为五个方面:生成质量(如FID、FVD)、预测质量(如IoU、CD)、规划质量(如ADE、FDE)、重建质量(如PSNR、SSIM)和下游任务评估(如mAP、mIoU) [35][38] - 基准测试结果显示,部分模型表现出色,例如MagicDrive和DreamForge等视频生成模型的FVD值低于100,某些占用生成模型在重建质量上的mIoU值超过90% [39][43] 应用领域 - 在自动驾驶领域,世界模型应用于交通模拟、闭环驾驶评估和场景合成,可生成罕见或安全关键场景以评估系统鲁棒性 [52][53] - 在机器人技术中,世界模型支持具身导航、目标中心的操控和基于场景生成的仿真,帮助机器人预测动态并规划任务 [52][54] - 在视频游戏和扩展现实领域,世界模型实现了程序化世界生成和交互式场景渲染,根据玩家互动调整内容以增强沉浸感 [55][56] - 数字孪生应用利用世界模型进行城市级场景建模和事件回放与预测,支持智能城市规划、分析和仿真 [57] 挑战与未来方向 - 当前领域缺乏统一的基准测试和评估协议,使得模型比较困难,未来需要建立涵盖物理合理性、时间连贯性等关键指标的标准化框架 [60] - 在长时域内实现高保真度生成是一大挑战,小误差会累积导致场景连贯性下降,未来需开发先进的生成技术和记忆机制 [60] - 模型在物理保真度、可控性与泛化能力方面存在局限,常产生物理不合理事件,编辑能力粗糙,且难以泛化到新环境 [60] - 计算效率低和跨模态生成一致性差是主要挑战,未来需优先研究稀疏计算、推理加速技术以及能强制执行严格一致性约束的集成架构 [60][61]
清华大学最新!πRL:用在线强化学习让机器人 “边学边做” 的通用方案
具身智能之心· 2025-11-03 08:03
文章核心观点 - 清华大学、北京大学、中科院自动化所等团队联合提出创新框架RLinf 成功解决了流式视觉-语言-动作模型的大规模强化学习适配难题 [1] - RLinf通过Flow-Noise与Flow-SDE双算法结合并行仿真训练 实现了从监督微调瓶颈到近满分性能的突破 [1] - 该方案不回避流式模型的去噪特性 而是将其转化为强化学习适配的优势 为通用机器人操控奠定基础 [5][30] 技术方案创新 - Flow-Noise算法采用可学习噪声网络加单层马尔可夫决策过程 解决动作对数似然计算难题 [7] - Flow-SDE算法通过ODE转SDE加双层马尔可夫决策过程 平衡探索与效率 [9] - 采用近端策略优化算法进行策略优化 并针对流式模型特性进行动作块级奖励设计和对数似然计算适配 [9][12] - 构建共享演员-评论家架构 采用320个并行环境同步训练 实现大规模任务高效优化 [17] 性能表现 - 在LIBERO基准测试中 RLinf在少样本监督微调加强化学习设置下平均性能达到97.6% 较单纯少样本监督微调提升40个百分点 [16] - 在LIBERO长序列任务上 性能从单轨迹监督微调的43.9%提升至94.0% 甚至超过全轨迹监督微调的92.4% [16] - 在ManiSkill基准的4352种任务组合下 RLinf平均性能提升13.0%至15.3% 证明其大规模多任务优化能力 [20][22] - 近端策略优化算法在所有任务上均优于生成奖励策略优化 如在LIBERO基准平均性能近端策略优化为96.0% 生成奖励策略优化仅为90.0% [16][18] 训练与优化 - 监督微调阶段仅用少量专家轨迹初始化模型 强化学习阶段冻结视觉语言模型参数 仅微调3亿参数的动作专家模块 [17] - 最优超参数配置为噪声水平0.5 去噪步骤4步 动作块5步 过高噪声会导致动作失真 过多去噪步骤会增加计算成本 [27] - 双层马尔可夫决策过程比单层训练时间减少50% 同时保持性能差异小于1% [24] - 视觉语言模型接入评论家比动作专家接入评论家的价值损失低30% 解释方差高15% [26]
具身智能之心11.11优惠来了!课程/付费社区/论文辅导/开发套件!
具身智能之心· 2025-11-03 08:03
营销活动概览 - 公司正在开展双十一促销活动,活动时间为11月1日至11月11日 [2] - 促销产品组合包括具身智能系列课程、知识星球会员、科研平台机械臂及开发组件 [1][3] - 提供新人7折优惠和续费5折优惠 [3] 课程产品优惠 - 具身智能系列课程提供单门课程与三门课程组合两种购买选项 [2] - 单门课程优惠价为8 BT,三门课程组合优惠价为7 BT [2] 硬件产品优惠 - 科研平台机械臂产品在此次活动中提供最大优惠力度 [3] - 同时提供具身机械臂及开发组件的优惠 [1] 客户服务渠道 - 公司指定客服渠道为欢迎添加: AlDriver005,用于咨询活动详情 [3]
招募世界模型&人形运控&数采相关的合作伙伴!
具身智能之心· 2025-11-02 12:00
合作招募背景 - 后台收到大量关于具身世界模型、机器人运控、数采的咨询 表明这些是行业内有价值但存在门槛的方向 [2] - 公司期望与领域专家合作研发课程或实战项目 为从业者提供更多见解 [2] 合作内容与形式 - 合作聚焦于具身世界模型、运控、数采相关的课程设计与PPT制作 [3] - 合作形式灵活 可兼职 并提供高于行业水平的薪资和资源共享 [6] 合作伙伴要求 - 期望合作伙伴正在从事具身领域研究 并至少发表一篇CCF-A级别会议论文或拥有1年以上工业界经验 [4]
国产GPU第一股IPO获批,募资80亿!
具身智能之心· 2025-11-02 00:03
IPO进程与募资计划 - 摩尔线程科创板IPO注册申请已获证监会批准,从6月30日递交招股书到10月30日获准注册,仅用时4个月,进度非常迅速[2][3][17] - 公司计划募集资金总额80亿元,其中25.10亿元用于新一代AI训推一体芯片研发,25.02亿元用于新一代图形芯片研发,19.82亿元用于新一代AISoC芯片研发,10.06亿元用于补充流动资金[4][5][6] - 公司在2024年11月启动上市进程,完成Pre-IPO轮融资,38家投资机构合计投资约52.25亿元,去年11月启动上市时企业估值达255亿元[14][20] 财务表现与业务转型 - 2025年上半年营业收入达7.02亿元,已超过2024年全年收入4.38亿元,其中第一季度收入2.89亿元,第二季度4.12亿元[9] - 2025年上半年净亏损2.71亿元,较去年同期大幅收窄,管理层预计最早可于2027年实现合并报表盈利[10] - 公司收入结构发生根本性转变,从2022年桌面级产品占收入71.44%转变为2025年上半年AI智算产品占比94.85%,收入达6.65亿元[11][12][13] 公司背景与技术架构 - 公司成立于2020年6月,实控人张建中曾任英伟达全球副总裁、中国区总经理,控制公司36.36%股份[18][19] - 采用Fabless经营模式,核心技术为自主研发的MUSA统一系统架构,该架构融合GPU硬件和软件,具备全功能特性[21][22][24] - 已推出四代GPU芯片,涵盖企业级和消费级市场,产品包括芯片、板卡/模组、一体机、集群设备等完整产品线[25] 国产GPU行业竞争格局 - 沐曦于2025年6月30日科创板IPO申请获受理,9月5日进入第二轮问询,10月24日成功过会[27] - 燧原科技2024年8月启动IPO辅导,估值160亿元,腾讯作为第一大股东持股20.49%,已融资近70亿元[28][29] - 壁仞科技2024年9月启动IPO辅导,2025年5月披露辅导情况,估值约160亿元,瀚博半导体2025年7月宣布启动A股IPO辅导[30][31]
边缘设备上高效运行!NanoVLA :保留 VLA 模型的精度与泛化能力,推理速度提升 52 倍
具身智能之心· 2025-11-02 00:03
文章核心观点 - NanoVLA模型通过创新的“视觉-语言解耦融合+长短动作分块+动态路由”架构,解决了通用视觉-语言-动作模型在边缘设备上部署时“通用化”与“轻量化”的矛盾 [2] - 该模型在保持甚至超越现有大型VLA模型任务精度与泛化能力的同时,将推理速度提升52倍,参数量压缩98%,首次实现在资源受限的边缘设备上高效运行通用机器人策略的目标 [2][19][32] 技术瓶颈与解决思路 - 传统VLA模型存在三大设计瓶颈:模态融合冗余导致高延迟、动作执行僵硬导致运动失准、模型容量错配导致资源浪费与性能不足并存 [3] - NanoVLA的突破思路并非单纯缩小模型,而是重构推理逻辑,通过解耦静态指令与动态视觉、分阶段规划动作、自适应选择骨干网络,实现计算资源的“按需分配” [3] 核心架构模块 - **视觉-语言解耦融合与缓存**:分离模态编码并延迟融合时机,对静态指令特征进行缓存复用,仅需动态更新视觉嵌入,使计算量减少62% [8][12] - **长短动作分块**:训练时学习长序列依赖以保证动作连贯性,推理时执行短窗口并结合高频环境反馈重新规划,在LIBERO长任务中成功率比固定长序列执行高16%,动作抖动减少30% [9][11][13][14] - **动态路由**:引入轻量级路由器,根据任务复杂度自适应选择轻量或重量级骨干网络,使简单任务中轻量骨干使用占比超80%,平均参数量降至296M,仅为OpenVLA的4% [15][18][21] 性能表现 - **模拟基准测试**:在LIBERO基准上,NanoVLA-R版本取得84.1%的平均成功率,比7.5B参数量的OpenVLA高7.6%,比450M参数量的SmolVLA高5.5% [20] - **真实机器人测试**:在搭载Jetson Orin Nano的LeRobot机器人上,NanoVLA在12类真实任务中的平均成功率达85.6%,超越OpenVLA的80.4% [26] - **边缘设备效率**:在Jetson Orin Nano上,NanoVLA-R的推理速度达到41.6 FPS,是OpenVLA(0.8 FPS)的52倍,同时在LIBERO-Goal任务上成功率提升8个百分点 [22][29] 行业意义与未来方向 - NanoVLA为通用机器人策略的边缘部署提供了不牺牲精度的轻量化路径,其架构范本可直接复用于工业巡检、家庭服务、嵌入式操控等产业化场景 [30][32] - 未来技术演进方向包括融入触觉/力觉等多模态信号以提升操作精度、通过知识蒸馏实现端到端轻量化、以及扩展适配双臂、移动机器人等多机器人形态 [31]
单张4090跑到30fps,范浩强团队让VLA实时跑起来了
具身智能之心· 2025-11-02 00:03
文章核心观点 - 研究团队通过深度优化,成功将30亿参数的VLA大模型Pi0在单张RTX 4090显卡上的推理速度提升至30fps,远快于行业普遍认知的百毫秒级别延迟 [1] - 优化后的代码已开源,并基于此成果设计出有潜力实现480Hz闭环控制的下一代机器人实时控制算法框架 [2] - 该技术突破解决了机器人VLA大模型因高延迟而难以实现实时控制的核心痛点,为具身智能的实时应用打开了新的大门 [5][16] 技术性能突破 - 针对Pi0模型(30亿参数),在单张消费级显卡RTX 4090上最快可达到30fps的推理速度 [1] - 针对双视角输入,模型推理时间从初始的100+毫秒被优化至27毫秒,实现了数倍的性能提升 [1] - 优化后的模型在抓取自由落体笔的任务中,端到端总反应时间被缩短到200毫秒以内,媲美人类表现 [11] 技术实现方法 - 通过深入分析Pi0模型结构,将其分解为视觉编码器、编码器和解码器,并进一步拆解为矩阵乘法和标量运算 [8] - 针对Transformer模型单次推理时产生的大量零碎“矩阵计算小任务”,研究者融合和并行优化了每一个计算步骤 [9] - 优化代码全部实现均打包为一个只依赖于torch和triton的单一文件,已在GitHub开源 [2] 未来框架与展望 - 设计了一套完整的、围绕GPU打造的机器人控制框架,能驱动VLA大模型进行流式实时控制 [13] - 该框架规划最高能以480Hz的频率生成机器人控制信号,已达到基于力反馈进行控制的门槛 [13] - 框架为机器人设计了三种不同速度的“反应神经”:超快反应(480Hz)、视觉反应(30Hz)和智能思考(<1Hz) [15] - 对未来发展提出关键问题,包括视觉处理帧率从30fps向120fps提升、模型参数从3B向更大规模扩展、以及反馈回路向亚毫秒级迈进的可能性 [19]
走路、擦板、端盘都不抖!SEEC框架:人形机器人也懂"物理补偿"
具身智能之心· 2025-11-02 00:03
核心观点 - SEEC框架通过“模型增强残差学习”方法,实现了人形机器人在动态行走中上肢的稳定控制,其核心是让上肢策略自动预判并抵消下肢运动带来的扰动[5] - 该框架将控制解耦为上下两层,上层策略通过模仿动力学模型推导的理想补偿力矩,在真实机器人上实现了零额外训练的稳健上肢控制[5][6] - 在仿真和真实机器人实验中,该框架显著提升了末端执行器的稳定性,并在多项任务中表现出色[30][33] 核心思路与创新点 - **控制范式创新**:采用“模型增强残差学习”框架,将动力学模型与强化学习融合,使策略学习过程从“黑箱试错”转变为“物理引导的高效收敛”[7][23] - **扰动建模**:构建“基座扰动生成器”,通过脚底冲击和身体重心摆动来模拟真实行走中的多种扰动[7][14] - **结构设计**:采用上下肢分层独立训练的策略,提升了策略的迁移性和模块复用性[7] - **奖励机制**:引入“力矩模仿奖励”,使强化学习策略能够对齐物理模型推导出的补偿信号,而非盲目试错[7][32] 算法实现细节 - **整体框架**:框架包含扰动生成器、模型增强模块、上肢残差策略和任务控制器四个核心模块[12][13] - **扰动生成**:采用等效力方法生成脉冲型(模拟脚底冲击)和周期型(模拟身体晃动)两类扰动信号,并通过随机化参数来增强泛化能力[14][15][21] - **模型增强**:利用雅可比矩阵和惯量矩阵推导出理论上可抵消扰动的“补偿力矩”,为强化学习提供教师信号[17] - **强化学习训练**:使用PPO算法和循环神经网络结构,奖励函数包含力矩模仿奖励、稳定性奖励和平滑性奖励[19][20] 仿真测试与结果分析 - **测试任务**:在仿真环境中设计了四种步态任务进行测试,包括原地踏步、向前行走、侧向移动和旋转步态[27][28][30] - **性能对比**:与多种基线方法对比,SEEC框架在所有任务中平均将末端线加速度降低60%以上,角加速度降低40%以上[30] - **消融实验**:实验表明,去除任务控制力矩导致性能下降约36%,去除力矩模仿奖励导致性能下降约26%,验证了各组件的关键作用[31][32] 实机部署与结果 - **任务表现**:在Booster T1真实人形机器人上成功完成了抓链行走、擦白板、端盘行走和提瓶行走等高难度任务[33] - **稳定性**:在端盘行走任务中实现全程无倾斜、无抖动,在提瓶行走任务中液体波动显著减弱[33]