具身智能之心
搜索文档
Cocos系统:让你的VLA模型实现了更快的收敛速度和更高的成功率
具身智能之心· 2025-08-22 08:04
核心观点 - 扩散策略训练中存在损失崩塌问题,导致训练效率低下和策略性能下降 [3] - 提出Cocos方法,通过将源分布修改为依赖于生成条件的分布来解决损失崩塌问题 [3] - Cocos方法显著提高训练收敛速度和任务成功率,且与现有扩散策略架构兼容 [3] 技术原理 - 流匹配方法通过求解常微分方程将简单源分布转化为复杂目标分布 [5] - 条件分布流匹配的优化目标为$$\mathcal{L}_{\text{CPMc}}(\theta):=\mathbb{E}_{t,q(x_{0}),q(x_{1},c),p_{t}(x|x_{1},x_{0})}\left\|v_{\theta}(t,x,c)-u_{t}(x|x_{1},x_{0})\right\|^{2}$$ [5] - 损失崩塌发生时神经网络难以区分生成条件,优化目标退化为对边际动作分布的建模 [6] - 梯度差异上界为$$\left\|\nabla_{\theta}{\mathcal{L}}_{\mathrm{CFMc}}(\theta,c_{1})-\nabla_{\theta}{\mathcal{L}}_{\mathrm{CFMc}}(\theta,c_{2})\right\|\;\leq\;2\left(M+K D\right)\epsilon$$ [6] 方法实现 - Cocos的优化目标定义为$$\mathcal{L}_{\mathrm{Cocos}}(\theta):=\mathbb{E}_{t_{\tau/(x_{0}|c)},q(x_{1},c),p_{t}}\left\|v_{\theta}-u_{t}\right\|^{2}$$ [9] - 源分布采用$$q(x_{0}|c)=\mathcal{N}(x_{0};\alpha F_{\phi}(\mathcal{E}(c)),\beta^{2}I)$$形式 [9] - 实验使用DiT架构插入交叉注意力层融入视觉和语言信息 [9] - 视觉编码使用Dinov2,语言编码使用T5 [9] 实验结果 - LIBERO基准测试中Cocos达到94.8平均成功率,对比基线86.5提升8.3个百分点 [23] - MetaWorld任务中Cocos在faucet-open任务取得100%成功率,较基线84.0提升16个百分点 [16] - 现实世界xArm机械臂任务Cocos获得93.3%成功率,较基线67.3%提升26个百分点 [16] - SO100机械臂任务Cocos达到74.8%成功率,较基线59.5%提升15.3个百分点 [16] 案例研究 - LIBERO任务中Cocos策略成功区分多视角相机,非Cocos策略出现相机注意力崩塌 [18] - 腕部相机意外脱手时,Cocos策略仍能通过外部相机定位目标 [18] - 余弦相似度显示Cocos对所有视角相机的区分能力均高于非Cocos策略 [18] 源分布设计 - 标准差0.2时LIBERO平均成功率94.8%,0.1时降至77.5% [23] - VAE训练源分布效果与手动设计0.2标准差相当,达到93.8%成功率 [23] - 同时训练源分布和扩散策略需配合EMA更新机制以保持稳定性 [24]
比H20还要强大!英伟达最新B30A芯片曝光
具身智能之心· 2025-08-21 08:03
英伟达新AI芯片开发 - 公司正在开发代号为B30A的新AI芯片,性能将超越H20型号 [2][3] - 芯片基于Blackwell架构,采用单芯片配置,原始算力约为B300 GPU双芯片配置的一半 [4][6] - 具备高带宽内存和NVLink技术,支持处理器间快速数据传输 [8][9] - 芯片生产速度预计比之前快7到30倍 [10] - 计划下月开始交付测试,规格尚未完全确定 [7] 芯片产品线扩展 - 公司同时开发另一款低成本AI芯片RTX6000D,基于Blackwell架构,专注于AI推理任务 [18][19] - RTX6000D采用GDDR内存,带宽达每秒1398GB,预计9月小批量交付客户 [20] - B30芯片首次支持多GPU扩展,可通过连接多组芯片构建高性能计算集群 [11] 市场表现与预期 - 公司股价年内上涨超30%,市值曾突破4万亿美元 [13] - 多家投行上调目标价,最高达240美元,因AI算力需求激增及Blackwell架构提速 [14][15] - 市场共识预期第二季度营收458亿美元,每股收益1美元 [15] - 近期高管通过8笔交易卖出15万股,套现2710万美元 [16] 技术架构与规划 - 新产品遵循Blackwell架构路线图,强调商业用途合规性 [11] - 芯片发布时机选择在财报前夕,可能影响市场情绪 [11]
Humanoid Occupancy:首个多模态人形机器人感知系统!解决运动学干扰和遮挡问题
具身智能之心· 2025-08-21 08:03
人形机器人技术发展趋势 - 人形机器人技术正在飞速发展,各大制造商纷纷推出针对特定场景、形态各异的异构视觉感知模块 [2] - 在各种感知范式中,基于占用的表示已被广泛认为特别适合人形机器人,因为它能同时提供丰富的语义信息和三维几何信息,这对于全面理解环境至关重要 [2] - 人形机器人作为通用型和复杂性最高的机器人形态,承载着对未来机器人和人工智能的想象,目前其运动控制和自主感知都处于非常关键的突破性时刻 [6] Humanoid Occupancy感知系统核心创新 - 提出了Humanoid Occupancy,这是一个广义的多模态占用感知系统,集成了硬件与软件组件、数据采集设备以及一套专用的标注流程 [3] - 该框架采用先进的多模态融合技术,生成基于网格的占用输出,这些输出同时编码了空间占用状态和语义标签,从而为任务规划与导航等下游任务提供了全面的环境理解能力 [3] - 为应对人形机器人的独特挑战,克服了诸如运动学干扰和遮挡等问题,并确立了一套有效的传感器布局策略 [3] - 开发了首个专为人形机器人设计的全景占用数据集,为该领域未来的研究与发展提供了宝贵的基准和资源 [3] - 网络架构融合了多模态特征和时序信息,以确保感知的鲁棒性 [3] - 该系统为人形机器人提供了有效的环境感知能力,并为标准化通用视觉模块奠定了技术基础,从而为复杂现实场景中人形机器人的广泛部署铺平了道路 [3] 行业研究与应用重点 - 行业研究领域正进行持续迭代,推出了多个移动和操作算法,并提出了Humanoid Occupancy多模态感知系统,旨在推动人形机器人的智能化进展 [6] - 当前研究重点方向包括:人形机器人的运动控制、人形机器人多模态感知系统、人形机器人的自主化移动、人形机器人的操作与相关数据 [8]
X-SAM:统一图像分割多模态大模型,20+个数据集上均SoTA
具身智能之心· 2025-08-21 08:03
研究背景与动机 - Segment Anything Model (SAM) 依赖视觉提示的单一输入模式限制了在广泛图像分割任务中的适用性 [3] - 多模态大语言模型(MLLMs)输出局限于文本生成,无法直接处理像素级视觉任务,阻碍了通用化模型的发展 [3] - 研究团队提出 X-SAM,将分割范式从「分割万物」扩展到「任意分割」,通过视觉定位分割(VGS)任务赋予 MLLMs 像素级理解能力 [3] 方法设计 - X-SAM 采用通用输入格式,支持文本查询输入和视觉查询输入(包括点、涂鸦、边界框、掩码等多种提示形式) [7] - 引入特殊标记 <SEG> 表示分割结果,<p> 和 </p> 标记间的潜在语言嵌入作为分割解码器的条件嵌入 [7] - 采用端到端的统一分割 MLLM 架构,包含双编码器设计(SigLIP2-so400m 和 SAM-L)、双映射器架构、分割连接器和 Mask2Former 解码器 [10][11][12] - 采用三阶段渐进式训练策略:分割器微调、对齐预训练和混合微调,采用数据集平衡重采样策略改善少样本数据集性能 [13][15][19] 实验结果 - X-SAM 在超过 20 个分割数据集上进行了全面评估,涵盖 7 种不同的图像分割任务,实现了全任务最优性能 [16] - 在指代分割任务中,X-SAM 在 RefCOCO、RefCOCO+ 和 RefCOCOg 数据集上达到 85.1/87.1/83.4、78.0/81.0/74.4 和 83.8/83.9 的准确率,显著优于现有方法 [18] - 在视觉定位分割任务中,X-SAM 在点、涂鸦、边界框和掩码提示下的 AP50 分别达到 72.5、73.4、74.7 和 74.9,远超 PSALM 的 3.3、4.4、5.8 和 3.3 [20] - 在图文理解任务中,X-SAM 在 MME、MMBench、SEED-Bench、POPE 和 AI2D 数据集上分别达到 1374/312、69.3、69.3、89.3 和 62.6 的分数,优于多数对比模型 [20] 总结与展望 - X-SAM 作为首个真正统一的分割多模态大语言模型,实现了从「segment anything」到「any segmentation」的重要跨越 [24] - 未来研究方向包括与 SAM2 集成实现图像和视频的统一分割,以及将 VGD 分割扩展到视频中,引入时序信息构建创新的视频分割任务 [25]
港大&清华最新!仅通过少量演示,实现动态物体操作的强泛化能力!
具身智能之心· 2025-08-21 08:03
动态物体操作的技术挑战与现有方法局限 - 动态物体操作对运动规划的时效性和操作精度要求更高,需实时应对物体移动速度、轨迹变化等因素 [8] - 经典运动规划方法依赖复杂系统建模和参数调优,需针对不同场景定制设计,扩展性差 [11] - 现有模仿学习方法泛化能力依赖大量演示数据,但动态场景公开数据集极少且数据收集成本极高 [11] 基于熵的理论框架创新 - 通过信息熵分析将专家演示的联合熵分解为观测熵(衡量观测信息复杂度)和动作条件熵(衡量动作预测模糊性) [14][16] - 降低观测熵需剔除与动作预测无关的冗余信息(如物体外观、环境背景),保留核心几何结构 [16] - 降低动作条件熵需引入历史记忆解决信息不足问题,并用概率模型处理多模态动作分布 [16] GEM系统核心技术实现 - 采用目标中心几何感知模块:使用无颜色3D点云+实例ID作为输入,避免图像外观信息干扰,并通过实例分割去除环境背景点云 [24] - 开发混合动作控制模块:通过视觉伺服控制跟踪移动物体使其呈现"静态",再通过递归概率网络生成操作动作 [24] - 记忆编码器通过Transformer解码器融合当前点云特征与历史记忆特征,采用高斯混合模型表示多模态动作分布 [27][29] 实验性能表现 - 在模拟场景中四项技能(抓取、放置、旋转、插入)平均成功率达83%,显著高于次优方法PI0*的57% [30] - 在真实场景中平均成功率达85%,其中抓取成功率92%、放置成功率96%、旋转成功率79%、插入成功率74% [31] - 在传送带速度0.25m/s时仍保持较高成功率(抓取81%、放置92%、旋转73%、插入48%),但在0.5m/s时失效 [38] 系统泛化能力验证 - 3D点云输入比图像输入在泛化任务中成功率高20%-30% [39] - 支持非直线运动(S形轨迹、随机曲线)且成功率保持在75%以上 [39] - 对未见物体(如食堂多样餐具)成功率仍达74%,且在四种机械臂上通用(成功率差异<5%) [39] - 仅用模拟数据训练在真实场景仍有76%抓取成功率,微调后提升至92% [39] 实际应用成效 - 在食堂餐具收集中7天内完成10,000+次操作,成功率97.2%,无需现场演示仅用100次模拟微调 [44] - 首次实现模仿学习在动态操作中的大规模实用化,突破动态场景数据收集成本高的瓶颈 [44]
宁波东方理工大学联培直博生招生!机器人操作/具身智能/机器人学习等方向
具身智能之心· 2025-08-20 12:00
宁波东方理工大学联培直博项目 - 联合上海交通大学、中国科学技术大学招收机器人方向联培直博生,学籍注册在合作高校,第一年课程学习在合作高校,后续科研工作在东方理工,双导师制,毕业后获合作高校博士学位[1] - 导师李晓聪为宁波东方理工助理教授兼新加坡国立大学客座助理教授、哈佛大学客座研究员,研究方向为控制、学习与机器人交叉领域,累计获得千万级科研资助,担任IEEE T-ASE和RAM副主编[1] - 实验室提供充足助研津贴和实验设备支持,学生主导科研且导师不抢占一作,课题组无横向项目干扰,专职行政助理处理事务性工作,注重学生职业发展并推荐海外博后机会[2] 具身智能之心知识星球社区 - 国内首个具身智能全栈技术社区,集视频、图文、学习路线、问答、求职于一体,成员近2000人,目标2年内达万人规模,提供技术问题快速解答(如数据采集、模型部署等)[3][5] - 社区闭环覆盖产业、学术、求职领域,梳理30+技术路线(如VA/VLA、Diffusion Policy、sim2real等),汇总40+开源项目、60+数据集、行业仿真平台,邀请数十位一线产业界和学术界嘉宾答疑[5][18] - 建立高校与企业资源网络:高校包括斯坦福、清华、ETH等,企业涵盖智元机器人、优必选、小米等头部公司,提供岗位内推机制和行业研报(30家汇总)[12][18][23] 行业技术资源与学习体系 - 学习路线覆盖具身智能全领域:包括强化学习全栈、多模态大模型(理解/生成)、机械臂策略学习、触觉感知等16个细分方向,配套开源项目和数据集[18][46][54][56] - 汇总机器人硬件生态:零部件品牌(芯片、激光雷达等)、仿真平台(Isaac Sim等)、四足/双足机器人开源项目,助力系统搭建[30][40][73] - 提供职业发展支持:针对不同阶段设计技术栈(小白入门/进阶提升),组织圆桌论坛和直播(本体设计、算法优化等),分享产业落地案例[13][15][78] 行业趋势与人才流动 - 自动驾驶领域人才向具身智能迁移趋势明显,技术栈通用性高(如Transformer基础),视觉语言导航和端到端导航成为过渡方向[82][84] - 具身智能处于探索期(对标自动驾驶2017/18阶段),薪资水平高于传统机器人岗位,初创公司总包达70-80万但稳定性较低[84] - SLAM在消费级机器人中工程化需求显著(定位建图稳定性优化),但行业焦点转向大模型与端到端技术,强化学习岗位溢价明显(薪资高出智驾15%)[83][85]
Meta没做的,英伟达做了!全新架构吞吐量狂飙6倍,20万亿Token训练
具身智能之心· 2025-08-20 08:03
文章核心观点 - 英伟达发布全新9B参数模型NVIDIA Nemotron Nano 2 采用创新Mamba-Transformer混合架构 在数学、代码、推理与长上下文任务中表现与Qwen3-8B持平或更优 同时实现最高6倍推理吞吐量提升 [1][4][6] - 模型通过结构化剪枝与知识蒸馏技术将12B基础模型压缩至9B 显著降低部署资源需求 [31][38][39] - 公司同步开源包括预训练数据集、基础模型及对齐模型在内的完整生态资源 覆盖6.6万亿高质量多模态训练数据 [44] 模型架构创新 - 采用Nemotron-H混合架构 使用Mamba-2层替换传统Transformer自注意力层 实现线性计算复杂度与超长序列处理能力 [16][17][28] - 混合架构兼顾Transformer在记忆复制与上下文学习任务的优势 以及Mamba在长上下文建模中的效率 [29][30] - 在8k输入/16k输出场景下实现6.3倍吞吐量提升 支持128k上下文长度 [39][42] 训练与优化策略 - 基于20万亿token数据集进行FP8预训练 构建120亿参数基础模型Nemotron-Nano-12B-v2-Base [32][34] - 结合SFT、DPO、GRPO、RLHF多阶段对齐方法提升推理、对话与工具调用能力 [36] - 通过Minitron策略进行结构化剪枝与知识蒸馏 最终压缩至90亿参数且保持单卡A10G GPU可部署 [38][39] 性能表现 - 在GSM8K、MATH等数学基准测试达到97.8%准确率 代码任务(HumanEval+/MBPP+)与通用推理(MMLU-Pro)表现优于同类开源模型 [41][43] - 长上下文任务(RULER128k)性能持平Gemma3-12B等更大参数模型 [41] - 工具调用能力支持实时天气查询、角色描述等具体应用场景 [10] 开源生态建设 - 在HuggingFace平台开源三个核心模型:9B对齐模型、9B基础模型及12B基础模型 [44] - 发布Nemotron-Pre-Training-Dataset-v1数据集 包含6.6万亿token 覆盖网页爬取、数学、代码及多语言问答数据 [44] - 专项开源1330亿token数学数据集(Nemotron-CC-Math-v1)与多编程语言代码数据集(Nemotron-Pretraining-Code-v1) [44] 行业竞争格局 - 英伟达在开源模型领域持续投入 与Meta转向闭源策略形成对比 [45][47] - 架构创新竞赛加剧 除Mamba外Meta推进JEPA/LCMs 谷歌DeepMind投入50%研究力量开发Titans/Atlas等新架构 [21][22] - 模型小型化与效率优化成为行业焦点 9B模型在特定任务性能比肩更大参数模型 [41][39]
探究下VLA模型泛化差的原因......
具身智能之心· 2025-08-20 08:03
研究背景与核心问题 - 大规模数据集(如Open X-Embodiment/OXE)训练的通用机器人策略在分布范围内表现良好,但泛化能力受限 [2] - 泛化受限的根本原因是捷径学习,即模型过度依赖与任务无关的特征 [2] - 捷径学习由两个关键因素导致:单个子数据集内部多样性有限,以及子数据集间存在显著分布差异(数据集碎片化) [2] 数据集结构分析 - OXE等大规模数据集由多个独立收集的子数据集构成,这些子数据集来自不同环境和机器人形态 [2] - 这种固有结构导致数据集内部多样性不足和碎片化问题 [2] 解决方案与实证发现 - 通过精心选择的数据增强策略可有效减少现有离线数据集中的捷径学习 [2] - 数据增强方法能提升通用机器人策略在仿真和真实环境中的泛化能力 [2] - 研究结果为改进机器人数据集收集策略提供了重要见解 [2] 研究应用与延伸 - 研究成果适用于视觉语言动作模型(VLA),当前VLA的泛化能力十分有限 [5] - 针对OXE数据集的深入分析为数据收集提供了指导方针 [5] - 研究涉及真实场景下的机器人导航和运动控制(real2sim2real)以及真机性能提升(如32%的性能提升)等应用方向 [7]
ICCV 2025 | RobustSplat: 解耦致密化与动态的抗瞬态3DGS三维重建
具身智能之心· 2025-08-20 08:03
研究背景与动机 - 3DGS技术在动态场景建模中存在精度不足问题 常导致渲染图像出现伪影 [1] - 高斯致密化过程具有双重作用机制:既增强场景细节表达 又促使模型过早拟合动态区域导致伪影和场景失真 [4] - 传统致密化策略存在依赖性风险 细节提升可能以牺牲静态区域重建质量为代价 [4] 核心技术方案 - 首创延迟高斯生长策略:在允许高斯分裂/克隆前优先优化静态场景结构 减少优化初期对动态物体的过拟合 [1][6] - 设计尺度级联掩码引导方法:先利用低分辨率特征相似度监督进行可靠的初始动态掩码估计 再逐步过渡到高分辨率监督实现精准掩码预测 [1][14] - 采用含两层线性层的MLP作为掩码估计网络 以DINOv2特征为输入 因其在语义一致性和抗噪性方面表现优异 [9][10] - 掩码学习总损失结合图像残差损失和特征余弦相似度损失 增强语义级动态区域识别能力 [10][13] 实验效果 - 在NeRF On-the-go和RobustNeRF数据集上 相比3DGS、SpotLessSplats、WildGaussians等基线方法 PSNR、SSIM、LPIPS等指标全面领先 [16][20] - 能处理含多样瞬态物体的复杂场景并保留细节 有效减少瞬态物体导致的渲染伪影 [19][20] 技术价值 - 通过调节致密化过程引入时机 有效平衡静态结构表达与动态干扰抑制 [6] - 推动在复杂场景中实现鲁棒、细节丰富的3D场景重建 [6][20]
ExploreVLM:基于视觉-语言模型的闭环机器人探索任务规划框架
具身智能之心· 2025-08-20 08:03
研究背景与核心问题 - 具身智能发展推动机器人成为日常助手 要求机器人具备高层指令解读 动态环境感知和实时计划调整能力 [3] - 视觉-语言模型(VLMs)因融合视觉理解与语言推理能力 成为机器人任务规划的重要方向 [3] - 现有VLMs方法存在三方面局限:交互式探索能力不足 感知精度有限 计划适应性差 [6] 核心框架设计 - ExploreVLM采用"感知-规划-执行-验证"闭环设计解决现有问题 [5] - 框架流程包括:场景感知模块提取目标中心空间关系图 双阶段规划器生成探索和完成阶段子目标 执行验证器生成反馈 规划器动态调整计划 [6] 关键模块解析 - 目标中心空间关系图构建结构化场景表示:节点标注物体语义属性 有向边表示物体间空间关系 [8] - 构建流程分两步:GroundedSAM2分割图像并标注物体类别 VLM推理空间关系将2D图像转化为语言可理解的3D空间结构 [9] - 双阶段自反思规划器分离"未知信息探索"与"目标达成":探索阶段生成探索子目标及动作 完成阶段生成达成最终目标的动作序列 [10][12] - 自反思机制通过链-of-thought推理修正计划 解决LLM幻觉问题:验证目标有效性 检查动作逻辑一致性 处理障碍物 [10][12] - 执行验证器采用逐步验证机制:判断动作是否成功 验证子目标是否达成 若失败返回具体原因触发重新规划 [14][17] 实验验证 - 实验在真实机器人平台(UR5机械臂+Robotiq夹爪+Intel RealSense相机)进行 设计5个递增复杂度任务 [15] - 平均成功率:ExploreVLM达94% 远超ReplanVLM的22%和VILA的30% [16][19] - 各任务成功率:Task1 100% Task2 100% Task3 100% Task4 90% Task5 80% [19] - 消融实验显示移除核心模块后性能大幅下降:无空间关系图成功率降至30% 无双阶段规划器降至10% 无执行验证器降至0% [19] 优势分析 - 空间关系图提升场景理解精度 准确识别障碍物和物体 [21] - 双阶段规划解决探索性任务困境 通过探索准确定位目标 [21] - 自反思修正逻辑错误 避免不合理动作序列 [21] - 逐步验证增强抗噪声能力 及时检测失败并重试 [21] 与传统方法对比 - 传统TAMP方法缺乏自然语言与视觉整合 适应性有限 [22] - VILA直接用GPT-4V生成计划 但缺乏结构化感知 探索与执行脱节 [22] - ReplanVLM依赖阶段末反馈 误差易累积 [22] - RoboExp需依赖先验物体知识 探索步骤冗余 [22]