具身智能之心

搜索文档
又帮到了一位同学拿到了VLA算法岗......
具身智能之心· 2025-08-23 00:03
具身智能行业发展趋势 - 具身智能行业处于早期发展阶段 对标自动驾驶行业2017-2018年阶段 仍存在窗口期机会 [83] - 技术发展重点从传统SLAM转向大模型和端到端方案 传统机器人从业者与具身感知技术派系分化明显 [83] - 行业平均薪资水平较高 初创公司1-2年工作经验人员总包可达70-80万 但稳定性较差 [83] 技术发展重点 - 视觉语言模型(VLA)和视觉语言动作模型(VLA)成为技术热点 应用涵盖机器人抓取与规划任务 [2][58] - 强化学习与VLA结合(VLA+RL)成为重要技术方向 [40][42] - 多模态大模型技术快速发展 涵盖理解与生成两大方向 包括Image+Text到Text等多种模态组合 [52][54] - 仿真技术(sim2real)和数据采集成为关键环节 存在real2sim2real等解决方案 [2][66] 人才需求与就业情况 - 企业招聘偏好有实习经验的候选人 机器人创业公司普遍要求实习经历 [81] - 自动驾驶领域人才向具身智能领域迁移 技术栈通用性较高 [80][83] - 算法岗位需求旺盛 VLA算法岗位薪资较高 某案例显示强化学习岗位薪资达(N+6000)*15水平 [1][81] 技术社区生态 - 具身智能之心知识星球为国内首个具身全栈技术社区 成员近2000人 目标2年内达到近万人规模 [1][16] - 社区汇聚40+开源项目 60+数据集 30+技术路线 覆盖感知、交互、导航等全方位技术领域 [16] - 社区成员来自斯坦福大学、清华大学等顶尖高校和智元机器人、优必选等头部企业 [16] - 建立企业内推机制 与多家具身公司合作提供岗位对接服务 [10] 技术资源体系 - 汇总国内外40+高校实验室资源 提供读研、申博参考 [18][20] - 汇总国内外具身机器人公司 涵盖教育、工业、医疗等多个应用方向 [21] - 整理机器人相关书籍 包括导航、动力学、运动学等基础学习资料 [26] - 汇集零部件制造厂商信息 涵盖芯片、激光雷达、相机等核心部件 [28] 技术应用方向 - 视觉语言导航成为自动驾驶与机器人的重要应用领域 [48] - 触觉感知为前沿应用方向 包括传感器应用和多模态算法集成 [50] - 机械臂技术涵盖抓取、位姿估计和策略学习等多个环节 [69] - 双足与四足机器人技术发展迅速 提供从零搭建机器人的完整方案 [71] 学习与培训体系 - 为入门者提供完整技术栈和学习路线 [11] - 为从业者提供产业体系和项目方案 [13] - 社区提供问答交流、直播分享等多元学习方式 [76][78] - 建立专家答疑机制 数十位产业界和工业界大佬提供技术支持 [2]
小模型也能超越GPT-4o!邱锡鹏团队WAP框架打造「世界感知」智能体
具身智能之心· 2025-08-22 08:04
核心观点 - 大规模视觉语言模型在具身规划任务中存在处理复杂场景的困难 但环境感知规划叙事增强框架通过四项认知能力注入全面环境理解 显著提升任务成功率 并在基准测试中超越专有系统 [2][6] 技术框架 - 环境感知规划叙事增强框架整合视觉外观建模 空间推理 功能抽象和语法接地四项认知能力 为模型提供全面环境理解 [2] - 仅通过课程学习使用原始视觉观测数据来开发和评估模型 不依赖与环境无关的模仿学习 [2] 性能表现 - 在EB-ALFRED基准测试中 Qwen2.5-VL实现60.7%的绝对任务成功率提升 [2] - 常识推理方面提升60.0% 长周期规划方面提升70.0% [2] - 增强后的开源模型大幅超越GPT-4o和Claude-3.5-Sonnet等专有系统 [2] 模型参数 - 框架将7B参数模型任务成功率提升60.7% [6] 应用领域 - 多模态模型在具身规划任务面临严峻挑战 该研究为具身规划带来新的可能 [6] - 研究涉及从视觉到行动的创新框架 突破多模态模型的具身规划瓶颈 [7]
3个月!搞透VLA/VLA+触觉/VLA+RL/具身世界模型等方向!
具身智能之心· 2025-08-22 08:04
具身智能技术演进 - 技术发展经历了四个阶段:从抓取位姿检测(单步决策缺乏任务上下文建模)到行为克隆(端到端模仿但泛化能力弱),再到2023年Diffusion Policy(扩散模型生成动作轨迹提升稳定性与泛化能力),最终进入2024年Vision-Language-Action模型阶段(多模态协同支持零样本泛化)[6][7] - 2025年技术探索聚焦VLA模型与强化学习、世界模型、触觉感知的融合,以弥补"只能理解不能反馈""只能关注当下不能看见未来""只能看不能触"的局限[8] - 技术演进路径体现从"低层感知->中层策略->高层理解"的能力补齐,逐步迈向通用任务和开放环境智能体时代[9] 产业生态与竞争格局 - 国内企业如华为2024年底启动"全球具身智能产业创新中心"并与乐聚机器人、大族机器人合作建设大脑与小脑关键技术;京东自2025年5月连续投资智元机器人、千寻智能、逐际动力以强化物流与家庭服务场景能力;腾讯、蚂蚁、小米等通过战略投资加快生态构建[5] - 国外企业如Tesla/Figure AI聚焦工业与物流机器人应用;美国投资机构支持Wayve、Apptronik等公司落地自动驾驶与仓储机器人[5] - 国内以产业链投资与综合平台驱动落地,国外侧重基础模型、模拟环境与类人机器人原型研发,双方进入关键竞赛阶段[5] 应用场景与商业化进展 - 技术发展推动人形机器人、机械臂、四足机器人等产品在工业、家居、餐饮、医疗康复等领域落地,相关产品和融资活动活跃[9] - 岗位需求呈现爆发式增长,吸引大量人员转入具身智能领域研究[9] 技术体系与学习框架 - 具身智能核心模块分为大脑(语义理解与任务规划)和小脑(高精度运动执行),需系统学习灵巧操作、移动操作、仿真框架、Diffusion Policy、VLA及融合技术[1][20] - 主流仿真框架包括Mujoco(生态系统架构与接口)、Isaac Gym(数据采集与可视化)、Pybullet(数据集与接口)[21] - 关键技术方法涵盖Diffusion Policy数学原理与3D点云融合、VLA模型(OpenVLA/PI0/SmolVLA架构与性能对比)、VLA+强化学习/触觉/世界模型的融合方案[21]
Cocos系统:让你的VLA模型实现了更快的收敛速度和更高的成功率
具身智能之心· 2025-08-22 08:04
核心观点 - 扩散策略训练中存在损失崩塌问题,导致训练效率低下和策略性能下降 [3] - 提出Cocos方法,通过将源分布修改为依赖于生成条件的分布来解决损失崩塌问题 [3] - Cocos方法显著提高训练收敛速度和任务成功率,且与现有扩散策略架构兼容 [3] 技术原理 - 流匹配方法通过求解常微分方程将简单源分布转化为复杂目标分布 [5] - 条件分布流匹配的优化目标为$$\mathcal{L}_{\text{CPMc}}(\theta):=\mathbb{E}_{t,q(x_{0}),q(x_{1},c),p_{t}(x|x_{1},x_{0})}\left\|v_{\theta}(t,x,c)-u_{t}(x|x_{1},x_{0})\right\|^{2}$$ [5] - 损失崩塌发生时神经网络难以区分生成条件,优化目标退化为对边际动作分布的建模 [6] - 梯度差异上界为$$\left\|\nabla_{\theta}{\mathcal{L}}_{\mathrm{CFMc}}(\theta,c_{1})-\nabla_{\theta}{\mathcal{L}}_{\mathrm{CFMc}}(\theta,c_{2})\right\|\;\leq\;2\left(M+K D\right)\epsilon$$ [6] 方法实现 - Cocos的优化目标定义为$$\mathcal{L}_{\mathrm{Cocos}}(\theta):=\mathbb{E}_{t_{\tau/(x_{0}|c)},q(x_{1},c),p_{t}}\left\|v_{\theta}-u_{t}\right\|^{2}$$ [9] - 源分布采用$$q(x_{0}|c)=\mathcal{N}(x_{0};\alpha F_{\phi}(\mathcal{E}(c)),\beta^{2}I)$$形式 [9] - 实验使用DiT架构插入交叉注意力层融入视觉和语言信息 [9] - 视觉编码使用Dinov2,语言编码使用T5 [9] 实验结果 - LIBERO基准测试中Cocos达到94.8平均成功率,对比基线86.5提升8.3个百分点 [23] - MetaWorld任务中Cocos在faucet-open任务取得100%成功率,较基线84.0提升16个百分点 [16] - 现实世界xArm机械臂任务Cocos获得93.3%成功率,较基线67.3%提升26个百分点 [16] - SO100机械臂任务Cocos达到74.8%成功率,较基线59.5%提升15.3个百分点 [16] 案例研究 - LIBERO任务中Cocos策略成功区分多视角相机,非Cocos策略出现相机注意力崩塌 [18] - 腕部相机意外脱手时,Cocos策略仍能通过外部相机定位目标 [18] - 余弦相似度显示Cocos对所有视角相机的区分能力均高于非Cocos策略 [18] 源分布设计 - 标准差0.2时LIBERO平均成功率94.8%,0.1时降至77.5% [23] - VAE训练源分布效果与手动设计0.2标准差相当,达到93.8%成功率 [23] - 同时训练源分布和扩散策略需配合EMA更新机制以保持稳定性 [24]
比H20还要强大!英伟达最新B30A芯片曝光
具身智能之心· 2025-08-21 08:03
英伟达新AI芯片开发 - 公司正在开发代号为B30A的新AI芯片,性能将超越H20型号 [2][3] - 芯片基于Blackwell架构,采用单芯片配置,原始算力约为B300 GPU双芯片配置的一半 [4][6] - 具备高带宽内存和NVLink技术,支持处理器间快速数据传输 [8][9] - 芯片生产速度预计比之前快7到30倍 [10] - 计划下月开始交付测试,规格尚未完全确定 [7] 芯片产品线扩展 - 公司同时开发另一款低成本AI芯片RTX6000D,基于Blackwell架构,专注于AI推理任务 [18][19] - RTX6000D采用GDDR内存,带宽达每秒1398GB,预计9月小批量交付客户 [20] - B30芯片首次支持多GPU扩展,可通过连接多组芯片构建高性能计算集群 [11] 市场表现与预期 - 公司股价年内上涨超30%,市值曾突破4万亿美元 [13] - 多家投行上调目标价,最高达240美元,因AI算力需求激增及Blackwell架构提速 [14][15] - 市场共识预期第二季度营收458亿美元,每股收益1美元 [15] - 近期高管通过8笔交易卖出15万股,套现2710万美元 [16] 技术架构与规划 - 新产品遵循Blackwell架构路线图,强调商业用途合规性 [11] - 芯片发布时机选择在财报前夕,可能影响市场情绪 [11]
Humanoid Occupancy:首个多模态人形机器人感知系统!解决运动学干扰和遮挡问题
具身智能之心· 2025-08-21 08:03
>>直播和内容获取转到 → 具身智能之心知识星球 点击下方 卡片 ,关注" 具身智能 之心 "公众号 点击按钮预约直播 人形机器人技术正在飞速发展,各大制造商纷纷推出针对特定场景、形态各异的异构视觉感知模块。在各种感知范式中,基于占用的表示(occupancy-based representation)已被广泛认为特别适合人形机器人,因为它能同时提供丰富的语义信息和三维几何信息,这对于全面理解环境至关重要。 本工作提出了 Humanoid Occupancy(人形机器人占用感知系统),这是一个 广义的多模态占用感知系统,它集成了硬件与软件组件、数据采集设备以及一套专用 的标注流程 。本文的框架采用先进的多模态融合技术,生成基于网格的占用输出(grid-based occupancy outputs),这些输出同时编码了空间占用状态和语义标签, 从而为任务规划与导航等下游任务提供了全面的环境理解能力。为应对人形机器人的独特挑战,本文克服了诸如运动学干扰(kinematic interference)和遮挡 (occlusion)等问题,并确立了一套有效的传感器布局策略。此外, 本文还开发了首个专为人形机器人设计 ...
X-SAM:统一图像分割多模态大模型,20+个数据集上均SoTA
具身智能之心· 2025-08-21 08:03
研究背景与动机 - Segment Anything Model (SAM) 依赖视觉提示的单一输入模式限制了在广泛图像分割任务中的适用性 [3] - 多模态大语言模型(MLLMs)输出局限于文本生成,无法直接处理像素级视觉任务,阻碍了通用化模型的发展 [3] - 研究团队提出 X-SAM,将分割范式从「分割万物」扩展到「任意分割」,通过视觉定位分割(VGS)任务赋予 MLLMs 像素级理解能力 [3] 方法设计 - X-SAM 采用通用输入格式,支持文本查询输入和视觉查询输入(包括点、涂鸦、边界框、掩码等多种提示形式) [7] - 引入特殊标记 <SEG> 表示分割结果,<p> 和 </p> 标记间的潜在语言嵌入作为分割解码器的条件嵌入 [7] - 采用端到端的统一分割 MLLM 架构,包含双编码器设计(SigLIP2-so400m 和 SAM-L)、双映射器架构、分割连接器和 Mask2Former 解码器 [10][11][12] - 采用三阶段渐进式训练策略:分割器微调、对齐预训练和混合微调,采用数据集平衡重采样策略改善少样本数据集性能 [13][15][19] 实验结果 - X-SAM 在超过 20 个分割数据集上进行了全面评估,涵盖 7 种不同的图像分割任务,实现了全任务最优性能 [16] - 在指代分割任务中,X-SAM 在 RefCOCO、RefCOCO+ 和 RefCOCOg 数据集上达到 85.1/87.1/83.4、78.0/81.0/74.4 和 83.8/83.9 的准确率,显著优于现有方法 [18] - 在视觉定位分割任务中,X-SAM 在点、涂鸦、边界框和掩码提示下的 AP50 分别达到 72.5、73.4、74.7 和 74.9,远超 PSALM 的 3.3、4.4、5.8 和 3.3 [20] - 在图文理解任务中,X-SAM 在 MME、MMBench、SEED-Bench、POPE 和 AI2D 数据集上分别达到 1374/312、69.3、69.3、89.3 和 62.6 的分数,优于多数对比模型 [20] 总结与展望 - X-SAM 作为首个真正统一的分割多模态大语言模型,实现了从「segment anything」到「any segmentation」的重要跨越 [24] - 未来研究方向包括与 SAM2 集成实现图像和视频的统一分割,以及将 VGD 分割扩展到视频中,引入时序信息构建创新的视频分割任务 [25]
港大&清华最新!仅通过少量演示,实现动态物体操作的强泛化能力!
具身智能之心· 2025-08-21 08:03
动态物体操作的技术挑战与现有方法局限 - 动态物体操作对运动规划的时效性和操作精度要求更高,需实时应对物体移动速度、轨迹变化等因素 [8] - 经典运动规划方法依赖复杂系统建模和参数调优,需针对不同场景定制设计,扩展性差 [11] - 现有模仿学习方法泛化能力依赖大量演示数据,但动态场景公开数据集极少且数据收集成本极高 [11] 基于熵的理论框架创新 - 通过信息熵分析将专家演示的联合熵分解为观测熵(衡量观测信息复杂度)和动作条件熵(衡量动作预测模糊性) [14][16] - 降低观测熵需剔除与动作预测无关的冗余信息(如物体外观、环境背景),保留核心几何结构 [16] - 降低动作条件熵需引入历史记忆解决信息不足问题,并用概率模型处理多模态动作分布 [16] GEM系统核心技术实现 - 采用目标中心几何感知模块:使用无颜色3D点云+实例ID作为输入,避免图像外观信息干扰,并通过实例分割去除环境背景点云 [24] - 开发混合动作控制模块:通过视觉伺服控制跟踪移动物体使其呈现"静态",再通过递归概率网络生成操作动作 [24] - 记忆编码器通过Transformer解码器融合当前点云特征与历史记忆特征,采用高斯混合模型表示多模态动作分布 [27][29] 实验性能表现 - 在模拟场景中四项技能(抓取、放置、旋转、插入)平均成功率达83%,显著高于次优方法PI0*的57% [30] - 在真实场景中平均成功率达85%,其中抓取成功率92%、放置成功率96%、旋转成功率79%、插入成功率74% [31] - 在传送带速度0.25m/s时仍保持较高成功率(抓取81%、放置92%、旋转73%、插入48%),但在0.5m/s时失效 [38] 系统泛化能力验证 - 3D点云输入比图像输入在泛化任务中成功率高20%-30% [39] - 支持非直线运动(S形轨迹、随机曲线)且成功率保持在75%以上 [39] - 对未见物体(如食堂多样餐具)成功率仍达74%,且在四种机械臂上通用(成功率差异<5%) [39] - 仅用模拟数据训练在真实场景仍有76%抓取成功率,微调后提升至92% [39] 实际应用成效 - 在食堂餐具收集中7天内完成10,000+次操作,成功率97.2%,无需现场演示仅用100次模拟微调 [44] - 首次实现模仿学习在动态操作中的大规模实用化,突破动态场景数据收集成本高的瓶颈 [44]
宁波东方理工大学联培直博生招生!机器人操作/具身智能/机器人学习等方向
具身智能之心· 2025-08-20 12:00
宁波东方理工大学联培直博项目 - 联合上海交通大学、中国科学技术大学招收机器人方向联培直博生,学籍注册在合作高校,第一年课程学习在合作高校,后续科研工作在东方理工,双导师制,毕业后获合作高校博士学位[1] - 导师李晓聪为宁波东方理工助理教授兼新加坡国立大学客座助理教授、哈佛大学客座研究员,研究方向为控制、学习与机器人交叉领域,累计获得千万级科研资助,担任IEEE T-ASE和RAM副主编[1] - 实验室提供充足助研津贴和实验设备支持,学生主导科研且导师不抢占一作,课题组无横向项目干扰,专职行政助理处理事务性工作,注重学生职业发展并推荐海外博后机会[2] 具身智能之心知识星球社区 - 国内首个具身智能全栈技术社区,集视频、图文、学习路线、问答、求职于一体,成员近2000人,目标2年内达万人规模,提供技术问题快速解答(如数据采集、模型部署等)[3][5] - 社区闭环覆盖产业、学术、求职领域,梳理30+技术路线(如VA/VLA、Diffusion Policy、sim2real等),汇总40+开源项目、60+数据集、行业仿真平台,邀请数十位一线产业界和学术界嘉宾答疑[5][18] - 建立高校与企业资源网络:高校包括斯坦福、清华、ETH等,企业涵盖智元机器人、优必选、小米等头部公司,提供岗位内推机制和行业研报(30家汇总)[12][18][23] 行业技术资源与学习体系 - 学习路线覆盖具身智能全领域:包括强化学习全栈、多模态大模型(理解/生成)、机械臂策略学习、触觉感知等16个细分方向,配套开源项目和数据集[18][46][54][56] - 汇总机器人硬件生态:零部件品牌(芯片、激光雷达等)、仿真平台(Isaac Sim等)、四足/双足机器人开源项目,助力系统搭建[30][40][73] - 提供职业发展支持:针对不同阶段设计技术栈(小白入门/进阶提升),组织圆桌论坛和直播(本体设计、算法优化等),分享产业落地案例[13][15][78] 行业趋势与人才流动 - 自动驾驶领域人才向具身智能迁移趋势明显,技术栈通用性高(如Transformer基础),视觉语言导航和端到端导航成为过渡方向[82][84] - 具身智能处于探索期(对标自动驾驶2017/18阶段),薪资水平高于传统机器人岗位,初创公司总包达70-80万但稳定性较低[84] - SLAM在消费级机器人中工程化需求显著(定位建图稳定性优化),但行业焦点转向大模型与端到端技术,强化学习岗位溢价明显(薪资高出智驾15%)[83][85]
Meta没做的,英伟达做了!全新架构吞吐量狂飙6倍,20万亿Token训练
具身智能之心· 2025-08-20 08:03
文章核心观点 - 英伟达发布全新9B参数模型NVIDIA Nemotron Nano 2 采用创新Mamba-Transformer混合架构 在数学、代码、推理与长上下文任务中表现与Qwen3-8B持平或更优 同时实现最高6倍推理吞吐量提升 [1][4][6] - 模型通过结构化剪枝与知识蒸馏技术将12B基础模型压缩至9B 显著降低部署资源需求 [31][38][39] - 公司同步开源包括预训练数据集、基础模型及对齐模型在内的完整生态资源 覆盖6.6万亿高质量多模态训练数据 [44] 模型架构创新 - 采用Nemotron-H混合架构 使用Mamba-2层替换传统Transformer自注意力层 实现线性计算复杂度与超长序列处理能力 [16][17][28] - 混合架构兼顾Transformer在记忆复制与上下文学习任务的优势 以及Mamba在长上下文建模中的效率 [29][30] - 在8k输入/16k输出场景下实现6.3倍吞吐量提升 支持128k上下文长度 [39][42] 训练与优化策略 - 基于20万亿token数据集进行FP8预训练 构建120亿参数基础模型Nemotron-Nano-12B-v2-Base [32][34] - 结合SFT、DPO、GRPO、RLHF多阶段对齐方法提升推理、对话与工具调用能力 [36] - 通过Minitron策略进行结构化剪枝与知识蒸馏 最终压缩至90亿参数且保持单卡A10G GPU可部署 [38][39] 性能表现 - 在GSM8K、MATH等数学基准测试达到97.8%准确率 代码任务(HumanEval+/MBPP+)与通用推理(MMLU-Pro)表现优于同类开源模型 [41][43] - 长上下文任务(RULER128k)性能持平Gemma3-12B等更大参数模型 [41] - 工具调用能力支持实时天气查询、角色描述等具体应用场景 [10] 开源生态建设 - 在HuggingFace平台开源三个核心模型:9B对齐模型、9B基础模型及12B基础模型 [44] - 发布Nemotron-Pre-Training-Dataset-v1数据集 包含6.6万亿token 覆盖网页爬取、数学、代码及多语言问答数据 [44] - 专项开源1330亿token数学数据集(Nemotron-CC-Math-v1)与多编程语言代码数据集(Nemotron-Pretraining-Code-v1) [44] 行业竞争格局 - 英伟达在开源模型领域持续投入 与Meta转向闭源策略形成对比 [45][47] - 架构创新竞赛加剧 除Mamba外Meta推进JEPA/LCMs 谷歌DeepMind投入50%研究力量开发Titans/Atlas等新架构 [21][22] - 模型小型化与效率优化成为行业焦点 9B模型在特定任务性能比肩更大参数模型 [41][39]