具身智能之心 - 财报，业绩电话会，研报，新闻

具身智能之心

搜索文档

具身智能之心· 2025-08-24 20:36

英伟达机器人技术发布 - 英伟达预告2025年8月25日发布机器人相关产品配图为黑色礼盒和签名贺卡 [2] - 黄仁勋在预告视频中表示"致机器人：好好享受你的新大脑吧" 并展示人形机器人阅读贺卡场景 [4] 物理AI技术进展 - 英伟达在SIGGRAPH会议发布开源物理AI应用和视觉推理模型Cosmos Reason 使机器人能基于知识进行人类式推理并执行现实行动 [4] - 视觉推理模型案例：机器人手臂根据"面包+烤面包机"场景推断出需将面包放入烤面包机并将逻辑转化为操作指令 [5] - 物理AI定义为使用运动技能理解并交互现实世界的模型通常封装于机器人或自动驾驶汽车等自主机器中 [6] - 物理AI使自主机器能感知、理解并执行复杂现实世界操作 [6] 行业趋势与市场前景 - 英伟达高管称物理AI将撬动万亿美元级市场 [7] - 机器人产业在技术迭代、场景落地和行业标准方面取得进展国内外迎来密集催化 [7] - 华为、字节、比亚迪、小米、广汽等国内企业加码具身智能特斯拉、1X、Figure AI等海外企业加速商业化量产 [7] - 人形机器人进入工业场景成为国内外确定性较高的应用趋势商业化落地可期 [7] 技术范式演进 - 黄仁勋提出AI经历三代范式转移：从意识AI到生成式AI 再到代理式AI 下一波浪潮将是物理AI（机器人时代） [6]

具身智能之心· 2025-08-23 00:03

具身智能机器人数据集汇总 - BRMData：专注于家庭任务的双臂移动机器人操作数据集 [4] - AgiBot World Colosseo：为可扩展智能具身系统打造的大规模操作平台 [4] - RoboMIND：面向机器人操作的多模态智能基准规范数据 [4] - OpenX‑Embodiment：包含机器人学习数据集和RT‑X模型 [4] - DROID：大规模真实世界机器人操作数据集 [5] - RH20T：用于一次性学习多样化技能的综合性机器人数据集 [5] - BridgeDataV2：旨在实现规模化机器人学习的数据集 [5] - RT‑2：作为高效机器人模仿者的视觉语言基础模型 [5] - RT‑1：用于大规模真实世界控制的机器人Transformer模型 [6] - Bridge Data：通过跨领域数据集提升机器人技能泛化能力 [7] - BC-Z：通过机器人模仿学习实现零样本任务泛化 [7] 具身智能开发者社区 - 具身智能之心知识星球是国内首个具身智能全栈学习社区 [2][10] - 社区关注领域包括数据集、仿真平台、VLA、VLN、大模型、机器人控制等方向 [10] - 社区内部汇总了近30条学习路线、40多个开源项目及近60个具身智能相关数据集 [10] - 已有近200家公司和机构加入社区进行学术与产业交流 [10] 技术交流社群 - 具身智能之心社群覆盖大模型、VLN、VLA、机器人仿真、产品开发等60多个技术方向 [13] - 目前拥有近60个技术交流群用户可根据学校/公司及研究方向申请加入 [13]

ICCV 2025 | 打造通用工具智能体的基石：北大提出ToolVQA数据集

具身智能之心· 2025-08-23 00:03

数据集概述 - 提出ToolVQA数据集包含23,655条样本专为多模态多步骤推理任务设计[2][3][7] - 覆盖10种多模态工具和7类任务领域每条样本平均涉及2.78步工具调用[3][22] - 采用真实世界图像场景包括新闻图片/电商场景/考试题图等多源类型[15] 技术创新 - 开发ToolEngine自动生成框架通过深度优先搜索(DFS)模拟人类工具调用链条[17][18] - 引入动态上下文示例匹配机制(LCS) 实现非模板化的灵活路径组合[19] - 全自动生成流程无需人工标注数据构建准确率达90.8%[15][20] 性能表现 - 微调后的LLaVA-7B模型在ToolVQA测试集上超越GPT-3.5-Turbo[24] - 在分布外数据集TextVQA准确率达47% 显著高于GPT-3.5-Turbo的36.3%[25] - 小样本学习实验中 10-shot设定下微调模型准确率达20.69%[26] 应用价值 - 支持文本与图像双模态输入输出平均查询长度15.7词答案长度2.7词[22] - 涵盖OCR/图像字幕生成/区域描述/绘图/计算器等10类工具[15][22] - 为多模态工具智能体研究提供系统性训练与评估基准[31] 局限性分析 - 参数预测错误率较高如关键信息遗漏导致工具返回无关内容[27] - 答案整合存在缺陷模型可能错误选择工具返回的正确信息[27] - 多步推理中存在误差累积效应早期错误会导致后续连锁失败[27]

又帮到了一位同学拿到了VLA算法岗......

具身智能之心· 2025-08-23 00:03

具身智能行业发展趋势 - 具身智能行业处于早期发展阶段对标自动驾驶行业2017-2018年阶段仍存在窗口期机会 [83] - 技术发展重点从传统SLAM转向大模型和端到端方案传统机器人从业者与具身感知技术派系分化明显 [83] - 行业平均薪资水平较高初创公司1-2年工作经验人员总包可达70-80万但稳定性较差 [83] 技术发展重点 - 视觉语言模型(VLA)和视觉语言动作模型(VLA)成为技术热点应用涵盖机器人抓取与规划任务 [2][58] - 强化学习与VLA结合(VLA+RL)成为重要技术方向 [40][42] - 多模态大模型技术快速发展涵盖理解与生成两大方向包括Image+Text到Text等多种模态组合 [52][54] - 仿真技术(sim2real)和数据采集成为关键环节存在real2sim2real等解决方案 [2][66] 人才需求与就业情况 - 企业招聘偏好有实习经验的候选人机器人创业公司普遍要求实习经历 [81] - 自动驾驶领域人才向具身智能领域迁移技术栈通用性较高 [80][83] - 算法岗位需求旺盛 VLA算法岗位薪资较高某案例显示强化学习岗位薪资达(N+6000)*15水平 [1][81] 技术社区生态 - 具身智能之心知识星球为国内首个具身全栈技术社区成员近2000人目标2年内达到近万人规模 [1][16] - 社区汇聚40+开源项目 60+数据集 30+技术路线覆盖感知、交互、导航等全方位技术领域 [16] - 社区成员来自斯坦福大学、清华大学等顶尖高校和智元机器人、优必选等头部企业 [16] - 建立企业内推机制与多家具身公司合作提供岗位对接服务 [10] 技术资源体系 - 汇总国内外40+高校实验室资源提供读研、申博参考 [18][20] - 汇总国内外具身机器人公司涵盖教育、工业、医疗等多个应用方向 [21] - 整理机器人相关书籍包括导航、动力学、运动学等基础学习资料 [26] - 汇集零部件制造厂商信息涵盖芯片、激光雷达、相机等核心部件 [28] 技术应用方向 - 视觉语言导航成为自动驾驶与机器人的重要应用领域 [48] - 触觉感知为前沿应用方向包括传感器应用和多模态算法集成 [50] - 机械臂技术涵盖抓取、位姿估计和策略学习等多个环节 [69] - 双足与四足机器人技术发展迅速提供从零搭建机器人的完整方案 [71] 学习与培训体系 - 为入门者提供完整技术栈和学习路线 [11] - 为从业者提供产业体系和项目方案 [13] - 社区提供问答交流、直播分享等多元学习方式 [76][78] - 建立专家答疑机制数十位产业界和工业界大佬提供技术支持 [2]

小模型也能超越GPT-4o！邱锡鹏团队WAP框架打造「世界感知」智能体

具身智能之心· 2025-08-22 08:04

核心观点 - 大规模视觉语言模型在具身规划任务中存在处理复杂场景的困难但环境感知规划叙事增强框架通过四项认知能力注入全面环境理解显著提升任务成功率并在基准测试中超越专有系统 [2][6] 技术框架 - 环境感知规划叙事增强框架整合视觉外观建模空间推理功能抽象和语法接地四项认知能力为模型提供全面环境理解 [2] - 仅通过课程学习使用原始视觉观测数据来开发和评估模型不依赖与环境无关的模仿学习 [2] 性能表现 - 在EB-ALFRED基准测试中 Qwen2.5-VL实现60.7%的绝对任务成功率提升 [2] - 常识推理方面提升60.0% 长周期规划方面提升70.0% [2] - 增强后的开源模型大幅超越GPT-4o和Claude-3.5-Sonnet等专有系统 [2] 模型参数 - 框架将7B参数模型任务成功率提升60.7% [6] 应用领域 - 多模态模型在具身规划任务面临严峻挑战该研究为具身规划带来新的可能 [6] - 研究涉及从视觉到行动的创新框架突破多模态模型的具身规划瓶颈 [7]

具身智能

大规模视觉语言模型

Artificial Intelligence

Artificial Intelligence

WAP框架

Qwen2.5-VL

GPT-4o

3个月！搞透VLA/VLA+触觉/VLA+RL/具身世界模型等方向！

具身智能之心· 2025-08-22 08:04

具身智能技术演进 - 技术发展经历了四个阶段：从抓取位姿检测（单步决策缺乏任务上下文建模）到行为克隆（端到端模仿但泛化能力弱），再到2023年Diffusion Policy（扩散模型生成动作轨迹提升稳定性与泛化能力），最终进入2024年Vision-Language-Action模型阶段（多模态协同支持零样本泛化）[6][7] - 2025年技术探索聚焦VLA模型与强化学习、世界模型、触觉感知的融合，以弥补"只能理解不能反馈""只能关注当下不能看见未来""只能看不能触"的局限[8] - 技术演进路径体现从"低层感知->中层策略->高层理解"的能力补齐，逐步迈向通用任务和开放环境智能体时代[9] 产业生态与竞争格局 - 国内企业如华为2024年底启动"全球具身智能产业创新中心"并与乐聚机器人、大族机器人合作建设大脑与小脑关键技术；京东自2025年5月连续投资智元机器人、千寻智能、逐际动力以强化物流与家庭服务场景能力；腾讯、蚂蚁、小米等通过战略投资加快生态构建[5] - 国外企业如Tesla/Figure AI聚焦工业与物流机器人应用；美国投资机构支持Wayve、Apptronik等公司落地自动驾驶与仓储机器人[5] - 国内以产业链投资与综合平台驱动落地，国外侧重基础模型、模拟环境与类人机器人原型研发，双方进入关键竞赛阶段[5] 应用场景与商业化进展 - 技术发展推动人形机器人、机械臂、四足机器人等产品在工业、家居、餐饮、医疗康复等领域落地，相关产品和融资活动活跃[9] - 岗位需求呈现爆发式增长，吸引大量人员转入具身智能领域研究[9] 技术体系与学习框架 - 具身智能核心模块分为大脑（语义理解与任务规划）和小脑（高精度运动执行），需系统学习灵巧操作、移动操作、仿真框架、Diffusion Policy、VLA及融合技术[1][20] - 主流仿真框架包括Mujoco（生态系统架构与接口）、Isaac Gym（数据采集与可视化）、Pybullet（数据集与接口）[21] - 关键技术方法涵盖Diffusion Policy数学原理与3D点云融合、VLA模型（OpenVLA/PI0/SmolVLA架构与性能对比）、VLA+强化学习/触觉/世界模型的融合方案[21]

具身智能

Vision-Language-Action（VLA）模型

通用人工智能（AGI）

强化学习（RL）

世界模型（World Model）

触觉感知（Tactile Sensing）

具身智能

Vision-Language-Action（VLA）模型

通用人工智能（AGI）

强化学习（RL）

世界模型（World Model）

触觉感知（Tactile Sensing）

Cocos系统：让你的VLA模型实现了更快的收敛速度和更高的成功率

具身智能之心· 2025-08-22 08:04

核心观点 - 扩散策略训练中存在损失崩塌问题，导致训练效率低下和策略性能下降 [3] - 提出Cocos方法，通过将源分布修改为依赖于生成条件的分布来解决损失崩塌问题 [3] - Cocos方法显著提高训练收敛速度和任务成功率，且与现有扩散策略架构兼容 [3] 技术原理 - 流匹配方法通过求解常微分方程将简单源分布转化为复杂目标分布 [5] - 条件分布流匹配的优化目标为$$\mathcal{L}_{\text{CPMc}}(\theta):=\mathbb{E}_{t,q(x_{0}),q(x_{1},c),p_{t}(x|x_{1},x_{0})}\left\|v_{\theta}(t,x,c)-u_{t}(x|x_{1},x_{0})\right\|^{2}$$ [5] - 损失崩塌发生时神经网络难以区分生成条件，优化目标退化为对边际动作分布的建模 [6] - 梯度差异上界为$$\left\|\nabla_{\theta}{\mathcal{L}}_{\mathrm{CFMc}}(\theta,c_{1})-\nabla_{\theta}{\mathcal{L}}_{\mathrm{CFMc}}(\theta,c_{2})\right\|\;\leq\;2\left(M+K D\right)\epsilon$$ [6] 方法实现 - Cocos的优化目标定义为$$\mathcal{L}_{\mathrm{Cocos}}(\theta):=\mathbb{E}_{t_{\tau/(x_{0}|c)},q(x_{1},c),p_{t}}\left\|v_{\theta}-u_{t}\right\|^{2}$$ [9] - 源分布采用$$q(x_{0}|c)=\mathcal{N}(x_{0};\alpha F_{\phi}(\mathcal{E}(c)),\beta^{2}I)$$形式 [9] - 实验使用DiT架构插入交叉注意力层融入视觉和语言信息 [9] - 视觉编码使用Dinov2，语言编码使用T5 [9] 实验结果 - LIBERO基准测试中Cocos达到94.8平均成功率，对比基线86.5提升8.3个百分点 [23] - MetaWorld任务中Cocos在faucet-open任务取得100%成功率，较基线84.0提升16个百分点 [16] - 现实世界xArm机械臂任务Cocos获得93.3%成功率，较基线67.3%提升26个百分点 [16] - SO100机械臂任务Cocos达到74.8%成功率，较基线59.5%提升15.3个百分点 [16] 案例研究 - LIBERO任务中Cocos策略成功区分多视角相机，非Cocos策略出现相机注意力崩塌 [18] - 腕部相机意外脱手时，Cocos策略仍能通过外部相机定位目标 [18] - 余弦相似度显示Cocos对所有视角相机的区分能力均高于非Cocos策略 [18] 源分布设计 - 标准差0.2时LIBERO平均成功率94.8%，0.1时降至77.5% [23] - VAE训练源分布效果与手动设计0.2标准差相当，达到93.8%成功率 [23] - 同时训练源分布和扩散策略需配合EMA更新机制以保持稳定性 [24]

比H20还要强大！英伟达最新B30A芯片曝光

具身智能之心· 2025-08-21 08:03

英伟达新AI芯片开发 - 公司正在开发代号为B30A的新AI芯片，性能将超越H20型号 [2][3] - 芯片基于Blackwell架构，采用单芯片配置，原始算力约为B300 GPU双芯片配置的一半 [4][6] - 具备高带宽内存和NVLink技术，支持处理器间快速数据传输 [8][9] - 芯片生产速度预计比之前快7到30倍 [10] - 计划下月开始交付测试，规格尚未完全确定 [7] 芯片产品线扩展 - 公司同时开发另一款低成本AI芯片RTX6000D，基于Blackwell架构，专注于AI推理任务 [18][19] - RTX6000D采用GDDR内存，带宽达每秒1398GB，预计9月小批量交付客户 [20] - B30芯片首次支持多GPU扩展，可通过连接多组芯片构建高性能计算集群 [11] 市场表现与预期 - 公司股价年内上涨超30%，市值曾突破4万亿美元 [13] - 多家投行上调目标价，最高达240美元，因AI算力需求激增及Blackwell架构提速 [14][15] - 市场共识预期第二季度营收458亿美元，每股收益1美元 [15] - 近期高管通过8笔交易卖出15万股，套现2710万美元 [16] 技术架构与规划 - 新产品遵循Blackwell架构路线图，强调商业用途合规性 [11] - 芯片发布时机选择在财报前夕，可能影响市场情绪 [11]

Humanoid Occupancy：首个多模态人形机器人感知系统！解决运动学干扰和遮挡问题

具身智能之心· 2025-08-21 08:03

人形机器人技术发展趋势 - 人形机器人技术正在飞速发展，各大制造商纷纷推出针对特定场景、形态各异的异构视觉感知模块 [2] - 在各种感知范式中，基于占用的表示已被广泛认为特别适合人形机器人，因为它能同时提供丰富的语义信息和三维几何信息，这对于全面理解环境至关重要 [2] - 人形机器人作为通用型和复杂性最高的机器人形态，承载着对未来机器人和人工智能的想象，目前其运动控制和自主感知都处于非常关键的突破性时刻 [6] Humanoid Occupancy感知系统核心创新 - 提出了Humanoid Occupancy，这是一个广义的多模态占用感知系统，集成了硬件与软件组件、数据采集设备以及一套专用的标注流程 [3] - 该框架采用先进的多模态融合技术，生成基于网格的占用输出，这些输出同时编码了空间占用状态和语义标签，从而为任务规划与导航等下游任务提供了全面的环境理解能力 [3] - 为应对人形机器人的独特挑战，克服了诸如运动学干扰和遮挡等问题，并确立了一套有效的传感器布局策略 [3] - 开发了首个专为人形机器人设计的全景占用数据集，为该领域未来的研究与发展提供了宝贵的基准和资源 [3] - 网络架构融合了多模态特征和时序信息，以确保感知的鲁棒性 [3] - 该系统为人形机器人提供了有效的环境感知能力，并为标准化通用视觉模块奠定了技术基础，从而为复杂现实场景中人形机器人的广泛部署铺平了道路 [3] 行业研究与应用重点 - 行业研究领域正进行持续迭代，推出了多个移动和操作算法，并提出了Humanoid Occupancy多模态感知系统，旨在推动人形机器人的智能化进展 [6] - 当前研究重点方向包括：人形机器人的运动控制、人形机器人多模态感知系统、人形机器人的自主化移动、人形机器人的操作与相关数据 [8]

多模态感知

具身智能

机器人

Humanoid Occupancy（人形机器人占用感知系统）

多模态感知

具身智能

机器人

Humanoid Occupancy（人形机器人占用感知系统）

X-SAM：统一图像分割多模态大模型，20+个数据集上均SoTA

具身智能之心· 2025-08-21 08:03

研究背景与动机 - Segment Anything Model (SAM) 依赖视觉提示的单一输入模式限制了在广泛图像分割任务中的适用性 [3] - 多模态大语言模型（MLLMs）输出局限于文本生成，无法直接处理像素级视觉任务，阻碍了通用化模型的发展 [3] - 研究团队提出 X-SAM，将分割范式从「分割万物」扩展到「任意分割」，通过视觉定位分割（VGS）任务赋予 MLLMs 像素级理解能力 [3] 方法设计 - X-SAM 采用通用输入格式，支持文本查询输入和视觉查询输入（包括点、涂鸦、边界框、掩码等多种提示形式） [7] - 引入特殊标记 <SEG> 表示分割结果，<p> 和 </p> 标记间的潜在语言嵌入作为分割解码器的条件嵌入 [7] - 采用端到端的统一分割 MLLM 架构，包含双编码器设计（SigLIP2-so400m 和 SAM-L）、双映射器架构、分割连接器和 Mask2Former 解码器 [10][11][12] - 采用三阶段渐进式训练策略：分割器微调、对齐预训练和混合微调，采用数据集平衡重采样策略改善少样本数据集性能 [13][15][19] 实验结果 - X-SAM 在超过 20 个分割数据集上进行了全面评估，涵盖 7 种不同的图像分割任务，实现了全任务最优性能 [16] - 在指代分割任务中，X-SAM 在 RefCOCO、RefCOCO+ 和 RefCOCOg 数据集上达到 85.1/87.1/83.4、78.0/81.0/74.4 和 83.8/83.9 的准确率，显著优于现有方法 [18] - 在视觉定位分割任务中，X-SAM 在点、涂鸦、边界框和掩码提示下的 AP50 分别达到 72.5、73.4、74.7 和 74.9，远超 PSALM 的 3.3、4.4、5.8 和 3.3 [20] - 在图文理解任务中，X-SAM 在 MME、MMBench、SEED-Bench、POPE 和 AI2D 数据集上分别达到 1374/312、69.3、69.3、89.3 和 62.6 的分数，优于多数对比模型 [20] 总结与展望 - X-SAM 作为首个真正统一的分割多模态大语言模型，实现了从「segment anything」到「any segmentation」的重要跨越 [24] - 未来研究方向包括与 SAM2 集成实现图像和视频的统一分割，以及将 VGD 分割扩展到视频中，引入时序信息构建创新的视频分割任务 [25]