Workflow
具身智能之心
icon
搜索文档
比H20还要强大!英伟达最新B30A芯片曝光
具身智能之心· 2025-08-21 08:03
英伟达新AI芯片开发 - 公司正在开发代号为B30A的新AI芯片,性能将超越H20型号 [2][3] - 芯片基于Blackwell架构,采用单芯片配置,原始算力约为B300 GPU双芯片配置的一半 [4][6] - 具备高带宽内存和NVLink技术,支持处理器间快速数据传输 [8][9] - 芯片生产速度预计比之前快7到30倍 [10] - 计划下月开始交付测试,规格尚未完全确定 [7] 芯片产品线扩展 - 公司同时开发另一款低成本AI芯片RTX6000D,基于Blackwell架构,专注于AI推理任务 [18][19] - RTX6000D采用GDDR内存,带宽达每秒1398GB,预计9月小批量交付客户 [20] - B30芯片首次支持多GPU扩展,可通过连接多组芯片构建高性能计算集群 [11] 市场表现与预期 - 公司股价年内上涨超30%,市值曾突破4万亿美元 [13] - 多家投行上调目标价,最高达240美元,因AI算力需求激增及Blackwell架构提速 [14][15] - 市场共识预期第二季度营收458亿美元,每股收益1美元 [15] - 近期高管通过8笔交易卖出15万股,套现2710万美元 [16] 技术架构与规划 - 新产品遵循Blackwell架构路线图,强调商业用途合规性 [11] - 芯片发布时机选择在财报前夕,可能影响市场情绪 [11]
Humanoid Occupancy:首个多模态人形机器人感知系统!解决运动学干扰和遮挡问题
具身智能之心· 2025-08-21 08:03
>>直播和内容获取转到 → 具身智能之心知识星球 点击下方 卡片 ,关注" 具身智能 之心 "公众号 点击按钮预约直播 人形机器人技术正在飞速发展,各大制造商纷纷推出针对特定场景、形态各异的异构视觉感知模块。在各种感知范式中,基于占用的表示(occupancy-based representation)已被广泛认为特别适合人形机器人,因为它能同时提供丰富的语义信息和三维几何信息,这对于全面理解环境至关重要。 本工作提出了 Humanoid Occupancy(人形机器人占用感知系统),这是一个 广义的多模态占用感知系统,它集成了硬件与软件组件、数据采集设备以及一套专用 的标注流程 。本文的框架采用先进的多模态融合技术,生成基于网格的占用输出(grid-based occupancy outputs),这些输出同时编码了空间占用状态和语义标签, 从而为任务规划与导航等下游任务提供了全面的环境理解能力。为应对人形机器人的独特挑战,本文克服了诸如运动学干扰(kinematic interference)和遮挡 (occlusion)等问题,并确立了一套有效的传感器布局策略。此外, 本文还开发了首个专为人形机器人设计 ...
X-SAM:统一图像分割多模态大模型,20+个数据集上均SoTA
具身智能之心· 2025-08-21 08:03
>> 点击进入→ 具身 智能之心 技术交流群 编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 本研究由中山大学、鹏城实验室、美团联合完成,第一作者王豪为中山大学博士研究生,主要研究方向为图像和视频分割、开放场景视觉感知、多模态大模型 等。论文共同通讯作者为梁小丹教授和蓝湘源副研究员。 背景与动机 Segment Anything Model (SAM) 作为基础分割模型在密集分割掩码生成方面表现卓越,但其依赖视觉提示的单一输入模式限制了在广泛图像分割任务中的适用性。 多模态大语言模型(MLLMs)虽在图像描述、视觉问答等任务中表现出色,但输出局限于文本生成,无法直接处理像素级视觉任务,这一根本性限制阻碍了通用 化模型的发展。 中山大学、鹏城实验室、美团联合提出 X- SA M —— 一个统一的图像分割多模态大模型,将 分割范式从 「 分割万 物 」扩展到 「 任意分割 」 。X-SAM 引入了 统一框架,使 MLLMs 具备高级像素级感知理解能力。研究团队提出了 视觉定位分割(V ...
港大&清华最新!仅通过少量演示,实现动态物体操作的强泛化能力!
具身智能之心· 2025-08-21 08:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Zhuoling Li等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 出发点与背景 动态物体操作(如传送带装配线上的产品处理)是提升工业制造效率的关键,但传统方法需针对不同场景进行专门设计,存在耗时、泛化能力弱等问题。模仿学 习通过专家演示训练机器人策略,是解决该问题的潜在方案,但现有方法依赖大量演示数据,而动态场景的演示收集成本极高。这里旨在探索:仅通过少量演 示,能否实现动态物体操作的强泛化能力? 工作的核心贡献 动态物体操作的挑战与现有方法局限 提出基于熵的理论框架,量化模仿学习的优化过程,指导低数据需求的泛化操作系统设计; 开发 GEM(Generalizable Entropy-based Manipulation)系统 ,结合目标中心几何感知与混合动作控制,实现动态物体操作的强泛化; 在真实场景(食堂餐具收集)中验证了GEM的有效性,无需现场演示即可实现97%以上的成功率 ...
宁波东方理工大学联培直博生招生!机器人操作/具身智能/机器人学习等方向
具身智能之心· 2025-08-20 12:00
宁波东方理工大学联培直博项目 - 联合上海交通大学、中国科学技术大学招收机器人方向联培直博生,学籍注册在合作高校,第一年课程学习在合作高校,后续科研工作在东方理工,双导师制,毕业后获合作高校博士学位[1] - 导师李晓聪为宁波东方理工助理教授兼新加坡国立大学客座助理教授、哈佛大学客座研究员,研究方向为控制、学习与机器人交叉领域,累计获得千万级科研资助,担任IEEE T-ASE和RAM副主编[1] - 实验室提供充足助研津贴和实验设备支持,学生主导科研且导师不抢占一作,课题组无横向项目干扰,专职行政助理处理事务性工作,注重学生职业发展并推荐海外博后机会[2] 具身智能之心知识星球社区 - 国内首个具身智能全栈技术社区,集视频、图文、学习路线、问答、求职于一体,成员近2000人,目标2年内达万人规模,提供技术问题快速解答(如数据采集、模型部署等)[3][5] - 社区闭环覆盖产业、学术、求职领域,梳理30+技术路线(如VA/VLA、Diffusion Policy、sim2real等),汇总40+开源项目、60+数据集、行业仿真平台,邀请数十位一线产业界和学术界嘉宾答疑[5][18] - 建立高校与企业资源网络:高校包括斯坦福、清华、ETH等,企业涵盖智元机器人、优必选、小米等头部公司,提供岗位内推机制和行业研报(30家汇总)[12][18][23] 行业技术资源与学习体系 - 学习路线覆盖具身智能全领域:包括强化学习全栈、多模态大模型(理解/生成)、机械臂策略学习、触觉感知等16个细分方向,配套开源项目和数据集[18][46][54][56] - 汇总机器人硬件生态:零部件品牌(芯片、激光雷达等)、仿真平台(Isaac Sim等)、四足/双足机器人开源项目,助力系统搭建[30][40][73] - 提供职业发展支持:针对不同阶段设计技术栈(小白入门/进阶提升),组织圆桌论坛和直播(本体设计、算法优化等),分享产业落地案例[13][15][78] 行业趋势与人才流动 - 自动驾驶领域人才向具身智能迁移趋势明显,技术栈通用性高(如Transformer基础),视觉语言导航和端到端导航成为过渡方向[82][84] - 具身智能处于探索期(对标自动驾驶2017/18阶段),薪资水平高于传统机器人岗位,初创公司总包达70-80万但稳定性较低[84] - SLAM在消费级机器人中工程化需求显著(定位建图稳定性优化),但行业焦点转向大模型与端到端技术,强化学习岗位溢价明显(薪资高出智驾15%)[83][85]
Meta没做的,英伟达做了!全新架构吞吐量狂飙6倍,20万亿Token训练
具身智能之心· 2025-08-20 08:03
编辑丨 新智元 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 【导读】 英伟达发布全新架构9B模型,以Mamba-Transformer混合架构实现推理吞吐量最高提升6倍,对标Qwen3-8B并在数学、代码、推理与长 上下文任务中表现持平或更优。 万万没想到,现在还紧跟我们的开源模型竟然是英伟达。 刚刚,英伟达发布了一个只有 9B大小 的 NVIDIA Nemotron Nano 2模型 。 对标的是业界标杆,千问的Qwen3-8B,但这个模型是一个完全不同的混合架构。 用英伟达的说法,这是一款革命性的 Mamba-Transformer 混合架构 语言模型。 在复杂推理基准测试中实现了和Qwen3-8B相当或更优的准确率,并且吞吐量 最高可达其 6倍 。 它的诞生只有一个目标: 在复杂的推理任务中, 实现无与伦比的 吞吐量 ,同时保持同级别模型中顶尖的精度! 在官网简单测试一下,一些 经典问题 ,都能答对。 英伟达还做了3个小工具,可以实时查天气、 ...
探究下VLA模型泛化差的原因......
具身智能之心· 2025-08-20 08:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 在大规模数据集(如 Open X-Embodiment,简称 OXE)上训练的通用机器人策略在各类任务中表现出较强性能。然而,它们往往难以超出训练数据的分布范围进行 泛化。 本文探究了这种泛化能力受限的根本原因, 发现捷径学习 —— 即对与任务无关特征的依赖 —— 是阻碍泛化的关键因素。 通过全面的理论与实证分析,我们揭示 了导致捷径学习的两个主要原因:(1) 单个子数据集内部多样性有限 ;(2) 子数据集之间存在显著的分布差异,进而导致数据集碎片化 。 这些问题源于 OXE 等大规模数据集的固有结构 —— 这类数据集通常由多个子数据集构成,而这些子数据集是在不同环境和机器人形态下独立收集的。 我们的研究结果为改进机器人数据集收集策略提供了重要见解,有助于减少捷径学习并提升通用机器人策略的泛化能力。此外,在获取新的大规模数据不切实际的 场景中,本文证实, 精心选择的机器人数据增强策略能够有效减少现有离线数据集中的捷径学习,从而提升通用机器人策略(如 )在仿真和真实环境中的泛化 能力 。 论文标题 : Shortcut Learning in Generali ...
ICCV 2025 | RobustSplat: 解耦致密化与动态的抗瞬态3DGS三维重建
具身智能之心· 2025-08-20 08:03
编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 3DGS (3D Gaussian Splatting) 技术凭借在新视角合成与 3D 重建中实现的实时照片级真实感渲染,已成为研究热点。然而,现有方法在建模含动态物体的场景时精 度不足,常导致渲染图像出现伪影。 在最近的一项研究中,来自中山大学、深圳市未来智联网络研究院、港中深的研究者提出鲁棒性解决方案 RobustSplat,其核心设计包含两点:一是首创延迟高斯 生长策略,在允许高斯分裂 / 克隆前优先优化静态场景结构,从而减少优化初期对动态物体的过拟合;二是设计尺度级联掩码引导方法,先利用低分辨率特征相 似度监督进行可靠的初始动态掩码估计(借助其更强的语义一致性与抗噪声特性),再逐步过渡到高分辨率监督,以实现更精准的掩码预测。 研究动机 我们通过分析揭示了高斯致密化 (densification) 在 3D Gaussian Splatting 中的双重作用机制。具体来说,致密化过 ...
ExploreVLM:基于视觉-语言模型的闭环机器人探索任务规划框架
具身智能之心· 2025-08-20 08:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Zhichen Lou等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 1. 交互式探索能力不足,难以处理需要主动获取信息的场景(如确定哪个抽屉只放水果); 2. 感知精度有限,对物体空间关系和动态变化的捕捉不够结构化; 3. 计划适应性差,多为开环静态规划,无法基于实时反馈调整,易在复杂环境中失败(figure 1)。 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 研究背景与核心问题 随着具身智能的发展,机器人逐渐融入日常生活作为人类助手,这要求机器人能解读高层指令、感知动态环境并实时调整计划。视觉-语言模型(VLMs)因融合 视觉理解与语言推理能力,成为机器人任务规划的重要方向,但其现有方法在三方面存在明显局限: 为此,本文提出ExploreVLM框架,通过闭环设计整合感知、规划与执行验证,解决上述问题。 核心框架设计 ExploreVLM以"感知-规划-执行-验证"的闭环为核心,整体流程如下(figure 2): 关键模块解 ...
从方法范式和应用场景上看强化与VLA/Flow Matching/机器人控制算法
具身智能之心· 2025-08-19 09:54
方法范式 - 传统强化学习(RL)和模仿学习结合Sim2Real技术,方法包括DQN/PPO/SAC/D4PG/GRPO等,主流仿真环境有Mujoco、Gazebo、Bullet、IssacSim/IssacGym [5] - Diffusion Policy和VLA模型与传统RL的根本区别在于用训练数据分布描述任务目标,而非依赖reward function,适合复杂任务如叠衣服、收拾桌面等 [4] - OpenVLA模型整合多模态输入,基于7B参数的Llama 2语言模型,结合DINOv2和SigLIP视觉编码器 [7] - RDT(Robotic Decision Transformer)采用Goal-Conditioned设计,在AGIBot百万真机数据集上训练 [9] - pi-0引入动作抽象层,将不同机器人关节空间映射到统一潜空间,缓解本体差异问题 [13] - 流匹配(Flow Matching)建模从标准正态分布到复杂目标数据分布的映射,用于生成机器人动作序列 [15][17][18] 技术实现 - 基础运动控制(如人形/四足机器人)以RL+sim2real为主,模型较小,算力消耗低,但全场景丝滑动作仍有差距 [22] - 复杂/长程操作任务采用预训练ViT编码器+LLM,使用diffusion/流匹配/transformer decoder输出动作,通过预训练+微调实现跨机器人泛化 [23] - 宇树官方demo基于IssacGym和PPO算法 [24] - 北京亦庄人形机器人中心开源强化学习运动控制,基于IssacLab融合人体运动数据与AMP奖励,实现天工Ultra机器人21公里奔跑 [24] - pi0预训练阶段利用10,000小时多机器人数据,微调阶段需1-5小时到上百小时任务数据,模型规格为33亿参数 [25] - Google Gemini Robotics采用云端VLA骨干(160毫秒延迟)和本地动作解码器的快慢架构 [25][26] 数据集 - Open X-Embodiment数据集包含1M+ trajectories、500+ skills、22种机器人类型,统一为RLDS格式 [21] - AGIBot数据集为智元机器人开源的百万真机数据集 [9][24] - EgoDex数据集包含829小时人类操作视频,338K轨迹/194任务 [24] 应用场景 - 基础运动控制依赖仿真器、机器人模型和domain randomization设计,reward shaping和sim2real技术 [35] - 复杂长程任务依赖VLA和Diffusion/FM,用训练数据分布描述任务目标,语言索引任务分布 [35] - 任务过程和目标定义方面,强化学习通过reward函数,VLA用数据分布描述,未来可能通过多模态输入预测任务目标 [35] - 底层控制任务适合RL+sim2real,上层复杂任务适合VLA+数据,如叠衣服、收拾桌面等需要理解人类意图的任务 [40]