具身智能之心
搜索文档
向黄仁勋汇报的英伟达36人
具身智能之心· 2025-11-04 08:05
文章核心观点 - 英伟达CEO黄仁勋的直接汇报团队规模为36人,分布在七个关键职能板块,反映了公司在硬件基石之上,正积极向AI、具身智能与自动驾驶等新兴领域扩张的战略布局[1][3][4] - 公司采用高度扁平化的管理模式以加速决策,但随着业务规模急剧扩张(员工数一年增长21.62%至3.6万人),其直接下属数量从55人缩减至36人,暗示组织结构可能正从扁平化向垂直化调整,以应对管理复杂度的提升[74][78][100][115] - 核心高管团队包括多位长期追随黄仁勋的资深技术领袖(如GPU架构负责人Jonah Alben、软件负责人Dwight Diercks),以及新引入的行业专家(如前小鹏高管吴新宙),通过经验与创新结合驱动技术迭代与业务增长[21][23][32][56][73] 组织架构与职能分布 - 硬件板块是公司基石,直接下属中有9人负责GPU、电信、DGX整机系统等业务,占比达三分之一[6][7][8] - AI与前沿技术板块配置7名高管,由吴新宙等领导,重点开拓自动驾驶等“零亿美元市场”,汽车业务收入在2024-2025财年从2.81亿美元翻倍至5.67亿美元[9][10][71][72] - 公关职能突出,设3名直接下属负责全球企业、研究机构与政府关系,与产业链上下游协同需求强,而马斯克旗下公司无专职公关团队[12][13][15][16] 关键高管背景与贡献 - Jonah Alben任职28年,领导约千人的GPU工程团队,持有34项专利,是公司从独立显卡转向AI时代的关键人物[23][24][25][30] - Dwight Diercks司龄31年,掌管软件研发体系,团队规模随公司扩张显著增长,负责AI框架、自动驾驶平台等全栈软件支持[32][33][36][37] - Bill Dally作为首席科学家,推动GPU向并行计算平台演进,学术背景独特(无高中学历但获加州理工博士),兼具理论与实战经验[40][42][47][49] - 吴新宙是直属团队中唯一华人,具高通与小鹏技术积累,加入后推动英伟达汽车业务收入逆转(2023年缩水4%,2025财年激增628%)[56][65][71][72] 管理模式与文化特征 - 黄仁勋坚持扁平化结构,提倡信息透明(如避免一对一会议、鼓励跨部门直接沟通),以应对AI行业快速迭代需求[79][80][83][88] - 通过每周收集员工五项重点工作清单(约两万封邮件),保持与一线技术动态同步,早期获悉Transformer架构即得益于此[91][92][95] - 公司推崇高压文化,强调“第二名即第一个失败者”,办公环境专注工作导向(无健身房等设施),但裁员倾向低,故障项目责任人仍获留任[108][110][111][117][122][123] 业务规模与架构演变 - 2024财年净利润达295亿美元(同比增600%),2025财年前三月净利润148亿美元(同比增628%),驱动员工总数从2.96万增至3.6万[98][100] - 直接下属数量从2024年3月的55人降至当前36人,缩减近四成,反映组织可能因规模膨胀而调整管理跨度,以平衡效率与复杂度[74][78][96][115]
最火VLA,看这一篇综述就够了
具身智能之心· 2025-11-03 08:03
文章核心观点 - 视觉-语言-动作模型是当前人工智能领域极具吸引力的前沿阵地,其目标是让机器人具备听懂人话、看懂世界、动手干活的能力 [7] - ICLR 2026会议上VLA模型相关投稿量从去年的个位数飙升至164篇,增长了18倍,显示出该领域的爆发式增长 [6] - 学术界对VLA尚无统一定义,但核心标准是模型必须使用经过大规模互联网级别视觉-语言数据预训练的骨干网络 [8][9] VLA概念定义与区分 - VLA模型强调基因,必须继承自强大的视觉语言模型,具备语言理解、视觉泛化和任务迁移能力 [9][12] - 大型行为模型强调养料,指在大规模多任务机器人演示数据上训练出的策略 [11][13] - 一个在大量机器人数据上微调的VLA同时也是一个LBM,但LBM不一定是VLA [13][14] - 简单拼接独立视觉编码器和文本编码器的模型应称为多模态策略,而非VLA [11] ICLR 2026 VLA八大技术趋势 - **高效架构新范式**:离散扩散模型成为新风向,可并行生成整个动作序列,在LIBERO评测中取得近乎饱和表现 [15][16][17] - **具身思维链**:让机器人生成动作前先产生中间推理步骤,提升计划与解释能力,在SIMPLER等评测中表现突出 [18][19][20][21] - **动作分词器**:将连续高频机器人动作转换为VLM能理解的离散词汇,包括FASTer Tokenizer和OmniSAT等新进展 [22][25][31] - **强化学习微调**:作为VLA策略的微调利器,代表作在LIBERO和SIMPLER上分别取得99%和98%的成功率 [26][27][32] - **效率优化**:通过HyperVLA的超网络机制和AutoQVLA的智能量化等技术降低硬件门槛,使VLA走向平民化 [28][29][33] - **视频预测赋能**:利用视频生成模型理解时序动态和物理规律,为机器人控制提供强先验知识 [30][35][36] - **真实评测基准**:社区开发如RoboCasa365和WorldGym等新基准,致力于打破对现有测试集的过拟合 [37][40][47] - **跨体态学习**:通过X-VLA的软提示、XR-1的统一视觉-运动编码等技术让模型适应不同结构的机器人 [41][43][48] 行业现状与挑战 - 主流仿真评测存在性能天花板问题,开源模型仿真得分高但真实世界表现仍难匹敌前沿产品如Google的Pi-0.5 [44][45] - 头部公司凭借海量高质量真实数据、更看重开放环境和泛化能力的评测维度以及大规模工程支持占据优势 [49] - 数据质量中的噪声、歧义和次优行为可能限制模型上限,上下文学习机制向机器人领域的迁移或是通用VLA的突破口 [50] 作者背景与权威性 - 作者Moritz Reuss是德国卡尔斯鲁厄理工学院四年级博士生,2025年Apple AI/ML学者奖得主 [4][46][52] - 作为将扩散模型引入机器人策略研究的先行者,其研究成果多次发表于RSS、ICLR、NeurIPS等顶级会议 [4][52]
具身科研平台来了,为具身领域打造,高性价比
具身智能之心· 2025-11-03 08:03
产品定位与目标用户 - 产品为面向具身智能科研领域的轻量级高性价比机械臂Imeta-Y1,旨在解决硬件选择中价格过高或低价产品难用的问题[1][2] - 目标用户为学生、教育工作者及机器人领域初学者,帮助其低成本、高效率完成算法验证与项目开发[2] 核心产品优势 - 提供全流程开源工具链与代码示例,覆盖从数据采集、模型训练到推理部署的全过程,支持视觉、力控等多模态数据融合,兼容TensorFlow、PyTorch等主流框架[3][17][32] - 支持Python与C++双语言接口,并兼容ROS1与ROS2,提供URDF模型,实现仿真与真机无缝切换[3][17][18] - 提供快速响应的售后与生态服务,承诺24小时内响应,并支持项目开发与教学培训[3][19][44] 关键性能参数 - 机械臂本体重量为4.2公斤,额定负载为3公斤,具备6个自由度,工作半径为612.5毫米,重复定位精度达±0.1毫米[8][19] - 供电电压为24V,采用PC作为控制器,通讯方式为CAN,控制方式支持轨迹跟踪、示教及API[8][19] - 关节运动最大速度范围为180°/s至220°/s,具体为J1-J3关节180°/s,J4-J6关节220°/s[8][19] 软件开发与仿真支持 - 提供完整的开源软件开发工具包,包含驱动程序、API接口、示例代码与文档[26] - 提供URDF模型,支持Gazebo等主流仿真环境与真机实时联动,用户可在仿真中验证算法后一键部署至物理设备,降低开发风险与调试成本[17][22] 硬件测试与可靠性 - 产品经过严格的硬件测试流程,包括精度校准、耐久性、负载性能与稳定性验证,确保在各类应用场景下的可靠性与安全性[35][39][40][42] 售后服务与支持 - 交付周期为1-2周,提供半年质保(非人为损坏),质保期后按市场价收取售后费用[44][45] - 已适配RealSense D435系列及奥比中光DCW2等相机,开源模型方面目前适配lerobot和ACT,未来将逐步适配更多模型如robotwin、pi0等[46]
新国立等校企3D与4D世界建模联合综述
具身智能之心· 2025-11-03 08:03
文章核心观点 - 该综述首次对3D和4D世界建模领域进行了全面系统的梳理,明确定义了“世界模型”和“3D/4D世界建模”的概念,为研究社区提供了统一的术语和清晰的概念框架 [8][13] - 文章提出了一个层次化的分类体系,将当前方法基于表示模态划分为基于视频生成、基于占用生成和基于激光雷达生成三大类,并进一步按功能类型细分为数据引擎、行动解释器、神经模拟器和场景重建器 [8][13] - 研究系统总结了专门针对3D和4D场景的数据集和评估协议,并对相关领域的最新方法进行了基准测试,旨在填补现有综述多强调2D模态、对原生3D/4D数据研究不足的空白 [8][9][13] 3D和4D世界建模的重要性与意义 - 世界建模是人工智能和机器人学中的基础任务,目标是使智能体能够理解、表示和预测其所处的动态环境,近年来生成建模技术的进展极大地丰富了该领域 [9] - 与2D投影不同,原生3D/4D信号在坐标中编码了度量几何、可见性和运动,这些是物理作用发生的坐标,使其成为满足可操作建模需求(如多视图一致性、运动学、遮挡推理)的首选载体 [9] - 在安全关键的应用中,智能体不仅要生成逼真的帧,还要遵守几何、因果关系和可控性,RGB-D、占用和激光雷达数据提供了满足这些要求的归纳偏差 [9] - 工业界已启动雄心勃勃的世界建模计划,目标应用于交互式机器人、沉浸式模拟和大规模数字孪生,凸显了该领域在学术界和工业界日益增长的重要性 [9] 基础知识与定义 - 3D和4D世界建模常用的场景表示方法包括视频流、占用网格、激光雷达点云和神经表示,这些表示强调几何一致性和时间一致性,以确保物理上合理的模拟 [14] - 文章为世界建模建立了精确的定义:其目标是生成或预测满足几何、时间和语义一致性的3D或4D表示,生成过程通常需要几何条件、行动条件或语义条件作为引导 [15] - 世界建模方法被分为四种功能类型:数据引擎(生成多样化场景)、行动解释器(预测未来世界状态)、神经模拟器(模拟闭环交互)和场景重建器(从部分观测恢复完整场景) [15] 生成模型与方法分类 - 生成模型是3D/4D世界建模的基础,核心算法包括变分自编码器、生成对抗网络、扩散模型和自回归模型,使智能体能够学习、想象和预测感官数据 [17][19] - 基于视频生成的方法专注于从多视角视频数据生成或预测动态场景,应用包括感知数据增强、规划导向的数据挖掘和场景编辑与风格转换 [20][21][24] - 基于占用生成的方法利用占用网格作为几何一致的中间表示,应用于3D感知增强和未来占用预测,支持行为感知和可控预测 [26] - 基于激光雷达生成的方法通过生成多样化的点云来缓解训练数据稀缺问题,应用于感知数据增强、场景完成和罕见条件建模 [29][30] 数据集与评估 - 研究覆盖了用于视频生成、占用生成和激光雷达生成的主流数据集,例如nuScenes数据集包含1000个场景、140万张图像(6个视角)和40万帧数据,采集频率为2Hz [32][37] - 评估指标分为五个方面:生成质量(如FID、FVD)、预测质量(如IoU、CD)、规划质量(如ADE、FDE)、重建质量(如PSNR、SSIM)和下游任务评估(如mAP、mIoU) [35][38] - 基准测试结果显示,部分模型表现出色,例如MagicDrive和DreamForge等视频生成模型的FVD值低于100,某些占用生成模型在重建质量上的mIoU值超过90% [39][43] 应用领域 - 在自动驾驶领域,世界模型应用于交通模拟、闭环驾驶评估和场景合成,可生成罕见或安全关键场景以评估系统鲁棒性 [52][53] - 在机器人技术中,世界模型支持具身导航、目标中心的操控和基于场景生成的仿真,帮助机器人预测动态并规划任务 [52][54] - 在视频游戏和扩展现实领域,世界模型实现了程序化世界生成和交互式场景渲染,根据玩家互动调整内容以增强沉浸感 [55][56] - 数字孪生应用利用世界模型进行城市级场景建模和事件回放与预测,支持智能城市规划、分析和仿真 [57] 挑战与未来方向 - 当前领域缺乏统一的基准测试和评估协议,使得模型比较困难,未来需要建立涵盖物理合理性、时间连贯性等关键指标的标准化框架 [60] - 在长时域内实现高保真度生成是一大挑战,小误差会累积导致场景连贯性下降,未来需开发先进的生成技术和记忆机制 [60] - 模型在物理保真度、可控性与泛化能力方面存在局限,常产生物理不合理事件,编辑能力粗糙,且难以泛化到新环境 [60] - 计算效率低和跨模态生成一致性差是主要挑战,未来需优先研究稀疏计算、推理加速技术以及能强制执行严格一致性约束的集成架构 [60][61]
清华大学最新!πRL:用在线强化学习让机器人 “边学边做” 的通用方案
具身智能之心· 2025-11-03 08:03
文章核心观点 - 清华大学、北京大学、中科院自动化所等团队联合提出创新框架RLinf 成功解决了流式视觉-语言-动作模型的大规模强化学习适配难题 [1] - RLinf通过Flow-Noise与Flow-SDE双算法结合并行仿真训练 实现了从监督微调瓶颈到近满分性能的突破 [1] - 该方案不回避流式模型的去噪特性 而是将其转化为强化学习适配的优势 为通用机器人操控奠定基础 [5][30] 技术方案创新 - Flow-Noise算法采用可学习噪声网络加单层马尔可夫决策过程 解决动作对数似然计算难题 [7] - Flow-SDE算法通过ODE转SDE加双层马尔可夫决策过程 平衡探索与效率 [9] - 采用近端策略优化算法进行策略优化 并针对流式模型特性进行动作块级奖励设计和对数似然计算适配 [9][12] - 构建共享演员-评论家架构 采用320个并行环境同步训练 实现大规模任务高效优化 [17] 性能表现 - 在LIBERO基准测试中 RLinf在少样本监督微调加强化学习设置下平均性能达到97.6% 较单纯少样本监督微调提升40个百分点 [16] - 在LIBERO长序列任务上 性能从单轨迹监督微调的43.9%提升至94.0% 甚至超过全轨迹监督微调的92.4% [16] - 在ManiSkill基准的4352种任务组合下 RLinf平均性能提升13.0%至15.3% 证明其大规模多任务优化能力 [20][22] - 近端策略优化算法在所有任务上均优于生成奖励策略优化 如在LIBERO基准平均性能近端策略优化为96.0% 生成奖励策略优化仅为90.0% [16][18] 训练与优化 - 监督微调阶段仅用少量专家轨迹初始化模型 强化学习阶段冻结视觉语言模型参数 仅微调3亿参数的动作专家模块 [17] - 最优超参数配置为噪声水平0.5 去噪步骤4步 动作块5步 过高噪声会导致动作失真 过多去噪步骤会增加计算成本 [27] - 双层马尔可夫决策过程比单层训练时间减少50% 同时保持性能差异小于1% [24] - 视觉语言模型接入评论家比动作专家接入评论家的价值损失低30% 解释方差高15% [26]
具身智能之心11.11优惠来了!课程/付费社区/论文辅导/开发套件!
具身智能之心· 2025-11-03 08:03
营销活动概览 - 公司正在开展双十一促销活动,活动时间为11月1日至11月11日 [2] - 促销产品组合包括具身智能系列课程、知识星球会员、科研平台机械臂及开发组件 [1][3] - 提供新人7折优惠和续费5折优惠 [3] 课程产品优惠 - 具身智能系列课程提供单门课程与三门课程组合两种购买选项 [2] - 单门课程优惠价为8 BT,三门课程组合优惠价为7 BT [2] 硬件产品优惠 - 科研平台机械臂产品在此次活动中提供最大优惠力度 [3] - 同时提供具身机械臂及开发组件的优惠 [1] 客户服务渠道 - 公司指定客服渠道为欢迎添加: AlDriver005,用于咨询活动详情 [3]
招募世界模型&人形运控&数采相关的合作伙伴!
具身智能之心· 2025-11-02 12:00
合作招募背景 - 后台收到大量关于具身世界模型、机器人运控、数采的咨询 表明这些是行业内有价值但存在门槛的方向 [2] - 公司期望与领域专家合作研发课程或实战项目 为从业者提供更多见解 [2] 合作内容与形式 - 合作聚焦于具身世界模型、运控、数采相关的课程设计与PPT制作 [3] - 合作形式灵活 可兼职 并提供高于行业水平的薪资和资源共享 [6] 合作伙伴要求 - 期望合作伙伴正在从事具身领域研究 并至少发表一篇CCF-A级别会议论文或拥有1年以上工业界经验 [4]
国产GPU第一股IPO获批,募资80亿!
具身智能之心· 2025-11-02 00:03
IPO进程与募资计划 - 摩尔线程科创板IPO注册申请已获证监会批准,从6月30日递交招股书到10月30日获准注册,仅用时4个月,进度非常迅速[2][3][17] - 公司计划募集资金总额80亿元,其中25.10亿元用于新一代AI训推一体芯片研发,25.02亿元用于新一代图形芯片研发,19.82亿元用于新一代AISoC芯片研发,10.06亿元用于补充流动资金[4][5][6] - 公司在2024年11月启动上市进程,完成Pre-IPO轮融资,38家投资机构合计投资约52.25亿元,去年11月启动上市时企业估值达255亿元[14][20] 财务表现与业务转型 - 2025年上半年营业收入达7.02亿元,已超过2024年全年收入4.38亿元,其中第一季度收入2.89亿元,第二季度4.12亿元[9] - 2025年上半年净亏损2.71亿元,较去年同期大幅收窄,管理层预计最早可于2027年实现合并报表盈利[10] - 公司收入结构发生根本性转变,从2022年桌面级产品占收入71.44%转变为2025年上半年AI智算产品占比94.85%,收入达6.65亿元[11][12][13] 公司背景与技术架构 - 公司成立于2020年6月,实控人张建中曾任英伟达全球副总裁、中国区总经理,控制公司36.36%股份[18][19] - 采用Fabless经营模式,核心技术为自主研发的MUSA统一系统架构,该架构融合GPU硬件和软件,具备全功能特性[21][22][24] - 已推出四代GPU芯片,涵盖企业级和消费级市场,产品包括芯片、板卡/模组、一体机、集群设备等完整产品线[25] 国产GPU行业竞争格局 - 沐曦于2025年6月30日科创板IPO申请获受理,9月5日进入第二轮问询,10月24日成功过会[27] - 燧原科技2024年8月启动IPO辅导,估值160亿元,腾讯作为第一大股东持股20.49%,已融资近70亿元[28][29] - 壁仞科技2024年9月启动IPO辅导,2025年5月披露辅导情况,估值约160亿元,瀚博半导体2025年7月宣布启动A股IPO辅导[30][31]
边缘设备上高效运行!NanoVLA :保留 VLA 模型的精度与泛化能力,推理速度提升 52 倍
具身智能之心· 2025-11-02 00:03
文章核心观点 - NanoVLA模型通过创新的“视觉-语言解耦融合+长短动作分块+动态路由”架构,解决了通用视觉-语言-动作模型在边缘设备上部署时“通用化”与“轻量化”的矛盾 [2] - 该模型在保持甚至超越现有大型VLA模型任务精度与泛化能力的同时,将推理速度提升52倍,参数量压缩98%,首次实现在资源受限的边缘设备上高效运行通用机器人策略的目标 [2][19][32] 技术瓶颈与解决思路 - 传统VLA模型存在三大设计瓶颈:模态融合冗余导致高延迟、动作执行僵硬导致运动失准、模型容量错配导致资源浪费与性能不足并存 [3] - NanoVLA的突破思路并非单纯缩小模型,而是重构推理逻辑,通过解耦静态指令与动态视觉、分阶段规划动作、自适应选择骨干网络,实现计算资源的“按需分配” [3] 核心架构模块 - **视觉-语言解耦融合与缓存**:分离模态编码并延迟融合时机,对静态指令特征进行缓存复用,仅需动态更新视觉嵌入,使计算量减少62% [8][12] - **长短动作分块**:训练时学习长序列依赖以保证动作连贯性,推理时执行短窗口并结合高频环境反馈重新规划,在LIBERO长任务中成功率比固定长序列执行高16%,动作抖动减少30% [9][11][13][14] - **动态路由**:引入轻量级路由器,根据任务复杂度自适应选择轻量或重量级骨干网络,使简单任务中轻量骨干使用占比超80%,平均参数量降至296M,仅为OpenVLA的4% [15][18][21] 性能表现 - **模拟基准测试**:在LIBERO基准上,NanoVLA-R版本取得84.1%的平均成功率,比7.5B参数量的OpenVLA高7.6%,比450M参数量的SmolVLA高5.5% [20] - **真实机器人测试**:在搭载Jetson Orin Nano的LeRobot机器人上,NanoVLA在12类真实任务中的平均成功率达85.6%,超越OpenVLA的80.4% [26] - **边缘设备效率**:在Jetson Orin Nano上,NanoVLA-R的推理速度达到41.6 FPS,是OpenVLA(0.8 FPS)的52倍,同时在LIBERO-Goal任务上成功率提升8个百分点 [22][29] 行业意义与未来方向 - NanoVLA为通用机器人策略的边缘部署提供了不牺牲精度的轻量化路径,其架构范本可直接复用于工业巡检、家庭服务、嵌入式操控等产业化场景 [30][32] - 未来技术演进方向包括融入触觉/力觉等多模态信号以提升操作精度、通过知识蒸馏实现端到端轻量化、以及扩展适配双臂、移动机器人等多机器人形态 [31]
单张4090跑到30fps,范浩强团队让VLA实时跑起来了
具身智能之心· 2025-11-02 00:03
文章核心观点 - 研究团队通过深度优化,成功将30亿参数的VLA大模型Pi0在单张RTX 4090显卡上的推理速度提升至30fps,远快于行业普遍认知的百毫秒级别延迟 [1] - 优化后的代码已开源,并基于此成果设计出有潜力实现480Hz闭环控制的下一代机器人实时控制算法框架 [2] - 该技术突破解决了机器人VLA大模型因高延迟而难以实现实时控制的核心痛点,为具身智能的实时应用打开了新的大门 [5][16] 技术性能突破 - 针对Pi0模型(30亿参数),在单张消费级显卡RTX 4090上最快可达到30fps的推理速度 [1] - 针对双视角输入,模型推理时间从初始的100+毫秒被优化至27毫秒,实现了数倍的性能提升 [1] - 优化后的模型在抓取自由落体笔的任务中,端到端总反应时间被缩短到200毫秒以内,媲美人类表现 [11] 技术实现方法 - 通过深入分析Pi0模型结构,将其分解为视觉编码器、编码器和解码器,并进一步拆解为矩阵乘法和标量运算 [8] - 针对Transformer模型单次推理时产生的大量零碎“矩阵计算小任务”,研究者融合和并行优化了每一个计算步骤 [9] - 优化代码全部实现均打包为一个只依赖于torch和triton的单一文件,已在GitHub开源 [2] 未来框架与展望 - 设计了一套完整的、围绕GPU打造的机器人控制框架,能驱动VLA大模型进行流式实时控制 [13] - 该框架规划最高能以480Hz的频率生成机器人控制信号,已达到基于力反馈进行控制的门槛 [13] - 框架为机器人设计了三种不同速度的“反应神经”:超快反应(480Hz)、视觉反应(30Hz)和智能思考(<1Hz) [15] - 对未来发展提出关键问题,包括视觉处理帧率从30fps向120fps提升、模型参数从3B向更大规模扩展、以及反馈回路向亚毫秒级迈进的可能性 [19]