具身智能之心
搜索文档
刚刚,英伟达CUDA迎来史上最大更新!
具身智能之心· 2025-12-08 09:11
文章核心观点 - NVIDIA发布了CUDA Toolkit 13.1,这是其CUDA平台自2006年诞生以来规模最大、最全面的一次更新,核心是引入了全新的CUDA Tile编程模型,旨在通过更高层次的抽象来简化GPU编程,特别是针对AI领域的张量计算,并提升代码对未来GPU架构的兼容性 [1][2][4] CUDA Tile 编程模型 - **核心概念与优势**:CUDA Tile是一种基于Tile(数据块)的编程模型,允许开发者在高于传统单指令多线程(SIMT)的层级编写GPU核函数 [7] 开发者只需指定数据块(Tile)及要在其上执行的数学运算,编译器和运行时环境会自动决定将工作负载分发到各线程的最佳方式,从而屏蔽了调用Tensor Core等专用硬件的底层细节 [8][9] - **组成组件**:CUDA 13.1包含两个用于Tile编程的组件:1) CUDA Tile IR,一种用于NVIDIA GPU编程的全新虚拟指令集架构(ISA);2) cuTile Python,一种新的领域特定语言(DSL),用于在Python中编写基于数组和Tile的核函数 [10] - **开发背景与目标**:随着AI工作负载演进,张量成为基础数据类型,专用硬件(如Tensor Core)日益复杂 [15] CUDA Tile的引入是为了提供一种比SIMT层级更高的新型GPU编程方式,抽象化Tensor Core及其编程模型,使编写的代码能兼容当前及未来的Tensor Core架构,简化高性能代码编写 [14][15] - **当前限制与规划**:目前CUDA Tile仅支持NVIDIA Blackwell(计算能力10.x和12.x)系列产品,开发重点聚焦于AI算法的Tile编程 [16] 英伟达计划在未来的CUDA版本中扩展对更多架构的支持、增加更多特性并引入C++实现 [16] 运行时与多进程服务(MPS)更新 - **Green Context(绿色上下文)**:这是一种轻量级的CUDA上下文替代方案,自CUDA 13.1起在运行时API中开放使用 [20][21] 它允许用户定义和管理GPU资源的独立分区(主要是流式多处理器SM),从而实现对GPU空间更细粒度的划分与资源分配,典型应用是确保高优先级、低延迟代码能获得专属的SM资源 [21] - **内存局部性优化分区(MLOPart)**:这是NVIDIA Blackwell系列及更新GPU上的一项新特性,允许基于同一物理GPU创建多个专门优化内存局部性的独立CUDA设备,每个设备拥有更少的计算资源和更小的可用内存 [25] 目前仅支持NVIDIA B200与B300系列,未来版本将加入对GB200与GB300系列的支持 [28] - **静态流式多处理器(SM)分区**:这是针对NVIDIA Ampere架构及更新GPU的MPS特性,为客户端提供创建独占SM分区的方法,旨在提供确定性的资源分配并改善客户端间的隔离性 [29] 数学库性能增强 - **cuBLAS性能更新**:CUDA 13.1增加了对FP4、FP8和BF16数据类型的性能支持 [40] 并引入了一项全新的实验性API,支持Blackwell GPU的分组GEMM功能,兼容FP8和BF16/FP16数据类型,在MoE用例中,其设备端形状可实现最高4倍的加速,优于多流GEMM实现 [41] - **cuSOLVER性能更新**:CUDA 13.1继续优化用于特征分解的批处理SYEVD与GEEV API [42] 在批大小为5,000的测试中,与NVIDIA L40S相比,NVIDIA Blackwell RTX Pro 6000 Server Edition实现了约2倍的加速 [42] 对于一般稠密矩阵特征值计算(GEEV),当矩阵行数n=5000时加速比约为1.0,在n=30000时达到约1.7 [45][46] 开发者工具更新 - **Nsight Compute增强**:增加了对CUDA Tile核函数的性能分析支持,在摘要页新增“Result Type”列以区分Tile与SIMT核函数,在详情页新增“Tile Statistics”部分总结Tile维度和管线利用率,并在源码页支持将指标映射到高层级的cuTile核函数源码 [33][35] - **编译时修补与插桩**:NVIDIA Compute Sanitizer 2025.4通过编译器标志增加了对NVCC编译时修补的支持,增强了内存错误检测能力并提升了性能 [34] 编译时插桩功能可将错误检测直接集成到NVCC中,实现更快的运行速度并通过高级分析捕捉更隐蔽的内存问题 [36] - **Nsight Systems更新**:2025.6.1版本带来了系统级CUDA追踪、CUDA主机函数追踪、默认硬件模式追踪等新功能,并在时间轴行中显示Green Context的SM分配情况以帮助理解GPU资源利用率 [41] CUDA核心计算库(CCCL)更新 - **确定性浮点运算选项**:NVIDIA CCCL 3.1为cub::DeviceReduce提供了额外的浮点确定性选项,允许用户在确定性和性能之间进行权衡 [50] 新增“GPU间”选项可保证在不同GPU间运行得到逐位相同的结果 [53] - **更便捷的单相CUB API**:CCCL 3.1为一些CUB算法添加了新的重载,允许用户跳过繁琐的临时存储查询、分配和释放两阶段调用模式,简化了API使用 [54][55]
远超基线模型!X-Humanoid:推动机器人从 “真实数据” 向 “虚拟合成 + 互联网数据” 转型
具身智能之心· 2025-12-08 09:11
文章核心观点 - 新加坡国立大学Show Lab提出的X-Humanoid框架,通过“数据合成-模型适配-大规模生成”的技术闭环,首次实现了将第三人称人类视频高质量转化为类人机器人视频,为解决具身智能领域大规模、多样化机器人训练数据稀缺的核心瓶颈提供了全新的数据生成范式 [1][7][21] 问题根源:机器人数据稀缺的三大核心矛盾 - **数据规模与采集成本的矛盾**:真实机器人数据采集硬件昂贵、人力耗费大,导致数据规模有限且场景单一,而互联网上存量巨大的人类视频(如Ego-Exo4D数据集含数千小时视频)因人类与机器人视觉形态差异无法直接使用,形成“数据富矿”与“可用数据短缺”的鲜明对比 [4] - **编辑能力与场景复杂度的矛盾**:现有针对第一视角视频的“机器人化”方案(如规则化叠加机器人手臂)在涉及全身复杂动作、动态背景交互与严重遮挡的第三人称视频中完全失效,生成结果常出现肢体变形、动作错位等问题 [5] - **模型适配与任务需求的矛盾**:现有视频编辑模型缺乏针对“人类-机器人转化”的专项优化,导致生成的机器人视频无法保证动作与原始视频严格对齐或会篡改背景信息,难以满足VLA模型与世界模型的训练要求 [6] 方案设计:X-Humanoid的三层技术闭环 - **第一层:数据合成**:利用Unreal Engine设计可扩展的数据生成流水线,构建大规模人类-机器人配对训练数据集,最终生成17小时以上的1080p 30fps配对视频,含280万帧数据,在单张NVIDIA RTX 3060 GPU上仅需10天完成渲染 [7][9] - **第二层:模型适配**:对Wan 2.2扩散Transformer模型进行专项适配,改造为视频到视频架构,通过骨骼对齐、动作迁移、在14个多样化虚拟场景中录制视频(融入遮挡等挑战)以及创新的tokens处理机制,确保动作精准对齐且背景完整保留,仅使用6.4%的合成数据即可完成LoRA微调 [7][10] - **第三层:大规模转化**:将微调后的模型应用于真实世界视频,例如将Ego-Exo4D数据集的60小时视频处理后,批量生成360万帧机器人视频,形成大规模机器人化数据集,可直接用于VLA模型与世界模型训练,并能成功处理含运动模糊、镜头切换等复杂效果的互联网视频 [7][12][14] 验证逻辑:从定量到定性的全面性能验证 - **整体定量性能**:在合成数据集上,X-Humanoid的PSNR达21.836 dB(基线最高为17.683 dB),SSIM达0.671(基线最高为0.402),MSE低至459.302(基线最低为1295.640),全面碾压Kling、MoCha、Runway Aleph等基线模型 [12] - **用户研究结果**:在29名计算机视觉/机器人领域参与者的研究中,69.0%的用户认为X-Humanoid的运动一致性最佳,75.9%认可其背景一致性,62.1%肯定其机器人形态准确性,62.1%偏好其整体视频质量 [12] - **定性对比优势**:X-Humanoid能完全复刻原始人类动作并精准复现机器人形态特征(如特斯拉Optimus),同时完全保留原始场景信息,而基线模型存在动作不同步、形态还原差、生成无关元素等问题 [13][15] - **消融实验验证**:对比不同模型架构,X-Humanoid 5B版本不仅性能最优(PSNR 21.836 dB),且训练/推理效率远超14B版本(每帧训练时间0.10s vs 1.05s,推理时间5.00s vs 69.16s),同时2500步微调被验证为最优选择 [17][18][19] 局限与未来方向 - **当前局限**:方案目前仅支持单人视频,在多人场景下行为定义不明确;且需要为新机器人形态训练专属LoRA,未能实现零样本形态适配;部分场景中存在小物体消失、遮挡处理不精准等细节问题 [20][24] - **未来优化方向**:可通过添加显式控制机制支持多人生成;探索单图条件下的零样本转化技术以适配新机器人形态;通过增强合成数据中的细节多样性来进一步提升模型鲁棒性 [20][24] 总结:X-Humanoid的范式价值与行业影响 - **核心贡献**:不仅生成了大规模机器人训练数据,更建立了“合成数据驱动-模型专项适配-真实场景落地”的完整技术链路,为数据稀缺型机器人任务提供了可复用的解决方案 [21] - **行业影响**:其释放的17小时合成数据集与60小时机器人化Ego-Exo4D数据集,为VLA模型与世界模型的训练提供了关键支撑,推动机器人从“依赖真实数据”向“利用虚拟合成+互联网数据”转型,加速通用自主机器人的落地进程 [21]
8个实战,彻底讲清VLA的各类方案
具身智能之心· 2025-12-08 09:11
具身智能与视觉语言动作模型技术现状 - 行业普遍面临视觉语言动作模型在实际硬件上难以跑出效果的挑战 [1] - 具身智能领域高度依赖硬件本体,算法与硬件紧密耦合,仿真和互联网数据在泛化性能上无法保证,许多公司坚持采用“真机数据”路线 [2] - 近2年来,算法技术快速发展,从ACT、OpenVLA到π0、π0.5、π0.6等新方法层出不穷,性能持续提升,基于强化学习的优化方案使模型运行更流畅 [4] - 开源硬件本体多样化,例如SO-100机械臂、openarm双臂操作系统、XLeRobot移动操作平台,支持各类研究需求 [4] VLA模型落地实施的核心模块与挑战 - 数据采集是首要模块,主要方法包括基于模仿学习的遥操作、VR、全身动捕捉,以及强化学习方法,在机械臂结合VLA领域更多采用遥操作和VR [7][8] - 数据采集的质量保障及real2sim2real流程是关键问题 [8] - 模型训练前通常需进行仿真调试,在真机数据不足时,Mujoco、Isaac Gym等仿真框架及sim2real技术尤为重要 [10] - 模型训练技巧至关重要,包括如何微调模型、如何在小数据量下取得良好效果,许多模型存在机械臂运动准但夹爪操作不佳或运动误差大的问题 [10] - ACT算法相对简单易出效果,而π0、π0.5、GR00T等模型训练难度高,对细节和技巧要求严格,强化学习优化模型的经验门槛高 [6][10] - 模型部署前需进行“瘦身”操作,即使参数量为2B的模型,在边缘芯片部署挑战仍大,需通过量化、蒸馏等轻量化技术最小化参数量并保证性能 [12] VLA技术学习与人才培养 - VLA技术更新快,学习曲线陡峭,许多学习者即使拥有真机硬件也不知如何入手 [13] - 行业推出了首个面向实战与求职的VLA小班课,内容涵盖机械臂硬件、数据采集、VLA算法与评测、仿真、主流VLA模型部署、VLA结合世界模型、真机实验及具身产业讲解 [14][16] - 课程为学员提供SO-100机械臂一套,包含示教臂和执行臂 [21] - 课程讲师为某机器人公司VLA高级研究员,拥有5年以上机器人行业实战经验,精通具身智能全栈技术,并在顶级期刊发表学术论文10篇以上 [25] - 课程目标人群包括:具身领域求职者、VLA入门进阶者、相关领域学生、从传统CV/机器人/自动驾驶转行者以及对具身智能感兴趣的人员 [27] - 课程对硬件有明确建议:推理建议使用RTX 3060及以上显卡,训练建议使用2张以上RTX 3090 Ti显卡,也可自租云服务器,并要求学员具备一定的Python和PyTorch基础 [27] - 完成课程后,学员将掌握真机调试与数据采集、各类VLA算法真机部署、模型量化技术,并对具身产业有清晰认识,简历项目经验可达到1-2年以上算法工程师水平 [30] - 课程计划于2025年12月30日开课,共分九章,持续至2026年2月25日 [28][31]
SpaceX估值8000亿美元超OpenAI,IPO就在明年
具身智能之心· 2025-12-08 09:11
SpaceX估值与融资动态 - 据华尔街日报报道,SpaceX正与投资者就新一轮内部股份出售进行谈判,若交易达成,公司估值将飙升至8000亿美元(约合人民币5.66万亿元)[1] - 此次估值为二次股票出售(即现有股东向新投资者出售股份),若完成,将使SpaceX超越OpenAI(估值5000亿美元),成为全球估值最高的私营企业之一[2][10][12] - 公司估值在不到半年内翻番,今年7月进行上一轮二次股票出售时估值仅为4000亿美元(约合人民币2.83万亿元)[3][10] - 另有媒体报道(如彭博社)指出,交易可能以每股约300美元进行,届时估值可能为5600亿美元,最终数字在交易敲定前仍可能变化[11] 公司业务与运营状况 - SpaceX成立于2002年,是一家私营航空航天和太空运输公司,核心业务为火箭发射和卫星[5][17] - 公司在火箭发射市场已占据主导地位,为商业卫星公司和NASA等机构提供服务[18] - 卫星业务(特别是Starlink部门)被认为是推动其高估值的主要理由,该部门目前拥有约9000颗卫星,是重要收入来源[19][23] - 公司正在开发下一代完全可重复使用的运载火箭“星舰”(Starship),迄今为止已完成11次试飞实验[20][21] - 据马斯克今年6月透露,SpaceX 2024年全年预计营收将达155亿美元,略高于OpenAI同期的130亿美元预计营收[25][26] 上市计划与行业对比 - SpaceX被曝最早将于2025年下半年进行首次公开募股(IPO)[16] - 公司高管目前更倾向于将火箭发射和Starlink卫星业务打包上市,而非拆分Starlink独立上市[24] - 在上市时间点上,SpaceX(可能2025年下半年)可能比OpenAI(传闻最早2026年下半年提交申请,2027年上市)更快一步[26] - OpenAI上市时估值有望高达1万亿美元,SpaceX的估值正快速追赶[26][27]
看到字节最新的GR-RL丝滑系鞋带,真的怕了......
具身智能之心· 2025-12-07 11:03
文章核心观点 - 字节跳动提出的GR-RL框架成功解决了机器人长时程精细操作的核心瓶颈,成为首个能自主完成多鞋孔系鞋带任务的学习型模型 [1] - GR-RL框架通过“数据提纯-能力增强-行为对齐”的三层逻辑闭环设计,将通用视觉-语言-动作模型转化为长时程精细操作专家 [9] - 该方案在系鞋带任务中实现了83.3%的成功率,显著优于基线模型,为通用模型向真实世界专精模型转化提供了可复用的范式 [18][22][28] 问题根源:长时程精细操作的三大核心矛盾 - **演示数据质量与任务精度的矛盾**:人类演示数据中存在“犹豫停顿”、“错误尝试”等次优行为,直接模仿这些含噪声的数据会导致模型学到低效或错误的动作模式 [4] - **训练与部署的行为mismatch矛盾**:部署时对模型输出动作进行“轨迹平滑”等优化,与训练阶段学习的原始动作存在差异,这种差异在精细操作中会被放大,导致性能下降 [5] - **泛化能力与任务特异性的矛盾**:通用模型缺乏对特定任务的针对性优化,无法利用机器人形态对称性提升鲁棒性,且难以应对长时程操作中的突发场景和误差累积 [6] 方案设计:GR-RL的三层逻辑闭环 - **第一层:数据提纯**:采用基于分布式评论家网络的任务进度评估器,通过TD3+BC离线强化学习算法,以任务成功/失败为稀疏奖励,并利用“重试关键帧标注”技术,其预测的Q值作为任务进度指标,用于筛选和剔除进度值下降超过阈值的次优演示数据 [10] - **第二层:能力增强**:利用双臂机器人的形态对称性设计数据增强策略,包括视觉层面水平翻转和交换摄像头画面、动作与状态层面的镜像对称转换、以及语言层面同步修改文本指令,无需额外采集数据即可提升模型“左右手通用”和“多视角适配”的操作能力 [10] - **第三层:行为对齐**:提出基于潜在空间探索的在线强化学习方案,在动作扩散模型的噪声输入空间引入轻量级噪声预测器进行引导,并施加分布约束,同时采用双缓冲池采样策略平衡稳定学习与环境适配,以弥合训练与部署的差异 [11][14] 落地支撑:硬件与模型架构的协同优化 - **ByteMini-v2机器人硬件优化**:肘部执行器峰值扭矩从17 Nm增至35 Nm,臂部最大负载从1.4 kg提升至3.15 kg;底盘投影面积缩小至450 mm×650 mm,优化空间机动性;并进行了人机交互与可靠性升级 [12][15] - **混合Transformer模型架构**:采用总参数量达50亿的混合Transformer架构,高效处理多模态信息;其中VLA策略网络以Qwen2.5-VL-3B-Instruct为骨干,通过动作扩散Transformer生成动作;分布式评论家网络采用因果Transformer结构,预测动作块的Q值分布以避免价值高估 [12][21] 验证逻辑:从整体性能到组件有效性的层层拆解 - **整体性能突破**:在系鞋带任务中,基础通用模型GR-3成功率仅45.7%,仅加入数据筛选后提升至61.6%,叠加形态对称增强后达72.7%,最终通过在线RL,成功率稳定在83.3%,在线训练后期一度超过90% [18][22] - **关键阶段性能提升**:数据筛选主要提升“穿入鞋孔”阶段的成功率,从46.4%升至63.8%;形态对称增强对所有阶段均有提升,如“拾取鞋带”阶段从58.7%升至76.5%;在线RL进一步降低“交接”、“拉紧”阶段的失败率,如“交接”阶段从45.7%升至83.3% [20][26] - **核心组件有效性验证**:通过消融实验对比,GR-RL采用的分布式评论家网络相比非分布式评论家,能避免在稀疏奖励场景下的价值高估问题,预测更稳健;相比回归型预测器,对“毫米级偏差”等细微失败更敏感,且能捕捉对任务有长期正向作用的操作 [24][27][30][31] 局限与未来方向 - **行为漂移问题**:在线RL阶段,稀疏噪声奖励可能导致模型行为不稳定,未来可通过动态调整噪声约束阈值或引入分层强化学习优化信用分配 [27] - **基础模型融合不足**:当前未将专精能力蒸馏回基础模型,导致模型难以兼顾“长时程精细操作”与“多任务泛化”,未来需探索专精知识蒸馏技术 [27] - **任务扩展性有限**:实验仅验证系鞋带任务,未来需在“精密零件装配”、“手术辅助”等更多长时程精细操作任务中测试,以进一步验证框架通用性 [27]
今年大家最关注的具身方向原来是这些?
具身智能之心· 2025-12-07 11:03
文章核心观点 - 公司正在为具身行业起草一份内容丰富的研报,计划于明年第一季度公布 [1] - 研报将涵盖融资、产业、政策、算法、落地、出口等多个模块 [1] - 公司希望了解市场关注重点,以确定研报内容的侧重点 [1] 研报调研涉及的关键板块 - 国内具身产业与政策 [4] - 国外具身产业情况 [4] - 具身公司融资、业务情况 [4] - 具身数采相关 [4] - 具身算法优化部署相关 [4] - 机器人边缘芯片相关 [4] - 具身下游产业发展 [4] - 具身产业人才结构与需求 [4] - 具身公司上市辅导等 [4] - 其它 [4]
深扒PI π*0.6迭代式强化学习思路:VLA+在线RL,实现自我进化
具身智能之心· 2025-12-07 11:03
文章核心观点 - 视觉-语言-动作模型与在线强化学习的结合已成为具身智能领域极具前景的研究方向,能够解决仅靠监督微调面临的泛化性与鲁棒性不足的问题 [3][4] - 星动纪元的iRe-VLA方法通过“分阶段冻结参数、动静结合”的两阶段迭代循环,率先突破了VLA模型应用强化学习的困境,并被海外顶尖研究团队Physical Intelligence的π*0.6工作引用 [15][17][23] - iRe-VLA方法在仿真与真实世界实验中均展现出显著优势,包括更高的任务成功率、卓越的训练稳定性、强大的泛化能力以及符合实际部署的经济性 [45][47][49][58][65] 为什么VLA+RL很重要 - 仅依赖模仿人类专家数据的监督微调方法存在局限,当机器人遇到未见情况或数据不完美时会不知所措,难以实现鲁棒、持久的工作 [6][9] - 在线强化学习允许智能体通过试错发现更优解,有望超越演示数据专家的水平,而离线强化学习则受限于演示数据的质量 [9] 强化学习应用在VLA的三大难点 - **环境差异**:物理世界任务周期长、奖励稀疏,学习困难,不同于在离线数据集上训练的聊天机器人 [22] - **模型坍塌与不稳定性**:直接对数十亿参数的VLA模型进行在线强化学习,极易出现灾难性遗忘或训练崩溃 [22] - **算力负担**:在本地机器人控制器上对大规模模型进行全量梯度更新,硬件要求通常超出极限 [22] 行业解决VLA强化学习困境的三种路径 - **外挂式干预**:训练额外价值函数或小型RL策略来引导冻结的VLA生成动作,VLA本身未发生质变 [23] - **暴力美学**:直接使用PPO等算法全量微调VLA,易导致模型坍塌且算力要求高 [23] - **从探索到内化的循环**:以iRe-VLA为代表,利用监督微调将RL探索出的高价值行为内化为模型的原生能力,是更可行的方案 [16][23] 星动纪元iRe-VLA方法详解 - **模型架构**:VLA模型由负责理解的预训练VLM主干(大脑)和负责输出控制信号的轻量级动作头(四肢)组成,并使用LoRA技术提高微调效率 [20][21] - **核心流程-第一阶段(在线强化学习)**:冻结VLM主干参数,仅训练动作头和一个评价网络,使机器人能在本地(如单张4090显卡)稳定探索并发现成功轨迹 [26][30][32] - **核心流程-第二阶段(监督学习)**:解冻VLM主干,混合使用新探索的成功轨迹与原始专家数据,对整个模型进行微调,将新技能固化并防止遗忘 [33][40] - **迭代循环**:两个阶段循环往复,实现“小参数探索,全参数内化”的持续学习过程 [38][42] 实验结果与分析 - **训练稳定性**:iRe-VLA训练曲线稳步上升,而直接使用PPO微调VLA则成功率曲线震荡剧烈,甚至性能下降 [47] - **仿真环境性能**:在MetaWorld基准测试中,iRe-VLA在多项任务上成功率显著超越SFT和PPO-Replay方法,例如Button-Press-new任务从SFT的56%提升至100% [49][51] - **真实世界性能**:在抓取未见物体任务中,iRe-VLA将成功率从SFT的约35%提升至80%,并且对完全未参与训练的第三类物体,抓取成功率也从37%提升至61%,展现了强大的泛化能力 [52][55][58] - **消融实验必要性**:实验证明,若第二阶段不解冻VLM主干,模型性能提升将遇到瓶颈,说明利用大模型深层特征表示能力对掌握复杂技能至关重要 [59] 结论与意义 - iRe-VLA方法为解决大模型在机器人控制中落地难的问题提供了切实可行的方案,其优势体现在训练稳定性、算力分配的经济性以及持续学习能力上 [61][65] - 该工作与海外PI的π*0.6研究共同揭示了VLA在线强化学习技术的发展前景,未来研究方向包括高效探索、稀疏奖励下的学习以及大规模VLA的稳定RL算法构建等 [63]
具身智能的黄埔军校,都有哪些东西?
具身智能之心· 2025-12-07 11:03
文章核心观点 文章旨在推广“具身智能之心知识星球”社区,该社区定位为国内首个具身智能全栈技术交流平台,通过汇总行业信息、技术路线、开源资源及提供交流与求职服务,为从业者、研究者和学习者提供一站式支持,以缩短学习路径并促进产业、学术与人才之间的闭环连接 [1][20][22] 行业生态与公司汇总 - 社区汇总了从事具身大脑与本体研发的公司,并指出本体研发领域竞争激烈(“卷不太动了”)[1] - 汇总了国内外各类具身相关机器人公司,业务覆盖教育、宠物、工业、救援、物流、交互、医疗等多个方向 [26] - 社区成员来自国内外知名高校实验室及机器人头部公司,高校包括斯坦福大学、加州大学、清华大学、西湖大学等,公司包括智元机器人、有鹿机器人、云深处、优必选、傅里叶机器人、开普勒机器人、小米、星海图、银河通用等 [21][22] 机器人本体产品与平台 - 推荐了数款适合科研的机器人本体产品,包括SO-100系列、openarm系列、XLerobot系列 [2] - SO-100及其升级版本能够运行VA和VLA算法,实现常见功能 [2] - Openarm是一款双臂任务框架,已有几家公司开始生产相关本体,缺乏移动能力,但可满足叠衣服、pick and place等任务,其VR版本在数据采集上体验更佳 [4] - XLerobot具备一定的移动能力,适合入门科研与个人开发,可适配移动操作任务 [6] - 提及了其他开发平台,如方舟无限、星海图、宇树的几款本体,但指出其成本较高,需要一定资金投入 [8] 技术路线与算法方向 - 社区收拢了广泛的技术路线,包括VLA(训练、无需训练方式、VLA+RL、VLA+世界模型、轻量化、部署等)、VLN(时间语言、目标导航、点导航等)、运控(强化学习、MPC、WBC)、仿真(通用、真实)、触觉感知等多个方向 [8] - 汇总了超过40个开源项目、近60个具身智能相关数据集以及行业主流仿真平台 [22] - 提供了详细的技术学习路线,涵盖具身智能感知、交互、强化学习全栈、VLN、VA/VLA、多模态大模型、Diffusion Policy、传感器融合、机械臂控制、机器人导航、世界模型等超过20个具体方向 [22] 部署方案与算力平台 - 当前部署大多集中在云端推理 [8] - 边缘侧基于索尔的VLA模型方案已逐渐落地,小鹏等公司基于自研芯片已完成VLM/VLA的部署 [8] - 对于100T以下算力平台的部署,目前方案很少,未做推荐 [8] 社区资源与服务 - 社区汇总了具身智能多个研究方向的国内外知名实验室,供读研、申博、博后参考 [24] - 汇总了大模型、人形机器人等行业相关研报,以了解行业发展与工业落地情况 [28] - 汇总了机器人导航、动力学、运动学、路径规划、视觉控制等多个方向的PDF书籍,供基础学习 [31][32] - 汇总了机器人行业知名的零部件制造厂商,涉及芯片、激光雷达、相机、IMU、底盘等品牌 [34] - 汇总了机器人仿真、抓取、控制、交互、感知等领域的开源项目,助力快速上手 [36][37] - 汇总了国内外知名ToF厂家、产品、技术手册及综述 [38] - 汇总了数据采集相关方案,包括遥操、动作捕捉、AR等 [39] - 汇总了具身感知、触觉感知、导航、大模型、机械臂抓取等多个领域的开源数据集 [41] - 汇总了通用与真实场景的机器人仿真平台 [43] - 社区与多家具身公司建立了岗位内推机制,可第一时间对接简历 [19][20] - 社区邀请了数十位活跃在一线产业界和工业界的具身领域嘉宾,可为成员答疑解惑 [20] - 社区提供持续的直播分享与圆桌论坛,内容涵盖本体、数据到算法,探讨行业现状与待解决问题 [9][10] - 社区成员已近3000名,涵盖近200家具身公司与机构 [20][88]
已经有7所高校,在悄悄地设立具身专业了......
具身智能之心· 2025-12-06 11:11
行业趋势:高校加速布局具身智能本科专业 - 除清华大学与上海交通大学外,另有6所双一流高校正在申请增设“具身智能本科专业”,表明高等教育体系正积极回应产业对具身智能领域人才的迫切需求 [1] 高校专业申报详情 北京航空航天大学 - 专业设置在机械工程与自动化学院,基于已有的机器人工程(2017年开设)和人工智能(2019年开设)专业建设经验 [3][4] - 年度计划招生人数为30人,其中预计升学20人,定向就业10人 [3][5] - 人才需求调研涉及宇树科技、九号机器人、邀博机器人、智元机器人、度量科技、青瞳视觉等公司,预计提供共10个就业岗位 [5] 北京理工大学 - 专业设置在人工智能学院,依托人工智能、机器人工程、自动化等学科建设经验 [6] - 年度计划招生人数为120人,规模为已披露高校中最大,其中预计就业50人,升学70人 [6][7] - 人才需求调研覆盖广泛,包括中国兵器工业集团(10人)、中国航天科技集团(7人)、华为(5人)、阿里巴巴、宇树科技(5人)、比亚迪、小米(3人)、字节跳动(3人)、腾讯(3人)、顺丰(2人)及北汽集团等企业 [7] 北京邮电大学 - 专业设置在人工智能学院,主要基于人工智能专业建设经验 [8] - 年度计划招生30人,预计就业与升学各15人 [9] - 人才需求调研企业包括北京字节跳动(1人)、美团(2人)、阿里巴巴(2人)、中国航空集团(1人)、北京人形机器人创新中心(1人)、亿航智能(2人)、中国电信、华为、小鹏汽车(1人)、傅利叶智能(1人)等 [10] 浙江大学 - 专业归属于控制科学与工程学院,基于机器人工程、人工智能等学科建设经验 [11] - 年度计划招生30人,预计升学20人,就业10人 [12] - 人才需求调研企业包括杭州云深处科技(1人)、微分智飞(1人)、深圳元戎启行(1人)、逻腾科技(1人)、比亚迪(1人)、中车株洲所(1人)、浙江大学湖州研究院(1人)、杭州华为(1人)、中航西飞(1人)等,另有选调生岗位(1人) [12] 其他申报高校 - 根据教育部公示名单,申请增设具身智能本科专业的高校还包括东北大学和西安交通大学 [2]
字节前技术负责人联手清华姚班校友创业!
具身智能之心· 2025-12-06 00:02
文章核心观点 - 由清华姚班校友领军的中国初创公司“词元无限”开发的编码智能体InfCode,在SWE-Bench Verified和Multi-SWE-bench-CPP两项权威基准测试中均取得第一名的成绩,标志着AI编程从注重快速原型的“感性时代”(Vibe Coding)进入了面向企业级复杂工程的“工程时代” [6][9] - InfCode的技术突破主要体现在其多智能体体系,能够解决传统AI编程在大型代码库、跨文件修改和C++等系统级语言中面临的挑战,为企业引入AI编码提供了从“单体提效”走向“组织进化”的新范式 [8][12][17] AI编程范式演进与行业基准 - AI编程正从传统大模型生成代码片段,演进为强调自主性、全流程覆盖和工程实用性的“编码智能体”(Coding Agent)时代 [10][11] - **SWE-Bench Verified**:由普林斯顿大学等提出、OpenAI升级的权威基准,包含来自真实GitHub项目的Python问题,要求智能体解决问题且不破坏其他功能 [11] - **Multi-SWE-bench**:由字节跳动等机构于2025年推出,覆盖Java、TypeScript、JavaScript、Go、Rust、C与C++七种语言,包含1632个人工验证的修复任务 [11] - 系统级语言(如C++)的修复任务远难于高级语言,通常需要一次修改200多行、涉及7个文件,导致大语言模型表现显著降低,领先模型的解决率往往不足8% [12][16] 公司产品InfCode的性能表现 - 在**SWE-Bench Verified**基准上,InfCode以Pass@1得分**79.4%** 刷新世界最佳记录(SOTA),远高于公开排行榜上GPT-5、Claude等顶尖模型约70%的成绩 [7][14] - 在**Multi-SWE-bench的C++子集**上,InfCode达到**25.58%** 的解决率,大幅领先于Claude 3.7 Sonnet的**8.59%**、DeepSeek V3的**7.75%** 以及Qwen2.5-72B-Instruct几乎为零的解决率 [7][15][16] - 该成绩体现了产品在复杂语法和大型项目中生成正确补丁的能力,对工业界具有重要价值 [17] InfCode的核心技术亮点 - **基于功能意图的复杂上下文定位**:提出“代码意图分析”机制,超越传统基于向量相似度的RAG,通过理解自然语言背后的功能意图并将其映射到具体实现单元,精准定位问题代码,尤其在无堆栈信息的条件下表现突出 [20][21] - **基于AST的结构化检索**:自研基于抽象语法树的结构化检索引擎,通过Tree-Sitter构建完整语法树,提供如FindClass、FindFunction等语法层API,实现语法感知搜索,在C++等复杂语言中能高精度定位bug,避免传统文本搜索工具(如grep)的噪声问题 [22][23][25][26][28] - **对抗式双智能体生成架构**:首创由代码补丁生成器与测试补丁生成器构成的对抗式双智能体架构,二者在闭环中交替迭代,使补丁在鲁棒性与完备性上持续演化,达到工程级质量,契合了下一代编码智能体迭代-验证-优化的核心范式 [29][30][31][32][33] 产品的工程化流程 - 修复流程分为**生成**与**筛选**两阶段 [35] - **生成阶段**:系统并行启动多个独立容器运行修复链路,允许模型查看代码库、运行测试、分析错误,并最多进行五轮迭代以产生多样化候选补丁 [40] - **筛选阶段**:在真实构建和测试环境中重放每个补丁,除验证测试通过外,还考虑行为一致性、稳定性和副作用,最终选出具有更强工程完整性与可维护性的补丁 [40] 公司团队背景与战略 - 核心团队由**清华姚班校友**带队,拥有顶尖技术实力,并融合了技术前瞻、产品化能力与商业化思维 [6][42] - 团队领军人物**杨萍**曾在字节跳动主导创立公司首个软件工程实验室,其孵化的内部AI Coding产品已全面覆盖公司研发体系,对在超大规模组织中应用AI有深刻理解 [42] - **CTO 王伟**来自清华姚班,曾带队在SWE-Bench获得全球第二的成绩,具备扎实的大模型与智能体算法工程经验 [42] - **商业化负责人 李莹**拥有十余年AI产业落地经验,曾主导完成大模型To B领域数亿元规模的项目落地,具备将技术价值转化为商业回报的能力 [43] - 团队汇聚了来自字节、百度、微软等顶尖企业及清华、北大、哥大、MIT等世界名校的人才,构成“顶尖老将 + 新生代骨干”组合,多个重要岗位由00后领衔 [43] - 公司对AI Coding赛道的认知已从“工具效能”提升转向对软件工程全生命周期的重构(AI SWE),致力于打造提供端到端价值闭环的“数字员工”平台,并通过“Coding + 细分行业”的深度融合构建商业生态闭环 [44]