Workflow
具身智能之心
icon
搜索文档
最近收到了很多同学关于具身方向选择的咨询......
具身智能之心· 2025-12-17 08:05
行业研究方向与选择 - 具身智能领域当前的研究方向包括视觉语言导航、视觉语言操作、强化学习以及真实到仿真再到真实的闭环方法[1] - 对于从事同步定位与地图构建研究的从业者,视觉语言导航和视觉语言操作被视为较好的切入方向[1] - 拥有机械臂硬件的研究者适合展开视觉语言操作研究,而无硬件的研究者可利用仿真环境或低成本硬件平台进行实验[1] - 四足机器人和人形机器人更适合采用强化学习方法进行研究,而视觉语言操作的研究难度相对较高[1] 研究方法与资源 - 研究过程中,拥有优秀的创新想法至关重要,但新人研究者往往需要经历多次试错才能获得[1] - 行业存在多种低成本的科研平台可供选择,例如移动操作平台[1] - 仿真方法是解决预算有限问题的可行方案之一[1] 专业辅导服务内容 - 提供的论文辅导服务覆盖从CCF-A到CCF-C级别的会议,以及SCI一区到四区的期刊[2] - 服务范围包括EI、中文核心期刊论文、毕业论文以及博士申请辅导等[2] - 辅导团队由来自国内外名校的博士及头部企业研究员组成,具备在ICML、ICLR、CoRL、ICRA、NeurIPS、CVPR等顶级会议的投稿与审稿经验[2] - 辅导流程为全闭环服务,涵盖选题创新点挖掘、实验设计、代码调试、论文写作到投稿策略[2] - 辅导服务兼具工业界与学术界双重视角,不仅关注论文发表,也重视研究的落地价值[3] - 公司为前10名咨询者提供免费匹配专属导师的机会[5]
具身的半壁江山都在VLA了......
具身智能之心· 2025-12-16 17:25
行业技术趋势与需求 - 视觉语言动作模型是当前具身智能领域最急需的算法方向之一,这一点从大量职位需求和论文产出中得到体现 [1] - 近两年来,从ACT到OpenVLA,再到π0、π0.5、π0.6,各类新方法层出不穷,性能持续提升 [5] - 基于强化学习的优化方案正使视觉语言动作模型的表现越来越流畅 [5] 技术发展面临的挑战 - 视觉语言动作模型调试困难、数据采集过程繁琐,是行业从业者普遍反映的痛点 [2] - 具身智能领域高度依赖硬件本体,仅通过仿真环境进行研究难以保证算法的泛化性能,许多公司坚持采用真机数据路线 [3] - 真实数据采集需借助遥操作、VR、全身动作捕捉等方式,过程耗时且采集到的数据往往难以直接使用 [3] - 许多初学者在尝试打通数据、模型、训练、部署全流程时遇到巨大困难,有人甚至耗费半年时间仍无法有效入门 [7] - 像π0、π0.5、GR00T这类先进模型,在数据采集和模型训练环节存在大量需要经验积累的技巧 [7] - 训练完成的模型参数量庞大,即使是2B规模的模型,在边缘芯片上的部署也面临巨大挑战,需要进行量化、蒸馏等轻量化操作 [10] 技术实施的关键模块 - **数据采集**:主要方法包括基于模仿学习的遥操作、VR、全身动捕,以及基于强化学习的方法,如何保证数据质量和实现真实到仿真再到真实的闭环是关键 [8] - **模型训练**:在真机数据不足时,仿真和仿真到真实迁移技术至关重要,Mujoco、Isaac Gym等是常用框架,不同模型的训练难度差异大,ACT相对简单易出效果,而π0、π0.5则对细节和技巧要求极高 [9] - **模型部署**:涉及模型“瘦身”,通过量化、蒸馏等技术在保证性能的同时最小化参数量,以适应边缘计算环境 [10] 开源生态与硬件支持 - 已有团队开源了如LeRobot等技术框架,非常适合入门学习 [5] - 开源硬件本体多样化,能满足不同研究需求,例如机械臂有SO-100、双臂操作有openarm、移动操作有XLeRobot等 [5] - 行业存在主流仿真平台,如Isaac Lab,用于环境配置、场景搭建以及仿真与真机的联动 [22] 行业人才培养与课程内容 - 为应对技术快速更新带来的学习挑战,业内推出了系统性的实战课程,内容涵盖机械臂硬件、数据采集、视觉语言动作算法、评测、仿真、主流模型部署、与世界模型融合、真机实验及产业分析 [16] - 课程设计软硬结合,旨在帮助学习者节省“踩坑”时间,积累可写入简历的项目经验,掌握面试所需的技巧 [14] - 课程大纲全面,共分九章,包括:视觉语言动作基础与概述、机械臂及训练平台、数据集获取、模型部署与真机、仿真环境与工具链搭建、模型轻量化与蒸馏、视觉语言动作与世界模型融合、评测及能力提升、趋势与产业落地 [18][19][20][21][22][23][24][25] - 课程包含对多种主流模型的详解与部署实战,如ACT、GR00T N1/N1.5系列、π0/π0.5/π0-fast等 [22][26] - 课程提供了具体的模型能力提升方向,包括陈述性知识能力、运动行为知识、定向数据合成等,并涉及Libero、Robo Challenge、Robo Twins等主流评测基准 [27] - 课程对产业趋势进行分析,涵盖当前技术瓶颈、未来发展方向预测,以及主流具身公司的战略布局和产业落地生态 [27]
NBA球星,成为英伟达副总裁
具身智能之心· 2025-12-16 08:02
文章核心观点 - 英伟达首席执行官黄仁勋采用了一种极致的扁平化管理模式,直接管理36位核心高管,其规模远超硅谷常规,旨在通过减少层级、加速信息流动来提升决策与创新效率 [4][8][13][14] - 这种“信息即权力”的管理逻辑,通过让高管直接获取一手信息并充分授权,塑造了公司内部高度透明、快速响应的文化,被认为是英伟达在AI时代保持敏捷和战斗力的关键因素 [5][15][23][26] - 由创业元老、顶尖技术专家、资深运营管理者和新业务拓荒者构成的36人高管团队,在黄仁勋的信任和授权下,各自成为领域内的“小CEO”,共同支撑了公司在GPU、AI、汽车、云计算等领域的全面成功 [25][26][29][71] 黄仁勋的管理逻辑与组织架构 - 黄仁勋直接管理的高管团队规模从鼎盛时期的55人缩减至目前的36人,但仍远超同行,例如Meta首席执行官扎克伯格的核心军团约30人且非全部直接汇报,特斯拉首席执行官马斯克在特斯拉仅有19名直管下属 [4][8][9][11] - 其管理哲学的核心是“减少层级,让信息流动”,认为CEO直管下属越多,公司层级就越少,这能保证信息流动并授权给每个人,从而避免层层汇报导致的信息稀释和决策延迟 [13][14][15] - 在实践中,黄仁勋很少安排例行的一对一会议,更偏好集体讨论,让信息在高管团队中自由传播,并立下规矩不主动单独开会,但只要属下提出便会立刻沟通,以此防止信息孤岛 [5][20] - 这种扁平化结构使得整个管理层犹如一张高速传递信息的神经网络,黄仁勋甚至笑称其直管将领“薪酬都差不多”,体现了在其麾下获取信息和资源的机会相对均等 [22][23] 核心高管团队构成与分工 元老与创始功臣 - **克里斯·马拉科斯基**:公司联合创始人,英伟达院士,专注于核心技术战略,拥有40余年从业经验和几十项集成电路专利,是GPU架构和并行计算领域的传奇人物 [35][37][40] - **德怀特·迪尔克斯**:公司第22号员工,服务超过30年,现任软件工程高级副总裁,是英伟达软件生态的奠基者,负责从CUDA到自动驾驶平台软件栈的开发 [45][47][49][50] - **杰夫·费舍尔**:公司第一位正式销售,现任GeForce业务部门高级副总裁,是英伟达在游戏市场商业成功的开拓者,将GeForce打造成玩家家喻户晓的品牌 [51][53][54][55] - **乔纳·阿尔本**:1997年加入,现任GPU工程高级副总裁,领导团队推出了从“费米”到“安培”等一系列划时代的GPU架构,拥有34项专利 [60][65][66] 硬核技术阵容 - **比尔·达利**:首席科学家,著名计算机科学家,斯坦福大学前计算机系主任,2009年加盟,负责制定公司长期技术愿景并领导前沿技术攻关,拥有120多项美国专利 [76][78][79][83] - **迈克尔·卡根**:首席技术官,Mellanox公司联合创始人,2019年英伟达以近70亿美元收购Mellanox后于2020年出任CTO,主导将GPU、CPU、DPU融合的加速计算平台 [86][90][91][94] - **伊恩·巴克**:加速计算部门副总裁兼总经理,GPU通用计算的开创者,CUDA平台的奠基人,目前负责英伟达整个数据中心业务 [96][98][100][101] - **雷夫·勒布拉丁**:负责Omniverse平台和仿真技术,拥有22年工龄,是好莱坞视觉特效背景,致力于推动工业元宇宙和数字孪生应用 [106][108][110] - **阿米特·克里格与德罗尔·戈登伯格**:均来自被收购的Mellanox,负责网络及DPU产品线的软件与架构,推动了BlueField DPU和DOCA软件架构等创新 [115][117][119][121][123] 商业与运营中坚 - **科莱特·克雷斯**:执行副总裁兼首席财务官,2013年加入,当时公司年营收不到40亿美元,如今已迈向数百亿美元,她平衡研发投入与盈利增长,是公司跨入万亿美元市值俱乐部的关键推手 [156][158][162][164] - **杰伊·普里**:执行副总裁,主管全球业务拓展和销售运营,2005年加入,将英伟达的销售版图从PC拓展至游戏、数据中心、汽车等多行业,其持有的股票身家已跻身10亿美元俱乐部 [167][169][171][178] - **黛博拉·舒奎斯特**:执行副总裁,负责端到端运营,包括供应链、制造和质量管理,在近年芯片产能紧缺潮中保障了GPU的海量交付 [180][182][186][189] - **蒂姆·蒂特**:执行副总裁、总法律顾问,2017年加入,负责公司所有法律事务,在收购Mellanox和尝试收购ARM等重大交易中扮演了重要角色 [193][195] 新战线的拓荒者 - **霍华德·赖特**:副总裁,负责Inception创业加速计划,扶持全球1.9万家初创公司,背景独特,曾是NBA职业篮球运动员,后在高通、英特尔、AWS从事投资与生态建设工作 [2][247][252][254] - **吴新宙**:副总裁,负责汽车业务,2023年加入,此前在小鹏汽车担任自动驾驶副总裁5年,在高通领导自动驾驶研发,拥有超过250项美国专利,助力英伟达自动驾驶平台落地中国市场 [262][264][268][272] - **亚历克西斯·比乔林**:副总裁兼DGX Cloud云服务总经理,2022年前后加盟,曾任Meta基础架构副总裁,领导打造将英伟达AI算力通过云端提供服务的DGX Cloud平台 [276][278][279][281] - **迪普·塔拉**:副总裁兼Autonomous Machines事业部总经理,负责Jetson边缘AI平台和Isaac机器人平台,将英伟达的AI技术拓展到机器人、物联网等边缘计算领域 [305][307][309][310]
UniBYD:超越人类示教模仿的跨实体机器人操作学习统一框架
具身智能之心· 2025-12-16 08:02
点击下方 卡片 ,关注" 具身智能 之心 "公众号 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 研究背景与核心问题 在嵌入式智能领域,从人类演示中学习机器人操作是主流范式,但人类手部与不同形态机器人手(如2指、3指、5指)之间的 形态差异鸿沟 ,成为技术落地的核心 障碍: UniBYD核心目标是构建一种学习范式:突破单纯的人类动作模仿,让机器人自主发现与自身物理特性匹配的操作策略,实现跨形态机器人手的高效泛化。 核心创新:UniBYD框架设计 UniBYD是一套统一的强化学习框架,通过 统一形态表示、动态强化学习机制、精细模仿引导 三大核心组件,实现从模仿到探索的平滑过渡,最终学到适配机器人 形态的操作策略(figure2)。 作者丨 Tingyu Yuan等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 统一形态表示(UMR):跨形态建模的基础 为解决不同机器人手形态(自由度、手指数量、刚体数量)的建模差异,UMR将动态状态与静态属性统一为固定维度表示: 动态状态处理 :手腕状态固定为 ...
许华哲,抓紧时间慢慢等具身的未来......
具身智能之心· 2025-12-16 08:02
文章核心观点 - 行业观察到具身智能领域在2025年存在发展速率与落地现实不协调的现象 具体表现为技术演示与真实世界应用之间存在差距 [6][7][8] - 行业认为中美在具身智能的发展路径上出现分野 中国公司侧重量产与商业化 美国公司侧重探索AI技术上限 行业担忧过度关注确定性量产可能错过最根本的AI技术突破 [9][10][11] - 行业主张具身智能应类比大模型 不应局限于简单、重复的落地场景 而应挑战需要强操作和高泛化能力的困难任务 以训练出高质量的通用模型 [12] - 行业指出具身智能面临数据瓶颈 其发展路径将是预训练与基于真实交互的持续学习螺旋上升 而非一次性完成数据训练 [15] 两个世界的机器梦 - 自2022年、2023年同步起步后 中美具身智能发展路径在2025年出现明显分野 [9] - 中国公司投入更多精力在量产和商业化上 而美国公司如1X Technologies(展示Gen0精细操作)、Figure(展示长程任务能力)、Sanctuary AI(展示持续工作能力)等则致力于展示AI技术上限 [9] - 行业认为机器人本质不同于汽车 AI能力是核心驱动力 需要由AI技术领跑 而非单纯追求量产 [9] - 行业呼吁在具身智能领域应建立原始创新的信心 而非仅采用跟随策略 需要容忍高失败率的探索性研发 [10] 落地简单场景还是挑战困难场景 - 行业观察发现 高价值、高重复性的场景往往已被传统自动化设备解决(例如解决90%的问题) 剩余未自动化场景通常因单价低或重复度低而不具经济性 [12] - 基于此 行业认为具身智能的定位应更接近大模型 不应将资源耗费在简单任务上 而应致力于挑战需要“强操作”和“高泛化”能力的困难场景 [12] - 挑战困难场景有助于训练出高质量的通用模型 从而更广泛地解决问题 尽管向具体场景的早期落地有其价值 可为未来积累迁移经验 [12][13] “预训练”配合“先验学习” - 具身智能面临天然的数据瓶颈 包括仿真数据不足和真机数据缺乏 这一问题将持续存在 [15] - 因此 行业发展不能遵循“先穷尽数据预训练,再探索模型”的线性路径 而需采用“预训练”与“真实世界交互学习”螺旋上升的模式 [15] - 行业认为 足够好的世界模型无法仅从人类采集的数据中训练获得 必须让机器人自主与世界交互才能构建其独有的世界模型 [15] - 行业对未来探索使用统一强化学习目标函数贯穿预训练与后训练的模式表示兴趣 [15]
新国大团队首创!当VLA具备4D感知能力后会怎么样?
具身智能之心· 2025-12-15 11:17
文章核心观点 - 文章介绍了一款名为VLA-4D的新型通用机器人模型,该模型通过引入4D感知能力,旨在解决现有视觉-语言-动作模型在需要细粒度表征的时空一致机器人操作任务中面临的挑战,从而实现更精准、流畅且时序一致的动作规划与执行 [2] 模型技术架构 - VLA-4D模型的核心设计包含两大关键模块:4D感知视觉表征和时空动作表征 [2] - 4D感知视觉表征模块首先提取视觉特征,然后将一维时间信息嵌入三维位置信息以生成4D嵌入特征,最后通过交叉注意力机制融合为统一的视觉表征 [2] - 时空动作表征模块为传统的空间动作表征拓展了时序信息维度,支持时空层面的动作规划,并将多模态表征与大语言模型进行对齐以完成动作预测 [2] - 在这一统一框架下,特殊设计的视觉与动作表征协同作用,使机器人操作兼具空间流畅性与时序一致性 [2] 研究背景与数据 - 现有视觉-语言-动作模型在通用机器人任务中展现出潜力,但在需要细粒度表征的时空一致机器人操作任务中仍面临挑战 [2] - 现有方法通常将三维位置信息嵌入视觉表征以提升动作空间精度,但难以实现对动作执行过程的时序一致性控制 [2] - 该研究工作为现有VLA数据集补充了时序动作标注,用于模型的微调训练 [2] 相关技术生态 - 物理世界是动态变化的四维场景,感知和理解其时空知识极具挑战 [6] - 技术生态中,4D-VGGT模型用于实现动态几何感知,LLaVA-4D模型用于增强动态场景推理,而VLA-4D模型则赋能动态时空规划 [6][7] - 相关深度内容在知识星球「具身智能之心」中涵盖,包括灵巧手技术、Agent定义、VLA与强化学习方案的真机部署探讨,以及跨实体世界模型等话题 [9]
看一次就能执行!单视频示范零样本学习&跨模态动作知识迁移
具身智能之心· 2025-12-15 09:04
文章核心观点 - 北京理工大学与LimX Dynamics联合提出的ViVLA框架,通过“统一动作空间构建-并行解码优化-大规模数据生成”的三层技术体系,首次实现了机器人从单段专家示范视频中高效学习新技能,为通用机器人政策学习提供了全新范式 [1] - ViVLA框架的核心目标是“单样本视频模仿学习”,旨在解决现有视觉-语言-动作模型难以泛化到训练分布之外任务的核心瓶颈 [1] - 该框架构建了包含89万+专家-智能体配对数据的大规模数据集,并通过技术闭环实现了跨模态动作知识迁移,在多项基准测试和真实场景中展现出卓越的零样本学习与泛化能力 [2][13] 问题根源:现有VLA模型的四大核心挑战 - **细粒度动作识别能力不足**:现有视觉语言模型侧重语义级视频理解,难以分辨示范视频中精细的操纵动作,导致无法从专家行为中提取关键操作知识 [4] - **动作表征与模态差异**:人类示范视频缺乏动作标注,且专家与目标机器人的动作空间存在本质差异,传统方法无法实现有效的知识迁移 [5] - **自回归建模的固有缺陷**:现有方法存在推理效率等问题 [6] - **高质量配对数据稀缺**:机器人学习领域缺乏丰富多样的专家-智能体配对数据,现有数据集规模小、场景单一,难以支撑通用模型训练 [7] 方案设计:ViVLA的三层技术闭环 - **第一层:统一动作空间构建**:提出基于动作中心循环一致性的A3C框架,构建跨专家与智能体的统一潜在动作空间,以解决形态鸿沟与动作表征问题 [8][10] - **第二层:模型训练优化**:对视觉-语言-动作模型架构进行两大核心优化 [8] - **潜在动作编码与对齐**:通过编码器-解码器架构提取潜在动作表征,并采用VQ-VAE量化为离散token,引入循环一致性约束和局部-全局判别器来强制跨模态动作语义对齐 [11] - **并行解码与时空掩码**:摒弃自回归生成,采用并行解码机制单次前向传播生成所有动作token,大幅降低推理延迟;同时采用时空掩码策略,强制模型从部分观察中预测动作,强化全局视频理解能力 [12] - **第三层:大规模数据生成**:设计了可扩展的数据生成流程,将人类视频转化为高质量配对数据,整合多个公开数据集与自生成数据,最终形成了总计892,911条专家-智能体训练样本 [8][13] 性能验证:基准测试与真实场景结果 - **LIBERO基准测试**:在包含130个语言条件操纵任务的LIBERO基准测试中,ViVLA在未见任务上的性能表现显著超越基线模型 [14] - 在相同形态示范下,ViVLA在未见任务上的成功率达到**65%**,远超AWDA的**35%**和UniVLA的**13%** [14] - 在细分任务套件中,LIBERO-Object套件的未见任务成功率最高,达到**74%** [14][18] - **跨形态迁移验证**:在“UR机械臂示范-Franka机械臂执行”的跨形态实验中,ViVLA仅出现边际性能下降,未见任务成功率仍保持**63%**,较基线模型提升超过**35%** [15] - **真实世界验证**:在12项真实世界操纵任务中,ViVLA从单段人类示范视频中学习技能,未见任务成功率达**74%**,较AWDA的**36%**提升超过**38%** [16] - 部分任务如翻转积木、关闭篮子的成功率达到了**100%** [16][19] 鲁棒性分析与核心组件验证 - **环境鲁棒性**:面对物体数量变化、空间布局调整、相机视角切换与光照变化,ViVLA整体成功率保持在**70%**以上,展现出强大的环境适应性 [20] - **组件消融分析**:实验表明,A3C循环一致性、时空掩码、并行解码均为关键贡献模块,移除后未见任务成功率最高下降**38%** [24] - 移除时空掩码策略,在LIBERO-Spatial未见任务上成功率从**71%**降至**64%** [24] - 使用自回归建模替代并行解码,在LIBERO-Long未见任务上成功率从**51%**降至**35%** [24] 技术贡献与行业影响 - **破解数据稀缺难题**:通过3D高斯splatting等技术,将7,421个人类示范视频转化为89,736条人类-机器人配对样本,并结合公开数据构建了大规模训练集 [17][25] - **建立完整技术链路**:建立了“数据生成-模型优化-知识迁移”的完整链路,为通用机器人政策学习提供了可复用的技术底座 [25] - **推动行业范式转型**:其技术推动机器人从“特定任务训练”向“零样本技能迁移”转型,加速了通用自主机器人的落地进程 [25] 当前局限与未来方向 - **感知局限**:静态相机难以捕捉精细的机器人-物体交互细节,部分场景因遮挡导致抓取精度不足,未来可引入腕部相机提升第一视角观察 [27] - **误差恢复能力**:当前模型缺乏系统的错误恢复能力,未来可通过在数据生成阶段添加轨迹扰动与恢复序列来增强鲁棒性 [27] - **数据规模与多样性**:现有数据依赖人工收集的人类视频,未来可探索互联网级人类视频的自动过滤与配对,以进一步扩大数据多样性 [27]
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS'25
具身智能之心· 2025-12-15 09:04
文章核心观点 - 人工智能技术,特别是基于Transformer架构的AEOS-Former模型,正成为解决大规模卫星星座任务规划这一高维、动态、强约束难题的关键,能够显著提升任务完成率并优化资源消耗 [4][16][18][19] 卫星星座的产业价值与规划挑战 - 卫星星座是由多颗卫星组成的协同网络,具备全球覆盖、快速响应和高频观测能力,已成为数字经济时代的关键基础设施,支撑遥感、通信、导航、气象预测等行业 [4] - 星座规划面临四大核心挑战:任务量大(例如美国SkySat星座13颗卫星日均需处理超百项任务)[8]、单次观测时间窗口紧张(常不足5分钟)[9]、突发任务响应能力有限(例如“女娲星座”紧急观测任务完成率常不足60%)[10]、以及卫星物理约束条件复杂 [11] 北航团队的技术突破:基准数据集与调度模型 - 团队构建了首个大规模真实星座调度基准数据集 **AEOS-Bench**,包含超过16,000个任务场景,覆盖1至50颗卫星、50至300项成像任务,并确保场景的物理真实性与评估全面性(涵盖6类指标)[13][14] - 团队提出了基于Transformer的内嵌约束调度模型 **AEOS-Former**,该模型能显式建模卫星的物理约束(如视场、电池状态),并实现卫星与任务的高效匹配 [16] AI模型性能评估与结果 - 在AEOS-Bench基准测试中,AEOS-Former模型在多项关键指标上均优于随机模型、优化模型及强化学习等基线模型 [18][19] - 具体性能数据:在“Seen”数据划分中,AEOS-Former的任务完成率(CR)达30.47%,综合得分(CST)为5.00,功耗(PC)为71.27 Wh,均优于基线模型;在“Unseen”数据划分中,其任务完成率达35.42%,综合得分为4.43,功耗为68.99 Wh,同样表现最佳 [19] - 研究表明,任务完成率与资源消耗之间存在权衡关系,卫星数量增加能提升联合观测能力,但边际效益会随资源消耗增加而趋于稳定 [20] 研究意义与未来展望 - 该研究为卫星星座的自动化、智能化规划提供了高效解决方案,并发表于顶级会议NeurIPS 2025 [5][22] - 这项技术印证了“空天具身智能”的巨大潜力,有望让太空设施具备感知、决策与协同的自主能力,拓宽人类探索与利用太空的边界 [22][23]
Q4融资超过亿元的具身公司.......
具身智能之心· 2025-12-15 09:04
文章核心观点 - 文章对2025年具身机器人领域的融资情况进行了一次调研,汇总了29家获得亿元以上融资的公司信息,涵盖了从天使轮到C轮的不同阶段[1] - 调研范围包括具身智能本体公司、零部件生产商、算法类公司等,展示了行业在技术创新与商业化落地方面的多元化进展[1] 融资规模与公司概况 - **智平方**:融资规模为数亿元人民币,是一家AGI原生的通用智能机器人企业,以自研具身大模型和AlphaBot系列产品为核心,已在半导体、汽车制造、电子制造、生物科技与公共服务等领域实现落地[4] - **自变量机器人**:融资规模为10亿元人民币,专注于基于机器人大模型构建可精细操作的通用智能体[5] - **星动纪元**:融资规模为10亿+元人民币,由清华大学交叉信息研究院孵化,致力于研发适应多情景的通用人形机器人[26] - **乐聚机器人**:融资规模为15亿元人民币,从事人形机器人研发,推出Aelos、Talos等系列,采取To B和To C双线业务策略[12] - **云深处科技**:融资规模为5亿元人民币,专注于足式机器人产品开发,其“绝影”系列四足机器人已在巡检、应急救援等多种场景落地应用[32] - **五八智能**:融资规模为5亿元人民币,是中国兵器装备集团旗下企业,重点布局通用型人形机器人与行业级四足机器狗[15] - **星源智机器人**:融资规模为3亿元人民币,由北京智源研究院孵化,致力于构建物理世界的通用具身大脑,并开发了2070Tops的算力平台以实现大脑大模型在端侧运行[6] - **松延动力**:融资规模为3亿元人民币,专注于人形机器人研发与制造,涉及通用人工智能本体、机器人仿生及具身操作系统[14] - **无界动力**:融资规模为3亿元人民币,聚焦构建机器人“通用大脑”与“操作智能”,致力于提供软硬一体的具身智能解决方案[20] - **UniX AI**:融资规模为3亿元人民币,是一家人工智能和人形机器人科技公司,拥有Unitouch触觉大模型等技术,核心零部件实现模块化自研[30] - **中科光电**:融资规模为2.15亿元人民币,专业从事高端智能机器人研发,业务涵盖“仝人智能”焊接机器人、测量机器人、特种机器人及具身智能视觉终端[17] - **乐享科技**:融资规模为2亿元人民币,专注于家庭通用小具身机器人的研发,致力于打造新一代家庭移动硬件终端[10] - **深朴智能**:融资规模为2亿元人民币,是一家通用具身智能机器人研发商,主要从事智能机器人的研发与服务[19] - **微分智飞**:融资规模为1亿元人民币,致力于打造通用空中机器人具身智能大脑及其集群系统,推动工业、城市与自然空间的智能化升级[7] - **Dyna Robotics**:融资规模为1.2亿元人民币,是一家AI驱动机器人研发商,专注为各类企业打造具备智能基础模型能力的机器人[8] - **泉智博Motorevo**:融资规模为1亿元人民币,是一家机器人关节研发商,致力于机器人动力单元以及桌面机械臂和四足机械狗的研发[9][18] - **千觉机器人**:融资规模为1亿元人民币,是一家具身智能传感器公司,研发面向机器人精细操作的高维度多模态触觉感知技术及相关产品[11] - **昇视唯盛**:融资规模为1亿元人民币,自主研发“AI+3D+ROBOT”系统的智能机器人,针对制造业自动化柔性不足的痛点打造焊接、打磨等专用智能机器人[16] - **加速进化**:融资规模为1亿元人民币,是一家人形机器人研发商,致力于研发更富有行动能力的人形机器人本体和易于开发的运控开发平台[22] - **新生纪智能**:融资规模为1亿元人民币,是一家商用清洁机器人研发商,已有商用扫地机器人SP50、商用洗地机器人L50等多款产品面市[25] - **傲意科技**:融资规模为1.6亿元人民币,专注于无创脑机接口与神经康复机器人核心算法和整机研发,产品覆盖医疗康复、具身智能及工业场景[27] - **戴盟机器人**:融资规模为1亿元人民币,致力于研发高分辨率多模态触觉感知、触觉灵巧手及穿戴式遥操作数据采集系统[28] - **灵生科技**:融资规模为1亿元人民币,是一家具身智能机器人研发商,基于自创的多模态感知融合系统构建机器人通用类脑[31] - **灵心巧手**:融资规模为数亿元人民币,聚焦以“灵巧手+云端智脑”为核心的具身智能平台,自主研发了Linker Hand系列灵巧手及相关平台化产品[13] - **原力灵机**:融资规模为数亿元人民币,专注于工业和物流自动化领域的具身智能解决方案,结合LLM、VLM、RL等前沿技术开发智能算法[21] - **星尘智能**:融资规模为数亿元人民币,是一家服务消费类人形机器人、一体化仿生机器人研发商,致力于可落地商用的新一代AI人形机器人Astribot系列[23] - **鹿明机器人**:融资规模为数亿元人民币,是一家具身智能机器人研发商,聚焦家庭场景,关注产品定义能力及软硬件综合迭代能力[29] - **光轮智能**:未披露具体融资规模,致力于以高质量仿真、合成数据与物理AI技术驱动机器人走向现实,提供全流程解决方案,客户包括英伟达、谷歌、Figure AI、比亚迪等国内外顶尖企业[24] 技术方向与业务重点 - **通用智能与大脑平台**:多家公司致力于研发通用智能体、具身大脑或操作系统,如星源智机器人构建“物理AI”模型和通用大脑[6],无界动力聚焦“通用大脑”与“操作智能”[20],灵生科技构建云-边-端一体化类脑[31] - **核心零部件与传感器**:部分公司专注于机器人关键零部件研发,如泉智博Motorevo研发机器人关节[9][18],千觉机器人研发高维度多模态触觉感知技术及传感器[11],戴盟机器人研发触觉灵巧手及感知系统[28] - **垂直场景应用**:行业应用落地广泛,涵盖工业制造(如智平方[4]、昇视唯盛[16]、中科光电[17])、特种与公共服务(如云深处科技[32]、五八智能[15])、家庭服务(如乐享科技[10]、鹿明机器人[29])、商用清洁(新生纪智能[25])以及空中机器人(微分智飞[7])等多个领域 - **软硬件一体化与全栈能力**:许多公司强调软硬件协同发展,如星源智机器人采用“软硬件一体”策略降低部署成本[6],UniX AI核心零部件全部实现模块化自研[30],灵心巧手基于软硬件双领域协同[13] - **前沿技术融合**:公司积极融合多种前沿AI技术,如原力灵机结合大语言模型(LLM)、多模态视觉模型(VLM)、强化学习(RL)[21],光轮智能提供从数据采集到Sim2Real部署的全流程解决方案[24]
没有好的科研能力,别想着去工业搞具身了~
具身智能之心· 2025-12-15 09:04
行业人才供需状况 - 具身智能领域具备完整科研能力的在校学生已成为市场稀缺人才 许多学生在毕业前就被猎头和HR预定[1] - 市场对人才的核心要求是“具备完整的科研能力” 即能独立完成发现问题、定义问题、提出解决方案并形成方法论的全过程 而非简单的读论文能力[1] - 当前许多学生面临导师不熟悉具身智能方向 需要自行调研的困境[2] 行业研究热点与方向 - 具身智能领域的科研与辅导覆盖多个前沿技术方向 包括大模型、视觉语言模型、视觉语言导航、端到端学习、强化学习以及扩散策略等[3] - 机器人相关技术是研究重点 具体涉及机器人决策规划、运动规划、双足/四足机器人控制以及遥控操作等领域[3] - 感知与建模技术同样关键 研究方向包括位姿估计、3D高斯泼溅、同步定位与地图构建以及触觉感知等[3] - 其他重要研究方向包括模拟到真实的迁移、具身交互以及零样本学习等[3] 行业服务与业务模式 - 市场存在针对科研难题的付费辅导服务 旨在帮助学生快速提升研究能力[2] - 服务内容涵盖从论文选题到全流程指导的完整科研支持[6] - 具体服务包括解决领域痛点难点、提供真机使用与数据采集经验指导、实验设计与效果优化以及论文写作辅导等[7] - 服务提供方宣称其中标率很高 并有辅导成果被CVPR、AAAI、ECCV、CoRL、ICLR、IROS、ICRA、ACL等顶级会议和期刊收录[8] - 辅导服务按论文目标级别差异化定价 目标级别包括具身智能顶会/顶刊、CCF-A/B/C类会议期刊、SCI各分区、中科院各分区以及EI/中文核心等[11] - 服务范围不仅限于学术论文 也涵盖毕业设计、申博准备及比赛指导等需求[11]