死磕机器人大脑的北大副教授,和我们聊了聊具身领域最大的“偏见”
机器人机器人(SZ:300024) 36氪·2026-01-24 21:35

行业趋势:软硬分化 - 行业核心观点为“软硬分化”,即模型大脑与机器人本体由不同公司各司其职,与当前多数高估值公司追求的“软硬一体”全栈模式形成对比 [1] - 2026年初美国机器人模型公司Skild AI完成14亿美元C轮融资,估值翻三倍至超140亿美元,成为千亿独角兽,为一二级市场重新定价纯模型公司开了好头 [2] - 纯自研一个具身模型年开销高达数千万甚至上亿元,而外采一台机器人“大脑”的一次性成本仅需几万元,经济账促使行业审视全栈路线的性价比 [8] - 技术栈过长,模型与硬件是两套能力体系,一家公司难以两头做深,过去一年出现为融资而“套壳”做Demo但无法真实落地的公司,促使创业者重新思考路线 [9] - 行业正逐渐意识到本体公司自研模型本质是商业行为,随着更多机器人本体公司寻求合作,具身模型公司的估值正变得越来越贵 [14] 公司战略与产品 - 智在无界选择逆势专注研发机器人大脑(模型),不涉足硬件制造,并于近日完成数千万元天使轮融资 [1] - 公司目标是证明模型公司的价值,研发跨品牌、跨形态的具身智能模型,让硬件公司无需背负整个技术栈 [3] - 已推出灵巧手操作模型Being-H系列,最新发布的Being-H0.5模型可控制30种不同机器人,并能端侧部署在英伟达Orin-NX等小型芯片上实时运行 [3] - 正在研发用于控制双足机器人移动和操作的模型Being-M系列,这是一个多模态移动操作模型,训练数据包括对齐的第一人称、第三人称视频及动捕数据 [29] - 公司客户包括PND、灵心巧手等硬件公司,通过提供模型及增值服务Being-Dex,可实现机器人“开箱即用”及数小时学会新任务 [4] 技术核心:数据与训练 - 公司能力的核心在于拥有超3万小时预训练数据,据称为当前全球规模最大的具身智能模型预训练数据集 [5] - 采用独特的“人类动作视频”方案,通过头戴摄像头录制第一视角手部动作视频,具有数据规模大、成本低、能记录复杂操作的优点 [5] - 该数据方案早于业界共识,公司于2023年底开始使用,2025年七八月推出首个灵巧手模型Being-H0,使用了约100万条第一人称视角人手操作视频 [21] - 公司判断,数据规模需达到100万小时量级,机器人才更可能具备快速学习复杂新任务的真正泛化能力,预计该量级在2027年可达 [24] - 在“预训练-后训练”框架中,预训练阶段用大量人类视频让模型模仿人类;后训练阶段将信息与物理空间对齐,适配不同本体,并探索融入触觉等多模态信息 [26][27][28] 模型性能与现状 - 新发布的Being-H0.5模型在泛化性及跨本体性能上较半年前的Being-H0有非常大提升,其预训练融合了30种不同构型本体的真机数据 [31][33] - Being-H0.5展示出优秀的跨本体泛化能力,例如用宇树G1采集数据训练出的模型,首次上机即能让PND的Adam-U成功执行同一任务 [33] - 当前行业核心卡点在泛化性,具身智能远未达到可落地真干活水平,许多“工业场景落地”仍停留在演示或短周期概念验证阶段 [19] - 泛化性不足的原因部分在于硬件(如缺稳定好用的高自由度灵巧手及触觉反馈),部分在于模型(行业尚未研发出真正能干活的灵巧手模型) [20] - 行业内存在公司套壳其他模型(如PI 0.5)仅做后训练即宣称自研的情况,同时Demo拍摄可能存在技巧(如实为遥操作),与真实落地能力有差距 [35][36] 商业化与市场展望 - 公司当前收费模式为按机器人收取一次性License费用,范围在几万至十万元,另提供按数据量收费的后训练服务Being-Dex [16] - 当硬件公司出货量达到一定程度,可转为类似SaaS年包的付费方式,未来模型公司将存在竞争,可防止对硬件公司“坐地起价” [16] - 公司创始人认为,若技术收敛至通用模型阶段,机器人进入家庭,模型公司的市场将更大,甚至可做To C业务,公司也可能通过OEM涉足机器人产品 [17] - 创始人认为模型能力产生质变不会是循序渐进的过程,可能需要基于方法或模型层面的变化 [32] - 对于热点“世界模型”,认为若仅作为训练中的数据生成器可行,但若用于直接部署控制机器人则极其复杂且消耗算力,目前难度很大 [38][39]