死磕机器人大脑的北大副教授，和我们聊了聊具身领域最大的“偏见”

行业趋势：软硬分化 - 行业核心观点为“软硬分化”，即模型大脑与机器人本体由不同公司各司其职，与当前多数高估值公司追求的“软硬一体”全栈模式形成对比 [1] - 2026年初美国机器人模型公司Skild AI完成14亿美元C轮融资，估值翻三倍至超140亿美元，成为千亿独角兽，为一二级市场重新定价纯模型公司开了好头 [2] - 纯自研一个具身模型年开销高达数千万甚至上亿元，而外采一台机器人“大脑”的一次性成本仅需几万元，经济账促使行业审视全栈路线的性价比 [8] - 技术栈过长，模型与硬件是两套能力体系，一家公司难以两头做深，过去一年出现为融资而“套壳”做Demo但无法真实落地的公司，促使创业者重新思考路线 [9] - 行业正逐渐意识到本体公司自研模型本质是商业行为，随着更多机器人本体公司寻求合作，具身模型公司的估值正变得越来越贵 [14] 公司战略与产品 - 智在无界选择逆势专注研发机器人大脑（模型），不涉足硬件制造，并于近日完成数千万元天使轮融资 [1] - 公司目标是证明模型公司的价值，研发跨品牌、跨形态的具身智能模型，让硬件公司无需背负整个技术栈 [3] - 已推出灵巧手操作模型Being-H系列，最新发布的Being-H0.5模型可控制30种不同机器人，并能端侧部署在英伟达Orin-NX等小型芯片上实时运行 [3] - 正在研发用于控制双足机器人移动和操作的模型Being-M系列，这是一个多模态移动操作模型，训练数据包括对齐的第一人称、第三人称视频及动捕数据 [29] - 公司客户包括PND、灵心巧手等硬件公司，通过提供模型及增值服务Being-Dex，可实现机器人“开箱即用”及数小时学会新任务 [4] 技术核心：数据与训练 - 公司能力的核心在于拥有超3万小时预训练数据，据称为当前全球规模最大的具身智能模型预训练数据集 [5] - 采用独特的“人类动作视频”方案，通过头戴摄像头录制第一视角手部动作视频，具有数据规模大、成本低、能记录复杂操作的优点 [5] - 该数据方案早于业界共识，公司于2023年底开始使用，2025年七八月推出首个灵巧手模型Being-H0，使用了约100万条第一人称视角人手操作视频 [21] - 公司判断，数据规模需达到100万小时量级，机器人才更可能具备快速学习复杂新任务的真正泛化能力，预计该量级在2027年可达 [24] - 在“预训练-后训练”框架中，预训练阶段用大量人类视频让模型模仿人类；后训练阶段将信息与物理空间对齐，适配不同本体，并探索融入触觉等多模态信息 [26][27][28] 模型性能与现状 - 新发布的Being-H0.5模型在泛化性及跨本体性能上较半年前的Being-H0有非常大提升，其预训练融合了30种不同构型本体的真机数据 [31][33] - Being-H0.5展示出优秀的跨本体泛化能力，例如用宇树G1采集数据训练出的模型，首次上机即能让PND的Adam-U成功执行同一任务 [33] - 当前行业核心卡点在泛化性，具身智能远未达到可落地真干活水平，许多“工业场景落地”仍停留在演示或短周期概念验证阶段 [19] - 泛化性不足的原因部分在于硬件（如缺稳定好用的高自由度灵巧手及触觉反馈），部分在于模型（行业尚未研发出真正能干活的灵巧手模型） [20] - 行业内存在公司套壳其他模型（如PI 0.5）仅做后训练即宣称自研的情况，同时Demo拍摄可能存在技巧（如实为遥操作），与真实落地能力有差距 [35][36] 商业化与市场展望 - 公司当前收费模式为按机器人收取一次性License费用，范围在几万至十万元，另提供按数据量收费的后训练服务Being-Dex [16] - 当硬件公司出货量达到一定程度，可转为类似SaaS年包的付费方式，未来模型公司将存在竞争，可防止对硬件公司“坐地起价” [16] - 公司创始人认为，若技术收敛至通用模型阶段，机器人进入家庭，模型公司的市场将更大，甚至可做To C业务，公司也可能通过OEM涉足机器人产品 [17] - 创始人认为模型能力产生质变不会是循序渐进的过程，可能需要基于方法或模型层面的变化 [32] - 对于热点“世界模型”，认为若仅作为训练中的数据生成器可行，但若用于直接部署控制机器人则极其复杂且消耗算力，目前难度很大 [38][39]