Workflow
软硬分化
icon
搜索文档
死磕机器人大脑的北大副教授,和我们聊了聊具身领域最大的「偏见」
36氪· 2026-01-21 22:33
文章核心观点 - 具身智能行业将出现“软硬分化”趋势,即模型大脑研发与机器人本体制造将由不同公司专业化分工,而非当前主流的“软硬一体”全栈模式 [5][7][13] - 纯模型公司(如智在无界)的价值正被市场重新认识,其核心在于通过大规模、低成本的人类视频数据训练出通用的机器人大脑,为不同硬件本体提供“开箱即用”的基础能力,从而降低行业总成本 [8][9][10][13] - 当前具身智能技术远未成熟,泛化能力是核心瓶颈,而数据规模(预计需达到100万小时)和训练范式是突破的关键,预计质变将在2027年左右发生 [35][40][41] 行业现状与趋势 - **当前主流模式**:获得高估值的具身创业公司(如智元机器人、银河通用、星动纪元、星海图)普遍追求“软硬一体”的全栈模式 [7] - **市场认知变化**:一级市场开始重新定价纯模型公司,例如2026年1月,机器人模型初创企业Skild AI完成14亿美元C轮融资,估值翻三倍至超140亿美元 [8] - **分化驱动因素**:技术栈过长,模型与硬件研发是两套能力体系,一家公司难以两头做深,“为了全栈而全栈”导致部分公司无法真实落地 [13][14] - **经济账考量**:企业自研一个具身模型年开销高达数千万甚至上亿元,而外采一台机器人“大脑”的一次性成本仅需几万到十万元 [13][27] 公司(智在无界)战略与业务 - **公司定位**:专注于研发跨品牌、跨形态的具身智能模型(机器人大脑),不涉足硬件制造 [8][9] - **融资情况**:已于近日完成数千万元天使轮融资,由拉卡拉旗下考拉基金领投 [8] - **核心产品**: - **Being-H系列**:灵巧手操作模型,最新版本Being-H0.5可控制30种不同机器人,并能在英伟达Orin-NX等小型芯片上实时运行 [9][55] - **Being-M系列**:适用于双足机器人移动和操作的多模态模型,正在研发中 [9][48] - **商业模式**:向硬件厂商收取一次性License费用(几万至十万元/台),并提供按数据量收费的后训练服务Being-Dex,未来可能采用SaaS年包模式 [27] 技术路径与数据 - **核心数据方案**:采用“人类动作视频”方案,通过头戴摄像头录制第一视角手部动作视频,数据规模大、成本低,能完整记录复杂操作 [10][11] - **数据规模**:已积累超3万小时预训练数据,自称是全球规模最大的具身智能模型预训练数据集,目标在2027年达到100万小时数据量级 [10][41][43] - **技术细节**:建立自动化数据处理工作流,将不同来源的视频统一至3D空间,形成“视频-文字描述-动作”数据对;在后训练阶段探索融入触觉等多模态信息 [46][47] - **训练框架**:采用“预训练-后训练”双层框架,预训练让模型模仿人类,后训练将信息与物理空间对齐并适配不同本体 [45][46] 模型能力与进展 - **Being-H0.5模型表现**:预训练融合了30种不同构型本体的真机数据,实现了跨本体的大规模数据融合,可同时部署于5个不同本体 [54] - **泛化能力案例**:用宇树G1采集的数据训练出的模型,首次上机即能让PND的Adam-U成功执行同一快递扫码分拣任务 [54] - **能力质变判断**:模型能力产生质变不会是循序渐进的过程,可能需要方法或模型层面的变化 [53] - **当前局限性**:行业缺乏稳定好用的高自由度灵巧手及触觉反馈,模型泛化能力仍不足,真实工业场景落地多停留在演示或短周期概念验证阶段 [35][36][37] 行业挑战与乱象 - **落地难度**:现阶段的具身智能远远未达到可以落地真干活的水平,核心卡点在泛化性 [35] - **演示(Demo)陷阱**:部分Demo可能存在技巧,如未说明是遥操作控制,误导外界对机器人实际能力的判断 [59] - **套壳现象**:市场上有公司套壳其他模型(如PI 0.5),仅在后训练添加数据,而非真正自研 [58] - **“世界模型”争议**:该概念定义混乱,若仅用于生成训练数据可行,但若用于直接控制机器人则极其复杂且消耗算力,短期内难度很大 [61][62][63]