人类第一视角数据
搜索文档
弯道超车?国产具身,千小时人类数据激发智能涌现
机器之心· 2026-03-05 12:15
行业趋势:硅谷共识与路线分歧 - 硅谷前沿公司已就“人类第一视角数据”是提升机器人灵巧性关键达成共识,认为其重要性超越机器人真机数据[4][7] - 英伟达发布EgoScale框架,使用超过2万小时人类第一视角视频训练机器人,证明增加人类示范数据可稳步提升机器人操作能力[4] - 英伟达此前发布的DreamDojo模型使用4.4万小时人类第一视角视频训练,展现出对陌生物体和环境的强泛化能力[6] - 硅谷多家知名公司,包括特斯拉、Figure、Physical Intelligence等,均已开始大规模采集或使用人类第一视角数据构建基座模型[7] - 行业核心判断认为,真正的机器人智能始于对“物理常识”的理解,人类第一视角数据为习得物理常识提供了天然材料[8] - Generalist AI公司使用27万小时人类数据探索机器人领域的Scaling Law,并将物理常识称为机器人学中的“暗物质”[8] - 国内具身智能领域当前竞争焦点仍在使用大模型拟合真机或仿真轨迹数据(VLA路线),期望通过堆积轨迹数据实现“通用具身智能”[17] 公司战略:深度机智的核心理念与技术路线 - 公司成立于2025年上半年,由中关村人工智能研究院研究员陈凯创立,是该国家级科研共同体孵化的首家公司[8] - 创始团队在2024年底即洞察到人类第一视角数据即将爆发,并押注通过此类数据解码“物理常识”以找到具身大模型的Scaling Law[11] - 公司核心理念是实现“具身通用智能”,而非“通用具身智能”,强调智能是原生的,具身只是其在三维世界的表现形式[18][20] - 核心技术策略是“先理解,后执行”,即首先让机器人具备通用思考能力并深刻理解物理规律,然后再执行任务[21] - 公司已搭建一套涵盖数据、架构、算法的全栈技术矩阵[11] - 公司计划在2026年上半年将人类第一视角数据规模推进到百万小时量级,以探索物理常识Scaling Law的完全显现[43] 技术创新:数据策略与PhysBrain模型 - 公司构建了Egocentric2Embodiment翻译管道,将人类第一视角视频转码成包含任务规划、关键状态、动作与物理约束的结构化监督数据[25] - 利用该管道构建了E2E-3M数据集,并用其训练了具身大脑模型PhysBrain[27] - PhysBrain模型仅使用千小时规模的人类第一视角视频和部分通用VQA数据微调,不含任何机器人轨迹数据[28] - 在SimplerEnv四个未见于训练集的操作任务上,PhysBrain-8B版本取得67.4%的平均成功率,力压使用数万小时真机数据的行业标杆Pi0.5(57.1%),领先优势达10.3个百分点[27][28] - PhysBrain模型在仅学习“成功案例”的情况下,自发涌现出灵活策略和自动纠错能力,例如在任务中自主采用未在训练数据中出现的“推”的动作[29] - 该表现被归因于模型对物理交互的直觉式理解,而非依赖大量失败轨迹数据[30] 技术创新:TwinBrainVLA架构 - 为解决模型同时保持通用理解与精确动作的优化冲突,公司设计了“左右脑”同构架构TwinBrainVLA[31] - 架构包含一个被冻结的VLM模块作为“左脑”保持通用知识,一个可训练的“右脑”网络专攻机器人感知与动作,通过非对称混合Transformer机制进行信息交互[31] - 该设计实现了知识迁移而不遗忘,确保模型学会动作控制的同时不丧失通用理解能力[32] - 在SimplerEnv测试中,TwinBrainVLA在数据量远小于Pi0.5的前提下,将Qwen3-VL-4B的能力有效迁移至机器人控制,平均成功率达64.5%,超越Pi0.5的57.1%[32] 技术创新:LangForce算法 - 为克服模型训练中忽略语言指令、仅依赖视觉画面的“视觉捷径”问题,公司改进了训练算法[34] - 设计双分支架构,通过最大化仅看画面分支与同时看画面和指令分支的动作差异,强迫模型理解并执行语言指令的语义[34] - 该算法在不使用任何机器人真机轨迹数据预训练的情况下,以Qwen-3-VL为主干微调的模型在SimplerEnv四个任务上实现66.5%的成功率,领先Pi0.5近10个百分点[35] 技术集成与综合性能 - 将数据、架构、算法三方面创新融合训练的新模型PhysBrain1.0,在SimplerEnv测试中取得79.8%的平均成功率[37] - 该成绩超越行业标杆Pi0.5达22.7个百分点,也超过了之前成绩最好的Xiaomi-Robotics-0(79.2%),达到SOTA[37] - 在强调多阶段操作与长程规划的RoboCasa测试中,PhysBrain1.0仅使用千小时人类第一视角数据增强,便以58.1%的成功率拿下SOTA,超越Physical Intelligence(41.4%)、英伟达(48.4%)等对手[38] - 模型展现出跨本体泛化能力,使用人类视频和少量ALOHA机器人数据训练,但在Franka机器人真机平台上也能实现接近100%的抓取成功率[39] 竞争格局与行业影响 - 公司通过聚焦人类第一视角数据解码物理常识,开辟了一条数据效率更高、成本结构更优、规模化门槛更低的具身智能发展路径[42] - 该路径使得后来者难以仅靠堆叠算力或真机轨迹数据在短期内追平,形成了基于认知时差的先发优势[42] - 公司技术闭环包括人类视频结构化转译、左右脑异构架构、语言与动作对齐算法,彼此咬合,带来单点指标领先和整体路径优势[42]