深度机智（北京）科技有限公司创始人陈凯：用人类“第一视角”重构具身智能“大脑”

公司深度机智及其技术路径 - 公司致力于通过采集人类“第一视角”数据来提升具身智能基座模型的物理智能水平，旨在打造具身智能的“大脑” [1][2] - 公司技术路径独特，不依赖昂贵的动作捕捉设备和仿真环境预训练，而是直接采集人类在真实场景中的“第一视角”视频数据 [3] - 公司团队平均年龄30岁，博士占比超过60%，创始人陈凯在人工智能领域有15年经验，曾将AI模型分布式训练规模扩展至百卡以上 [1][3] 行业技术路径的验证与共识 - 2025年，特斯拉宣布将减少遥操和动捕数据使用，转向从人类“第一视角”视频学习，验证了该技术路线的可行性 [4] - 美国具身智能初创公司Figure AI通过进入真实场景采集人的数据，实现了机器人流畅的快递分拣等任务，其动作表现被推断为直接学习人类数据 [4] - 美国公司Generalist AI发布的GEN-0模型基于超过27万小时的真实物理世界操作数据预训练，初步验证了Scaling Law [5] - 美国公司Physical Intelligence的研究结论表明，基于大量机器人数据加上人类数据能大幅提升模型通用性，验证了人类“第一视角”多模态数据的有效性 [5][6] 数据采集规模与目标 - 公司目前每天的数据采集规模已超过1000小时，但每沉淀1万小时数据需要2至3周进行数据清洗 [7] - 公司计划在2026年上半年将数据量级冲刺至“百万小时”，以验证具身智能的Scaling Law [7] - 据估计，“百万小时”数据量级可将具身智能的通用性提升至5至6分（总分10分），而要达到10级“内功”则需要1000万小时以上的数据规模 [8][9] 行业发展现状与中美差距 - 2025年，中国具身智能的“通用性”水平被评估为1分左右（总分10分）[1] - 中国与美国在具身智能领域的技术差距在过去一年中在扩大，核心原因在于技术路径未收敛，许多中国公司采取保守策略 [10] - 中国的优势在于人类“第一视角”数据采集成本比美国低很多，且在数据多样性、规模和路径上更具优势 [10] 2026年行业展望与关键词 - 2026年行业发展的第一个关键词是“加速”，整个行业的进步会加速 [11] - 第二个关键词是“规模”，包括数据和模型规模的扩大，并且Scaling Law可能会被验证 [11] - 第三个关键词是“希望”，技术路径正在收敛，行业投入将加大，中美差距有望缩小甚至反超 [10][11]