公司深度机智及其技术路径 - 公司致力于通过采集人类“第一视角”数据来提升具身智能基座模型的物理智能水平,旨在打造具身智能的“大脑” [1][2] - 公司技术路径独特,不依赖昂贵的动作捕捉设备和仿真环境预训练,而是直接采集人类在真实场景中的“第一视角”视频数据 [3] - 公司团队平均年龄30岁,博士占比超过60%,创始人陈凯在人工智能领域有15年经验,曾将AI模型分布式训练规模扩展至百卡以上 [1][3] 行业技术路径的验证与共识 - 2025年,特斯拉宣布将减少遥操和动捕数据使用,转向从人类“第一视角”视频学习,验证了该技术路线的可行性 [4] - 美国具身智能初创公司Figure AI通过进入真实场景采集人的数据,实现了机器人流畅的快递分拣等任务,其动作表现被推断为直接学习人类数据 [4] - 美国公司Generalist AI发布的GEN-0模型基于超过27万小时的真实物理世界操作数据预训练,初步验证了Scaling Law [5] - 美国公司Physical Intelligence的研究结论表明,基于大量机器人数据加上人类数据能大幅提升模型通用性,验证了人类“第一视角”多模态数据的有效性 [5][6] 数据采集规模与目标 - 公司目前每天的数据采集规模已超过1000小时,但每沉淀1万小时数据需要2至3周进行数据清洗 [7] - 公司计划在2026年上半年将数据量级冲刺至“百万小时”,以验证具身智能的Scaling Law [7] - 据估计,“百万小时”数据量级可将具身智能的通用性提升至5至6分(总分10分),而要达到10级“内功”则需要1000万小时以上的数据规模 [8][9] 行业发展现状与中美差距 - 2025年,中国具身智能的“通用性”水平被评估为1分左右(总分10分)[1] - 中国与美国在具身智能领域的技术差距在过去一年中在扩大,核心原因在于技术路径未收敛,许多中国公司采取保守策略 [10] - 中国的优势在于人类“第一视角”数据采集成本比美国低很多,且在数据多样性、规模和路径上更具优势 [10] 2026年行业展望与关键词 - 2026年行业发展的第一个关键词是“加速”,整个行业的进步会加速 [11] - 第二个关键词是“规模”,包括数据和模型规模的扩大,并且Scaling Law可能会被验证 [11] - 第三个关键词是“希望”,技术路径正在收敛,行业投入将加大,中美差距有望缩小甚至反超 [10][11]
深度机智(北京)科技有限公司创始人陈凯:用人类“第一视角”重构具身智能“大脑”
每日经济新闻·2026-01-20 20:36