多模态数据标注大模型
搜索文档
对话博登智能赵捷:工业级的“数据炼金师”有多重要?
观察者网· 2025-08-12 16:19
文章核心观点 - 数据是人工智能与具身智能发展的核心壁垒与底层燃料,其质量和规模直接决定技术突破和产业落地的进程 [1][4] - 公司作为专业数据处理服务商,通过自主研发的多模态数据标注大模型,将数据处理升级为智能流水线,为自动驾驶、具身智能等领域提供高质量数据支撑 [4] - 具身智能对数据的需求在复杂性、维度和实时性上远超传统AI模型,需借鉴自动驾驶经验,采用真实数据与合成数据结合的方式应对挑战 [5] - 人形机器人行业处于商业化元年,其普及有赖于供应链成本降低,中美在AI数据生态上的差距正在快速缩小 [6] 数据在AI竞争中的核心作用 - 高质量、专业化、工业级的数据是AI突破的关键支撑,早期行业数据供给停留在手工作坊阶段,难以满足AI模型对规模化、高精度数据的需求 [4] - 公司将自身定位为数据炼金师,旨在通过技术创新提炼数据的纯度与价值,其多模态数据标注大模型可同时处理文本、图像、音频、视频等复杂数据 [4] - 数据质量正成为AI落地阶段的关键壁垒,Meta收购Scale AI等案例印证了这一趋势,硅谷已有三家华人创建的数据公司去年营收接近10亿美金 [4] 具身智能对数据的新需求与技术路径 - 具身智能需要支撑智能体在物理世界进行感知、决策与行动,其数据需应对真实世界的复杂性、动态性与长尾场景,数据逻辑与智能驾驶相通 [5] - 数据需求维度远超大语言模型,例如一个正常的抓取动作可能需要上百万条相关数据,经过采集、标注、仿真训练才能移植到机器人本体 [5] - 解决方案是借鉴自动驾驶经验,针对长尾场景采用合成数据方式,在3D物理环境模型中通过算法模拟罕见场景,结合真实数据与合成数据 [5] - 实现具身智能需要范式更新,包括从数据驱动转向交互驱动、从单一模态转向跨模态融合、从高算力依赖转向轻量化实时性、从单纯学习转向强化学习与认知推理结合 [5] 行业未来展望与发展趋势 - 人形机器人行业在2025年进入商业化元年,市场前景广阔,应用场景将从工业拓展至商业、服务等多个领域 [6] - 行业普及路径可参考智能驾驶,激光雷达成本从10万美金降到几千人民币推动了普及,人形机器人也需等待供应链成本降低 [6] - 在数据安全与治理方面,可在早期数据集建立中设置规范,屏蔽非主流价值观数据,并在模型使用阶段加强检测与迭代 [6] - 对比中美数据生态,美国在大语言模型发展上领先,但近一两年中国公司加大投入,差距正在快速缩小 [6]