数据采集

搜索文档
人形机器人也要“进校学习”?数据采集成必答题
21世纪经济报道· 2025-07-16 21:53
行业现状 - 真实场景数据稀缺制约具身智能行业发展,数据被认为是"卡脖子"问题 [1] - 不同于大语言模型可使用互联网数据,具身智能模型需专门采集视觉、触觉、力觉等多源异构数据 [1] - 单个场景训练需百万量级数据,行业早期缺乏高质量统一格式数据库 [4] 解决方案 - 德马科技与智元机器人合作建立全球首家人形机器人物流训练工厂,部署数十台机器人采集真实物流场景数据 [1] - 行业出现两种思路:英伟达等通过仿真数据生成,智元机器人等通过大规模真实数据采集厂 [4] - 企业搭建实景工厂依靠人工遥操采集真机数据,单个项目POC需2个月,高准确性需半年以上 [4] - 一套完整数据采集解决方案售价40万-50万元,包含机器人、硬件、软件、云服务等 [5] 市场动态 - 去年下半年以来具身智能数据采集厂密集落地,智元机器人数据采集中心2023年9月启用 [3] - 帕西尼具身智能超级数据工厂2024年6月投入运营 [3] - 合肥市具身智能机器人数据采集预训练场2024年6月启用 [1][4] - 国家地方共建人形机器人创新中心2024年1月启用全国首个异构训练场 [4] 政府参与 - 工业与人工智能产业发达地区政府主导建设公共服务平台数据采集中心 [5] - 政府平台采集数据归政府所有,积累后可提供给辖区企业使用 [5] - 青瞳视觉2023年开启人形机器人数据采集业务,覆盖政府、学校、企业端 [5] 行业挑战 - 硬件方案未收敛:轮式/双足方案、手部结构、传感器方案等尚未统一 [7] - 人形机器人快速迭代:每周模组修改,数月局部改造,半年更新一代 [7] - 当前数据采集集中在关节层,硬件不统一导致数据平台依赖性强、可复用性低 [7] - 本体精度问题和自由度不匹配导致真实数据采集精度不足,有效数据比例较低 [8]
入门具身离不开3个要素,数据+算法+本体
具身智能之心· 2025-06-23 21:54
具身智能技术核心要素 - 入门具身智能需掌握数据+算法+本体三大要素 其中数据采集依赖遥操和retargeting方案 机械臂适用VR遥操+动捕手套方案 成本20-30万[1] - 主流算法包括VLN、VLA、Diffusion Policy和强化学习 技术迭代快需持续跟踪论文[1] - 硬件配置分两档:实验室级20-30万本体 预算有限可采用3D打印或高性价比平台[1] 社区建设目标 - 计划3年内建成万人规模技术社区 已吸引斯坦福、清华等高校及智元、优必选等企业成员[6] - 构建学术+产品+招聘完整生态链 形成课程+硬件+问答的教研闭环体系[2] - 重点关注本体改进、数据采集效率提升、sim2real等前沿问题[2] 技术资源储备 - 汇总40+开源项目与60+数据集 覆盖机械臂抓取、双足机器人等23个技术方向[9] - 包含国内外50+高校实验室和具身公司信息 涉及教育、医疗等应用领域[6][14] - 整理机器人导航、动力学等专业书籍PDF及零部件厂商资料[18][20] 学习体系架构 - 设计16条专项学习路线 包括强化学习全栈、视觉语言导航等细分领域[9] - 建立多模态大模型技术矩阵 涵盖理解/生成/微调/部署全流程[40][42][44][51] - 提供仿真平台汇总 包含通用机器人和真实场景两类解决方案[28] 行业服务功能 - 定期组织行业大佬直播 内容可回看 主题覆盖前沿技术与产业应用[58][59] - 提供30家头部公司研报和岗位推荐 实现产学研直通[11][16] - 建立自由问答机制 解决研究方向选择等实际问题[62]
机器人数据采集助力智能化进阶
快讯· 2025-06-19 07:29
公司动态 - 智元数据采集中心在上海浦东运营 通过"数据+AI"提升机器人智能化水平 [1] - 自2024年9月启动以来 该中心已采集超百万条高质量数据 覆盖多种真实场景 [1] - 智元机器人开源了百万真机数据集AgiBot World [1] - 发布了通用具身基座模型GO-1 提升机器人学习效率 [1] - 今年4月推出Genie Studio平台 为开发者提供一站式解决方案 [1] - 预计2025年将进入量产化元年 推动产品商用 出货量达数千台 [1] - 公司已完成新一轮融资 支持其智能化进程 [1]
机器人动捕设备专家
2025-05-20 23:24
纪要涉及的行业和公司 - **行业**:机器人动捕设备行业 - **公司**:海外的 Tesla、Adesso;国内的小鹏汽车、腾讯、谥源公司 [4][13][16] 纪要提到的核心观点和论据 数据采集模式 - 四种主要模式为真实动捕训练本体、动捕结合虚拟引擎、纯动捕系统和模拟合成数据,有效数据比例差异显著,影响训练效果和成本 [1] - 真实动捕训练本体采集的数据最真实有效,但成本高,有效数据比例约 30% - 50%;动捕结合虚拟引擎成本低,一天可采集 15 - 20 分钟数据,但缺验证过程;纯动捕系统可采集大量数据,但有效数据比例低,映射效果待验证;模拟合成数据用于大规模训练,备受争论 [2] 海内外公司数据采集手段 - 海外公司如 Tesla 批量采购 Adesso 设备,采用真人动捕训练和虚拟仿真 DNF 模式 [1][4] - 国内公司多处于技术验证阶段,采用遥操动捕设备和少量设备结合真人动捕与虚拟 YDF 模式 [1][4] 数据有效性衡量 - 通过真人动作初步验证和机器人反向验证姿态衡量,行业内尚无统一标准,涉及多传感器信息融合确保评估结果可靠性 [1][5] 数据积累与复用 - 简单动作如抓水杯需 3 - 5 小时数据积累,通用泛化性需几十万甚至数百万小时 [5] - 数据复用关键在于重定向过程,将人的高自由度数据映射到机器人,难点是末端精度协调和自然衔接 [1][6] 数据采集效率与成本 - 数据采集效率极低,1300 秒数据需经验丰富动捕专家用上百万设备连续工作十几天,核心问题是虚拟本体软件不成熟,与真实物体交互有挑战 [1][6] - 数据采集成本按秒计算,有效数据每秒约 300 元,重复数据每秒约 60 元,预计未来 1 - 3 年成本降至 200 元左右,大量用学生参与有望降至百元以下 [3][14][22] 动作捕捉技术问题与解决 - 主要问题是映射问题,即人的动作和机器动作协调性,解决核心是提升数据映射算法,常用方法是舍弃姿态追求精度 [3][7][9] 数据工厂作用 - 可实现高效数据收集,一家企业建数据工厂可用上百到千套设备采集数据,每天采 3 万分钟,一年积累 300 多万分钟,建设需政府或大型企业牵头 [10] 数据采集优先级排序 - 根据客户需求和应用场景决定,如家政、厨房、护理、救援等领域,而非按具体动作分配 [11][12] 国内大厂数据采集方向 - 集中在家政、医疗、陪伴救援等方面,如搭建家政环境、偏生产环境、展示陪伴或家政类应用 [13] 机器人本体厂商结算 - 除购设备外,需支付数据采集费用,计费方式按秒或按条,一条数据 5 - 10 秒 [15] 动捕数据与传感信息融合 - 动捕数据与力控、视觉传感信息融合是互相验证和学习过程,动捕设备用于优化和验证视觉算法 [17] - 动补、力矩和触觉信息可三合一融合,如手套采集多种数据信息 [18] 数据采集模式对训练效果影响 - 真实设备驱动真实本体最有效,但成本高、过程慢;真实动捕设备驱动虚拟人体节省成本、增加采集量;其他方法简单但有效性可能欠缺 [19] 动捕数据应用流程 - 前期结合真人操作采集数据初步训练,接着用纯合成或纯动捕数据强化训练,再用真实人和真实数据进一步训练,最后通过动环设备检验学习情况 [20] 数据采集降本方式 - 通过批量化生产降低硬件成本,与学校合作利用廉价劳动力和场地,采用半买半送模式共享数据和利益分成 [21] 动捕设备精度与应用场景 - 当前动捕设备误差度在毫米级别,映射到机器人后仍有误差,未形成精度与应用场景一一对应关系 [23] 映射算法重要性 - 对机器人性能至关重要,影响最终数据精度和训练效果,多数企业自研或委托开发映射算法 [24] 其他重要但可能被忽略的内容 - 谥源公司下了 1000 套订单但未交付,2025 年绝大多数公司处于验证阶段,零散购买设备测试 [16] - 动补企业帮其他公司设计映射方案时面临理解人体 XYZ 轴向问题,部分公司前期自研无果后转向专业公司求助 [25]