Workflow
白虎数据集
icon
搜索文档
全国首个!“上海虚实融合具身智能训练场”国家级标准化试点落沪
观察者网· 2025-09-30 12:59
项目概况 - 全国首个面向具身智能领域的国家级标准化试点项目“上海虚实融合具身智能训练场标准化试点”正式获批立项 [1] - 项目由人形机器人(上海)有限公司(国家地方共建人形机器人创新中心)牵头承担 [1][4] - 项目采用“1+N”协同推进模式,以上海国地中心主训练场为核心,联合河南、江苏、北京石景山、深圳、重庆、河北、陕西、吉林等全国各分训练场共同开展标准化建设 [1] 标准体系建设目标 - 计划围绕具身智能训练场制定80项以上紧缺亟需标准 [1][5] - 构建“基础+特色”双层标准体系,基础层夯实企业标准,特色层围绕实体物理场、虚拟训练场、本体及部组件、场景应用四大领域 [5] - 推动标准在全国各分训练场开展验证实施与迭代优化,为行业树立“统一标尺” [1][5][7] 国家层面标准制定进展 - 牵头《人形机器人数据集 第2部分:上肢操作》等首批人形机器人数据集系列国家标准,并积极推动其转化为国际标准 [8] - 联合华为云牵头制定《人工智能 具身智能数据生成平台技术要求》,计划向行业开放千万级高质量合成数据集 [8] - 联合国家机器人检测与评定中心协同制定一体化关节、数据、整机性能等标准规范,国地中心“白虎”数据集率先通过CR-3-06:2025认证,获首批人形机器人数据集CR证书 [8] - 深度参与首批《人形机器人技术要求》系列、《人形机器人仿真测试平台技术要求》等国家标准 [8] - “白虎数据集——人形机器人具身操作数据集”入选高质量数据集典型案例面向全国公布 [8] 行业层面标准制定进展 - 牵头制定的《人形机器人 关键技术 训练数据管理要求》、《人形机器人 整机与系统 训练场环境构建技术规范》已进入征求意见阶段 [10] - 联合牵头《人工智能关键技术 具身智能 数据质量要求及评价方法》,并在国地中心主训练场实施标准验证,获得我国首个具身智能数据集权威认证 [10] - 深度参与《人工智能关键技术 具身智能 基准测试方法》,作为AIIA具身智能工作组副组长单位合作共建“可信AI-具身智能基准测试(EAI Bench)任务库” [10] 主分训练场联动与数据产能 - 2025年计划归集真机高质量数据15万小时,年产能预计超百万小时 [11] - 河南分训练场一期日采集真机数据超5万条,建设27个高度拟真场景深度融合本地12大传统产业 [11] - 北京训练场场地规模超1万㎡,部署上百台异构机器人,年产数据超600万条 [11] - 重庆分训练场年数据采集能力达3PB,支持异构机器人并发训练 [11] - 江苏吴江分训练场部署30台“夸父”机器人,年数据超200万条,覆盖8大场景 [11] - 深圳分训练场在示范作业、训练和检测等场景日处理数据50TB [11] 产业生态合作 - 国地中心联合上海电气、张江集团、上电科、库帕思、傅利叶智能等约40家生态伙伴,构建“标准共研 - 检测验证 - 标杆共建”具身智能生态圈 [13] - 生态圈内通信企业验证R2C等规范,数据企业完善数据标准,机器人企业测试整机、部组件标准,场景企业落地标杆项目 [13] - 加速100项关键标准迭代,支撑试点“标准统一、生态共建”目标 [13]
赋能千行百业加快形成新质生产力 龚正调研人工智能产业 要求立足上海优势锻造核心竞争力
解放日报· 2025-09-18 09:40
文章核心观点 - 人工智能是上海构筑未来发展优势的关键产业 需要推动科技创新与产业创新深度融合 支持经营主体抢抓产业变革机遇 实现从要素集聚到价值引领的关键跃升[1] - 政府部门需持续优化营商环境 在融资对接、人才引进、场景开放方面给予企业更大支持 加快培育世界级高端产业集群[2] 产业发展与战略布局 - 上海将对标全球顶尖水平谋篇布局 立足自身优势锻造核心竞争力 为加快建设具有国际竞争力的人工智能创新高地展现更大作为[1] - 张江人工智能创新小镇正加速打造世界级的人工智能创新策源地和产业化枢纽 依托张江科学城的产业基础[1] - 需营造一流产业生态以培育吸引一流企业 持续强化全要素赋能 主动为企业链接算力、数据、资本、人才、空间等要素[1] - 需集聚政产学研金服用资源 推动创新链、产业链、资金链、人才链同向发力 加快形成商业闭环[1] 技术创新与应用转化 - 国家地方共建的人形机器人创新中心通过体制机制创新 鼓励各类研究力量不拘一格 加速实现从0到1的颠覆性创新和从1到N的高效能转化[2] - 需聚焦技术创新的关键环节 瞄准产业应用的真实需求 强化底层共性技术供给 打造更多带动性强、影响力大的标杆应用场景[2] - 在赋能千行百业中加快形成新质生产力[2] - 企业是创新的主力军 人工智能赛道潜力巨大 鼓励企业抢抓机遇敢于向价值链顶端迈进[2] 企业案例与实地调研 - 调研地点包括模力社区 详细了解张江人工智能创新小镇的创新孵化、产业集聚、商业办公、人才服务情况[1] - 调研国家地方共建的人形机器人创新中心 察看人形机器人麒麟训练场 观摩青龙人形机器人、白虎数据集、OpenLoong开源社区及华为长序列任务场景训练[2] - 调研上海岩山科技股份有限公司 该公司深耕浦东20余年 近年来将人工智能业务作为公司发展新战略 察看了企业在大模型、脑机接口等领域的创新成果[2]
推动科技创新与产业创新深度融合,支持经营主体抢抓产业变革机遇!上海市市长龚正调研人工智能产业
上海证券报· 2025-09-17 21:51
政府战略定位 - 人工智能是上海构筑未来发展优势的关键产业 需对标全球顶尖水平谋篇布局 [1] - 推动科技创新与产业创新深度融合 支持经营主体抢抓产业变革机遇 [1] - 推动创新链、产业链、资金链、人才链同向发力 加快形成商业闭环 [1] 产业生态建设 - 张江人工智能创新小镇正加速打造世界级的人工智能创新策源地和产业化枢纽 [1] - 营造一流产业生态以培育吸引一流企业 需强化算力、数据、资本、人才、空间等全要素赋能 [1] - 政府部门需持续优化营商环境 在融资对接、人才引进、场景开放方面给予企业更大支持 [2] 技术创新与应用 - 国家地方共建的人形机器人创新中心通过体制机制创新 加速实现从0到1的颠覆性创新和从1到N的高效能转化 [2] - 需聚焦技术创新关键环节 强化底层共性技术供给 打造带动性强、影响力大的标杆应用场景 [2] - 企业是创新主力军 人工智能赛道潜力巨大 应鼓励企业敢于向价值链顶端迈进 [2]
推动科技创新与产业创新深度融合,支持经营主体抢抓产业变革机遇!龚正调研人工智能产业
第一财经· 2025-09-17 20:34
人工智能产业战略定位 - 人工智能是上海构筑未来发展优势的关键产业 [1] - 推动科技创新与产业创新深度融合 实现从要素集聚到价值引领的关键跃升 [1] - 对标全球顶尖水平谋篇布局 立足上海优势锻造核心竞争力 [1] 产业生态与要素支持 - 营造一流产业生态以培育吸引一流企业 强化算力、数据、资本、人才、空间等全要素赋能 [1] - 集聚政产学研金服用资源 推动创新链、产业链、资金链、人才链同向发力 [1] - 政府部门需持续优化营商环境 在融资对接、人才引进、场景开放方面给予企业更大支持 [2] 技术创新与应用场景 - 鼓励研究力量不拘一格 加速实现从0到1的颠覆性创新和从1到N的高效能转化 [2] - 聚焦技术创新关键环节 瞄准产业应用真实需求 强化底层共性技术供给 [2] - 打造带动性强、影响力大的标杆应用场景 在赋能千行百业中加快形成新质生产力 [2] 具体项目与企业案例 - 张江人工智能创新小镇加速打造世界级人工智能创新策源地和产业化枢纽 [1] - 国家地方共建的人形机器人创新中心由国资骨干企业联合行业头部企业成立 [2] - 上海岩山科技股份有限公司将人工智能业务作为公司发展新战略 布局大模型、脑机接口等领域 [2]
重磅︱国地中心发布首个权威认证百万规模异构数据集—“白虎”,打造具身智能机器人训练数据新标杆!
机器人大讲堂· 2025-06-02 20:52
数据集发布背景与意义 - 机器人智能向自主化、通用化发展,数据的战略地位日益凸显,具身智能模型的泛化能力是制约机器人从“特定任务执行器”向“通用智能体”跃升的关键瓶颈 [1] - 仅依赖同质、封闭式、极度垂直的数据来源难以支撑机器人系统的快速迭代与泛化能力突破 [1] - “白虎”数据集于2025年5月29日在2025张江具身智能开发者大会上正式发布,旨在破解机器人行业及具身智能领域的数据瓶颈难题 [1] 数据集核心特点与规模 - “白虎”数据集是全球首个规模突破百万量级的异构机器人数据集,数据于2025年初在全球首个异构人形机器人训练场完成采集 [1] - 数据集数据源自真实应用场景,全面覆盖多种全尺寸人形机器人、类人形轮式机器人以及机械臂等异构平台 [1] - 数据集已通过中国信息通信研究院的具身智能数据集质量评估,获得官方颁发的《数据集质量检测报告》及《具身智能数据集质量评估证书》,成为我国首个获得信通院权威认证的具身智能机器人数据集 [2] 跨平台异构融合 - 数据集打破了基于孤立平台进行数据采集和模型训练导致的格式割裂、标准不统一问题,建立了可适配多种机器人本体数据以及人体运动数据的闭环链路 [5] - 数据集涵盖了多款机器人本体,包括国地中心青龙、PortaGrip便携式采集设备、智元A2-D、智元A2、星海图R1、傅利叶GR-2、乐聚夸父等平台 [7] - 具体数据占比为:青龙约33.7%,便携式采集设备约5.9%,智元A2-D约28.2%,智元A2约9.3%,星海图R1约13%,傅利叶GR-2约3.8%,乐聚夸父约1.5%,另包含约2.9%的动捕人体运动数据 [7] 多场景真实模拟 - 数据集围绕五大主要应用场景系统构建,全面覆盖机器人在现实生活与生产中的关键应用领域 [8] - 多场景设计可显著提升模型的环境感知与跨场景泛化能力,为机器人在复杂现实环境中的稳定应用与协作提供数据支撑 [8] 多任务协同训练 - 数据集构建了多维度任务体系,通过抓取、放置、递接等原子技能的组合调度实现任务结构化拆解,形成多层级、可跨场景复用的机器人能力框架 [12] - 数据采集横跨多个代表性机器人本体,每一平台均执行多种任务类型,并在不同真实场景中完成,实现了多本体、多任务、跨场景的系统性数据构建 [12] 多样目标物交互 - 数据集构建了跨场景、跨任务的操作目标体系,覆盖上百类具有代表性的真实物体 [14] - 物体来源广泛,包括家庭日用品、厨房器具、商超商品、物流包裹、工业构件、工具部件,以及柔性材料与非规则形态物品,在形状、尺寸、重量、材质等方面高度多样 [14] 多时间尺度覆盖 - 数据集通过对任务执行过程的全程记录,构建了涵盖短中长多尺度时间跨度的轨迹数据体系 [16] - 短程轨迹涉及抓取、点击等动作,中长程轨迹涵盖递交、开关等任务,长程轨迹对应清洁打扫、上下料等连续复杂操作,层级化设计促进了模型对动作节奏和时序逻辑的理解 [16] 原子技能体系 - 数据集系统性规范化标注了百余种原子技能,如抓取、推动、拉取、递交、放置、插入等,作为具身智能机器人复杂操作的最基础单元 [26] 质量控制与工具链 - 国地中心采取了全面的数据质量控制措施,通过系统化设计的采集流程管理,结合相关标准建立了全方位的数据质量检测体系 [28] - 数据集配套提供完备的数据工具链,用户可快速查看各类具身数据,包括具体数值、关节运动曲线、相关图像及视频内容,并配套提供Python SDK,可实现与LeRobot开源框架的数据格式便捷转换 [30] 应用成效与行业影响 - 基于主流具身智能算法模型的系统性实验评估测试显示,相比单一本体数据集,跨本体任务迁移成功率提升超50% [33] - 复杂操作任务执行成功率最高达95%以上,在未见物体、未见任务、未见场景的零样本任务中,首次执行成功率最高可达到85% [33] - 数据集攻克了数据体量、工程标准、应用广度与智能深度四大关键领域的难题,通过统一结构和严格质量流程,解决了行业数据割裂与标准不一问题 [35]