Workflow
合成数据
icon
搜索文档
银河通用张直政:具身大模型的发展需要上万亿条数据
第一财经· 2025-09-11 15:33
具身大模型数据需求 - 具身大模型发展可能需要上万亿条数据 [1] 数据采集挑战 - 全部真实采集数据数量不够且不可持续 [1] 合成数据前景 - 合成数据成为不可避免的选择 [1]
合成数据的「毒」与「药」,模型崩溃有何新解?
机器之心· 2025-08-30 09:30
合成数据毒性研究新发现 - 合成数据在迭代训练中会导致逐代污染训练集 模型逐步丧失对真实数据分布的认识 输出同质化[2][5] - 早期崩溃阶段模型开始丢失分布尾部低概率事件的信息[5] - 晚期崩溃阶段模型收敛到与原始分布几乎无相似之处[6] - 崩溃发生与模型设计 学习过程及数据质量相关[7] - 崩溃现象发生于语言模型 变分自编码器VAE和高斯混合模型GMM等多种生成模型[8] - 斯坦福和哈佛研究认为模型崩溃风险被夸大 大多数崩溃实验基于非现实假设条件[8] - 现实应用中保持真实数据比例并采取正常训练流程可缓解崩溃问题[8] 合成数据在训练流程中的角色 - 业界建立系统化合成数据生成与应用框架 在风险与效用间寻求平衡[9] - 合成数据在预训练 微调 后训练 评估各阶段发挥功能[3] - 存在降低模型性能的情况需特别注意[3] 模型崩溃化解策略 - 提出Token-Level Editing 黄金比例混合和递归训练样本控制等方法解决崩溃问题[4] - 需量化合成数据带来的信息增益以保证模型泛化能力[4]
清华大学张小劲谈数据标注:高质量数据集走到哪,AI就到哪
南方都市报· 2025-08-29 14:50
行业发展趋势 - 数据标注产业进入新战略阶段 行业逐步完善并走向成熟 催生新职业和职业技能标准 [3] - 传统人工标注市场竞争激烈且内卷化 用工需求规模大且流动性高 [4] - 未来大模型将带动标注工作 智能检测和工具优化成为长远发展方向 [4] - 合成数据领域发展值得关注 通过AI数据搭接适应发展需求 [5] 地域与行业分布 - 用工需求从低成本地区向经济发达地区和人工智能前沿领域转移 [4] - 河南、四川等人力资本丰富地区呈现活跃发展态势 [4] - 行业主要集中在信息技术和科学研究领域 人工智能先导研究行业用工需求最旺盛 [4] 企业分类与发展模式 - 数据标注企业可通过2×2矩阵按场景强度和基础强度划分为双强、双弱、偏强、偏弱四种类型 [5] - 具身机器人行业发展较好 技术具有引领性 [5] - 大型产业和企业拥有更多专业力量开发模型并进行数据标注 [5] - 国外场景团队专注于垂直场景的数据采集和标注 [5] - 外包团队和众包团队提供灵活低成本劳动力 众包团队在小众场景创新方面具有优势 [5] 发展战略建议 - 推进AI辅助标注与全自动化标注技术 使产业从劳动密集型向知识密集型转变 [8] - 建立多轮质检与反馈机制 完善质控体制 精准淘汰劣质数据 [8] - 开发行业针对性标注系统 利用中国丰富应用场景和数据资源推动垂直细分领域发展 [8] - 深化校企合作加速技术转化 推动行业标准制定 [9] - 强化技能培训优化人力配置 建立质量追踪机制提升从业人员专业技能 [9] 核心发展理念 - 大模型人工智能与高质量数据集形成相辅相成、双轮驱动的格局 [1][6][8] - 人工智能+行动到哪里 高质量数据集就走到哪里 [6] - 高质量数据集走到哪里 人工智能就走到哪里 [1][6][8]
打破瓶颈,让RAG学会思考:中科大、智源等发布推理检索框架BGE-Reasoner
机器之心· 2025-08-27 16:36
核心观点 - BGE-Reasoner在推理密集型信息检索领域取得突破性进展 以45.2分刷新BRIGHT基准纪录 领先第二名3.6分[2][12][14] - 该技术通过三阶段模块化框架解决复杂查询问题 显著提升RAG和AI Agent在深度研究场景的推理能力[3][8][19] - 创新性采用大模型合成数据与强化学习技术 突破训练数据稀缺和困难样本泛化的行业瓶颈[4][5][22] 技术架构 - 提出可复制的三模块框架:Rewriter实现查询理解与改写 Embedder负责向量检索 Reranker进行精排[3][19][24] - 基于Qwen系列模型微调:Rewriter采用Qwen2.5-7B-Instruct Embedder基于Qwen3-8B Reranker基于Qwen3[21][22] - 端到端工作流程:原始查询经改写后 由Embedder与BM25并行检索 最终通过Reranker输出排序[19][24] 性能表现 - 在BRIGHT基准取得45.2分 超越蚂蚁集团DIVER(41.6分)和百度ReasonRank(40.8分)等竞争对手[12][14] - 向量模型BGE-Reasoner-Embed获得32.5分 显著优于Seed1.5-Embedding(27.2分)和Qwen3-Embedding等基线[12][15] - 测试时扩展技术增强排序稳健性 强化学习提升困难样本推理能力[5][22] 数据创新 - 利用大模型合成多领域训练数据 覆盖数学与代码等推理密集型场景[4][21] - 通过教师模型生成推理路径 采用拒绝采样策略构建高质量训练样本[21] - 合成数据有效解决行业数据稀缺瓶颈 验证于BRIGHT基准的显著性能提升[4][22] 行业影响 - 推动RAG技术在复杂推理任务发展 解决AI Agent智能化的核心难题[2][8] - 模型权重与训练代码即将开源 促进检索与人工智能领域研究应用[6][25] - 由中科大 智源研究院 北邮与港理工联合研发 体现中国在AI前沿领域的创新能力[2][25]
中信证券:短期建议关注具身模型行业的资本布局者及数据采集卖铲人
第一财经· 2025-08-25 08:58
模型架构发展 - 大语言模型、大型视觉模型与动作模型融合是当前架构主旋律 [1] - 基于扩散模型的流匹配算法在短期逐渐占据主导地位 [1] 数据战略竞争 - 强资本开支企业以真实数据采集为突破口构建竞争壁垒 [1] - 合成数据及互联网数据因规模化与泛化属性成为重要价值底色 [1] - 数据样方理念持续兴起 预训练及后训练需与数据属性有机结合 [1] 技术赋能方向 - 世界模型对合成数据和策略评判具备规模化赋能潜力 [1] 投资关注重点 - 短期建议关注具身模型行业资本布局者及数据采集卖铲人 [1] - 长期维度建议关注云计算及算力提供者 [1]
院士孵化,机器人合成数据公司获合肥国资A轮融资丨早起看早期
36氪· 2025-08-22 08:21
公司融资与背景 - 公司完成A轮融资 由合肥高投领投 合肥创新投 安徽省创投 科大硅谷基金 青岛西海岸人才生态产业集团跟投 帕累托森林担任独家融资财务顾问[5] - 所融资金将用于合成数据生成技术 持续学习框架及世界模型的研发 加快在自动驾驶 工业场景与具身机器人领域的应用[5] - 公司成立于2019年 由2000年图灵奖得主姚期智院士孵化 总部位于合肥高新区[5] - 公司已完成四轮融资[5] 业务与产品 - 公司专注数据采集-数据处理-仿真训练闭环工具链[4][5] - 推出三大核心产品 数据采集系统Oasis Rover 数据平台Oasis Data 仿真系统Oasis Sim[5] - 服务自动驾驶 机器人及工业数字孪生三大场景[5] - 高保真仿真与合成数据软件产品是主要创收产品 客户以车企和研究院所为主[10] - 已与10余家头部车企与工业企业达成合作[10] 行业痛点与解决方案 - 工信部要求L3+车型完成1000万公里等效测试 传统人工建模100万公里需6个月 成本高昂且极端场景覆盖率不足[7] - 核电 港口等工业场景面临数字孪生精度低 跨场景适配成本高的痛点[7] - AI训练中人工标注数据存在局限 效率难以匹配需求增长 成本较高 数据量增加时标注质量可能下降[7] - 公司通过合成数据技术解决行业痛点 AI训练数据组合将从99%真实数据+1%合成数据转向1%真实数据牵引+99%合成数据主导[7] 核心技术 - 持续学习框架通过真实数据种子→多智能体动态对抗→自主泛化迭代闭环 实现场景真实性 挑战性与多样性[8] - 依赖Oasis Rover设备采集相关时序数据 将仿真环境元素建模为对抗智能体进行动态博弈 自主生成海量泛化场景 场景难度可随算法性能调整[8] - 世界模型融合多种技术 构建几何-物理-语义一致的数字孪生系统 包括环境动态建模 多智能体交互预测及虚实融合校准等环节[10] - 在与某头部汽车公司合作中 基于上述技术的合成数据使自动驾驶算法测试效率提升210万倍[10] 技术应用与验证 - 合成数据技术在自动驾驶领域覆盖传统路测难以触及的场景[10] - 在工业场景模拟设备老化与故障演化 提升调度算法效率[10] - 在机器人领域复用相关技术模拟物理交互 拓展应用场景[10] 财务表现与增长 - 去年公司营收成倍增长[10] - 预计今年在去年基础上实现数倍增长目标[10] 团队构成 - 公司现有团队80人 其中研发团队10%是美国宾夕法尼亚大学 加州大学洛杉矶分校等海外顶级名校博士[11] - 核心成员多具备计算机 物理学等相关专业背景 在自动驾驶 人工智能 仿真建模等领域拥有深厚积累[11] - 创始人兼CEO杨子江为美国宾夕法尼亚大学博士 现任中科大教授 发表数十篇CCF A类论文 担任IEEE自动驾驶标准组副主席[11] - 顾问团队包括Moshe Vardi院士等 形成产学研结合的研发体系[11]
英伟达回应美国政府向特许对华出口AI芯片征收15%“交易许可税”;OpenAI CEO呛声马斯克丨AIGC日报
创业邦· 2025-08-13 08:07
英伟达对华AI芯片出口政策 - 美国政府向英伟达特许对华出口的AI芯片H20 GPU征收15%营收作为交易许可费 最初要求20% 经协商降至15% [1] - 英伟达回应称遵守美国政府规则 将继续在规则范围内为全球客户提供服务 [1] OpenAI与马斯克争议 - OpenAI CEO Sam Altman转发马斯克帖文 希望对其操纵X平台行为展开反调查 [2] - Altman引用2023年媒体文章 指控马斯克曾施压推特团队提升自己推文权重 [2] 英伟达机器人技术进展 - 推出NVIDIA Omniverse库和Cosmos世界基础模型 加速机器人解决方案开发 [3] - 新技术由RTX PRO服务器和DGX Cloud支持 可开发数字孪生 生成合成数据 构建物理AI智能体 [3] 华为AI推理技术创新 - 发布UCM推理记忆数据管理器 以KV Cache为中心的推理加速套件 [4] - 技术可扩大推理上下文窗口 实现高吞吐低时延 已在中国银联三大业务场景试点应用 [4]
英伟达、宇树、银河通用问答:未来10年机器人如何改变世界
21世纪经济报道· 2025-08-12 06:20
行业趋势与市场潜力 - 计算机和IT产业过去三四十年主要影响"信息空间",规模约5万亿美元,而全球产业总量超过100万亿美元,更大的价值在于触达物理世界的"原子"领域(如交通、制造、物流、医疗)[1] - 人工智能的出现使机器具备"物理智能"能力,计算机力量将进入100万亿美元的物理世界市场,机器人是实现这一跃迁的桥梁[1] - 中国在人工智能领域具备独特优势,全球近一半人工智能研究人员和开发者在中国,拥有无可匹敌的电子制造能力和大规模制造业基础[2] - 人形机器人市场潜力巨大,预计未来每三年产值乘10,头部企业从1000台增长到10万台,单价几十万元可达1000亿元产值,超过工业机械臂总产值[4] - 未来10年机器人市场可能超越当前所有工业机器人量,再往后10年可能超越汽车手机市场的万亿规模[4] 技术发展与创新 - 推动机器人发展和物理AI落地需要构建三类计算机:嵌入机器人本体的计算机(如Jetson Thor)、AI工厂计算机(如DGX、HGX系统)、仿真计算机[2] - 合成数据是推动具身智能快速落地的关键,真实世界数据仅占训练数据的1%,其余99%为合成数据[3] - 人形机器人设计本质由若干关节电机串联而成,未来通用AI成熟后硬件要求会越来越低,制造人形机器人可能像组装电脑一样简单[3] - 仿真平台(如Isaac Sim)可优化机器人运动与操控能力,Isaac Lab系统实现快速策略迭代[2] - 灵巧手研发是重点,已开发约20自由度的灵巧手,目标让机器人执行日常任务而非展示性动作,未来1-2年实现自然交互[3] 企业合作与产品进展 - 宇树科技和银河通用与英伟达合作,银河通用G1 Premium人形机器人首批搭载NVIDIA Jetson Thor,在工业码垛、拆垛等场景表现优异[2] - 宇树科技新型人形机器人R1部署英伟达全栈机器人技术,通过仿真平台优化能力[2] - 宇树科技去年推出9.9万元人形机器人,今年新版本售价约3.9万元,支持外观定制,预计年底前完成量产[3] - 宇树科技发布A2机器狗,自重37千克,持续负载30千克,空载续航20公里[3] - 银河通用与英伟达合作下一代人形机器人项目,从轮式形态转向纯双足设计,基于OpenWBT_Isaac平台进行数据采集与遥控控制[3] 商业化路径与展望 - 机器人规模化部署需要顶层算力与仿真能力构建技术底座、成本可控且可量产的硬件工程、合成数据驱动的大规模训练体系[4] - AI与机器人技术将像电力与蒸汽机的发明一样,推动人类文明迈向新高度[4] - 通用机器人将成为下一个价值数万亿美元、数万亿元人民币市场的革命性产品,核心要素包括机器人本体和具身智能模型[3]
AI浪潮下,具身智能的崛起与数据瓶颈
钛媒体APP· 2025-08-11 11:48
具身智能行业现状 - 国内外科技大厂纷纷布局具身智能领域,数亿级融资频繁 [1] - 世界机器人大会(WRC 2025)展示200余家企业的产品落地能力,包括宇树科技Unitree G1机器人拳击赛、银河通用机器人Galbot零售场景应用等 [1] - 行业技术路径从大语言模型(LLM)向多模态模型(VLA)演进,推动机器人复杂交互能力 [4] 具身智能技术定义 - 具身智能通过实体产品(如机器人)实现"感知-行动"学习,模拟人类与环境交互的决策能力 [2] - 与非具身智能(如AlphaGo)相比,具身智能强调物理世界实践性学习,而非纯数据驱动的概念性学习 [2] - 上海交通大学教授卢策吾提出"第三人称智能"与"人类视角智能"的区分框架 [2] 数据瓶颈与挑战 - 行业面临多模态数据稀缺问题,主因是采集成本高(需视觉/触觉/力觉等传感器)和规模不足 [5][7] - 数据孤岛现象严重:企业间数据格式不统一且因隐私/成本拒绝共享,导致重复投入和资源浪费 [8] - 合成数据使用比例达80%-90%(具身智能领域),显著高于自动驾驶的30%-40% [10] 合成数据应用 - 合成数据通过Sim-to-Real技术模拟虚拟环境,成本比真实数据低且无需人工标注 [9] - 局限性包括可能生成不合理场景,环境细节差异(如光照)易导致AI行为偏差 [12] - 当前主流策略是"合成数据为主+真实数据为辅",需对齐时空维度以优化训练效果 [12] 商业化前景 - 人形机器人被视为具身智能最佳载体,但量产落地仍需数年时间 [12] - 训练成本和生产成本过高是制约商业化进度的核心因素 [12] - 行业仍处训练阶段,未来生产力将决定竞争格局 [12]
事关人形机器人,英伟达、宇树科技、银河通用罕见同框发声,信息量很大
21世纪经济报道· 2025-08-11 07:56
行业趋势与市场前景 - 物理AI将连接信息世界与物理世界,打开100万亿美元规模的物理产业市场[4] - 人形机器人产值预计每三年增长10倍,10年内市场规模将超越工业机械臂(当前1000亿元),20年内或达万亿级[14][29] - 中国具备发展优势:全球近50%AI人才集中、电子制造能力领先、大规模测试场景丰富[4][34] 技术突破与产品进展 - 英伟达提出三类关键计算机:机器人本体计算机(如Jetson Thor)、AI工厂计算机、仿真计算机[5] - 宇树科技人形机器人R1售价降至3.9万元,支持定制并计划年底量产;A2机器狗负载30kg续航20km[6] - 银河通用G1 Premium搭载Jetson Thor,工业场景搬运速度接近人类水平[5][18] 仿真与数据驱动 - 合成数据占比达99%,是具身智能落地的核心[6][28] - 仿真技术可解决高危场景训练难题(如自动驾驶避让儿童),但需提升速度与成本效益[8][20] - 英伟达通过AI加速仿真(Cosmos项目)、环境数字化、物理参数生成三路径缩小Sim2Real差距[21][22][23] 商业化挑战与路径 - 硬件成本非主要障碍,核心瓶颈在于具身智能模型的泛用性与实用性不足[11][12] - 工业场景优先落地:搬运/码垛技术接近商用,分拣效率仍需突破[18][19] - 家用领域受限于伦理安全要求,普及周期更长[17] 企业战略与合作 - 英伟达Jetson Thor提升神经网络计算能力与传感器数据处理带宽,专为复杂机器人任务优化[15][33] - 宇树科技探索视频生成模型作为世界模型,谷歌成果验证该方向潜力[24][25] - 银河通用聚焦抓取/移动/放置三大能力,目标识别技术依赖合成数据驱动[29][31]