Workflow
合成数据
icon
搜索文档
智源2026十大趋势预测:AI在物理世界「睁眼」
搜狐财经· 2026-01-09 00:08
核心观点 - 人工智能正经历从预测文本到预测世界状态的根本性转变,其发展路径日益清晰,即真正融入实体世界,解决系统性挑战 [1][17] 世界模型与认知范式 - 行业共识正从单一的语言模型转向能够理解物理规律的多模态世界模型 [3] - Next-State Prediction范式的确立标志着AI开始尝试预测世界的下一个状态,跨越感知边界,触碰真正的认知与规划 [3] 具身智能与机器人 - 具身智能正在告别单纯的演示炫技,进入残酷而真实的产业筛选期 [4] - 随着大模型与精细运动控制的深度结合,人形机器人将在2026年突破Demo的限制,真正走入工厂与服务场景 [5] 多智能体系统 - Agent时代的通信标准如MCP、A2A等初具雏形,让智能体之间拥有了通用的交流语言 [6] - 多智能体系统将彻底突破单体智能的天花板,在科研与工业的复杂工作流中成为未来数字世界不可或缺的基础设施 [6] AI驱动科学研究 - AI在科学中的角色已从辅助者晋升为探索者,AI Scientist正展现出独立研究的潜质 [7] - 科学基础模型与自动化实验室的结合,极大地压缩了新材料与药物研发的时间周期 [8] 应用格局与竞争 - C端超级应用的"All in One"入口成为兵家必争之地,海外有OpenAI与Google引领,国内字节、阿里、蚂蚁等巨头依托生态积极布局 [9] - 蚂蚁推出的全模态助手"灵光"与深耕医疗健康的"蚂蚁阿福",分别在通用与垂直领域布局 [10] 企业级应用发展 - 企业级AI应用在经历初期的狂热后,因数据与成本的双重压力,暂时滑向"幻灭低谷期" [11] - 随着数据治理的完善与工具链的成熟,2026年下半年将迎来关键转折点,一批真正可衡量价值的MVP产品将在垂直行业实现规模化落地 [11] 合成数据应用 - 当真实世界的数据矿藏渐趋枯竭,合成数据成为了新的动力源泉,"修正扩展定律"为这一路径提供了理论支撑 [12] - 在自动驾驶与机器人领域,由世界模型生成的合成数据正成为降低训练成本、提升模型性能的核心资产,是打破"2026年枯竭魔咒"的潜在解法 [12] 推理优化与成本 - 推理优化依然是AI大规模应用的核心瓶颈与竞争焦点,通过算法精进与硬件革新,推理成本持续下降,能效比不断攀升 [13] - 这使得在资源受限的边缘端部署高性能模型成为可能,让AI普惠的愿景有了脚踏实地的路径 [14] 开源生态与算力 - 为规避算力供应风险,构建兼容异构芯片的软件栈显得尤为紧迫,繁荣的算子语言与趋于收敛的编译器技术正在大幅降低开发门槛 [15] - 以智源FlagOS为代表的平台致力于构建软硬解耦、开放普惠的AI算力底座,开源生态将成为打破垄断、实现算力自由的关键力量 [16] AI安全 - AI安全问题已从显性的"幻觉"演变为隐蔽的"系统性欺骗" [17] - 安全必须内化为AI系统的免疫基因,Anthropic对模型内部机理的追踪以及蚂蚁集团构建的"对齐-扫描-防御"全流程体系均指向这一方向 [17]
智源发布2026十大 AI技术趋势:认知、形态、基建三重变革,驱动AI迈入价值兑现期
中国经济网· 2026-01-08 18:00
行业技术范式重塑 - 人工智能演进核心正发生关键转移:从追求参数规模的语言学习,迈向对物理世界底层秩序的深刻理解与建模,行业技术范式迎来重塑 [1] - 基础模型的竞争焦点已从“参数有多大”转变为“能否理解世界如何运转” [12] - 2026年将是AI从数字世界迈入物理世界、从技术演示走向规模价值的关键分水岭 [14] 核心认知范式升维 - 世界模型成为AGI共识方向,行业共识正从语言模型转向能理解物理规律的多模态世界模型 [3] - 以Next-State Prediction为代表的新范式,正推动AI从数字空间的“感知”迈向物理世界的“认知”与“规划”,标志着AI开始掌握时空连续性与因果关系 [3][12] - 以世界模型和NSP为核心,AI开始学习物理规律,这为自动驾驶仿真、机器人训练等复杂任务提供全新的“认知”基础 [14] 智能形态实体化与社会化 - 具身智能正脱离实验室演示,进入产业筛选与落地阶段,人形机器人将于2026年突破Demo,转向真实的工业与服务场景 [4] - 头部科技公司的人形机器人正进入真实生产场景,标志着“具身智能”走出实验室 [14] - 多智能体系统将突破单体智能天花板,随着MCP、A2A等通信协议趋于标准化,智能体间拥有了通用“语言”,多智能体系统将在科研、工业等复杂工作流中成为关键基础设施 [5][14] 应用价值兑现双轨发展 - 在消费端,C端AI超级应用的“All in One”入口成为巨头角逐焦点,海外以OpenAI的ChatGPT与Google Gemini为引领,国内字节、阿里、蚂蚁等依托生态积极布局,AI时代的“新BAT”格局正在形成 [7][14] - 在企业端,AI应用在经历概念验证热潮后,因数据、成本等问题正步入“幻灭低谷期”,但随着数据治理与工具链成熟,预计2026年下半年将迎来转折,一批真正可衡量价值的MVP产品将在垂直行业规模落地 [6][14] - AI在科研中的角色正从辅助工具升级为自主研究的“AI科学家”,科学基础模型与自动化实验室的结合,将极大加速新材料与药物研发 [6] 关键使能技术发展 - 高质量真实数据面临枯竭,合成数据正成为模型训练的核心燃料,尤其在自动驾驶和机器人领域,由世界模型生成的合成数据将成为降低训练成本、提升性能的关键资产 [9] - 推理效率仍是AI大规模应用的核心瓶颈与竞争焦点,通过算法创新与硬件变革,推理成本持续下降,能效比不断提升,使得在资源受限的边缘端部署高性能模型成为可能 [8] - 为打破算力垄断与供应风险,构建兼容异构芯片的软件栈至关重要,繁荣的算子语言与趋于收敛的编译器技术正在降低开发门槛 [11] AI安全风险演进 - AI安全风险已从“幻觉”演变为更隐蔽的“系统性欺骗” [12] - 产业上,安全水位成为落地生死线,蚂蚁集团构建“对齐-扫描-防御”全流程体系,推出智能体可信互连技术及终端安全框架gPass [12] - 技术上,Anthropic的回路追踪研究致力于从内部理解模型机理,OpenAI推出自动化安全研究员 [12]
智源研究院发布2026十大AI技术趋势:NSP范式重构世界认知,超级应用与安全并进
环球网· 2026-01-08 17:41
核心观点 - 人工智能行业的技术演进核心正发生关键转移,从追求参数规模的语言学习,迈向对物理世界底层秩序的深刻理解与建模,行业技术范式迎来重塑 [1] - 2026年将是AI从数字世界迈入物理世界、从技术演示走向规模价值的关键分水岭 [2] 技术范式转变 - 基础模型的竞争焦点已从“参数有多大”转变为“能否理解世界如何运转”,正从“预测下一个词”跨越到“预测世界的下一个状态” [1] - 以“Next-State Prediction”为代表的新范式,正推动AI从数字空间的“感知”迈向物理世界的“认知”与“规划” [1] - 行业共识正从语言模型转向能理解物理规律的多模态世界模型,NSP范式标志着AI开始掌握时空连续性与因果关系 [3] 驱动转变的三条主线 - **认知范式的“升维”**:以世界模型和NSP为核心,AI开始学习物理规律,为自动驾驶仿真、机器人训练等复杂任务提供全新的“认知”基础 [2] - **智能形态的“实体化”与“社会化”**:智能正从软件走向实体,从单体走向协同,人形机器人进入真实生产场景,同时多智能体通信协议标准化使其能以“团队”形式工作 [2] - **价值兑现的“双轨应用”**:消费端正在形成“All in One”的超级应用入口,企业端AI在经历早期“幻灭期”后,正凭借更好的数据治理与行业标准接口,在垂直领域孕育出真正可衡量商业价值的产品 [2] 十大AI技术趋势详情 - **趋势1:世界模型成为AGI共识方向,Next-State Prediction或成新范式**:以智源悟界多模态世界模型为代表,推动AI从感知走向真正的认知与规划 [3][5] - **趋势2:具身智能迎来行业“出清”,产业应用迈入广泛工业场景**:人形机器人将于2026年突破Demo,转向真实的工业与服务场景,具备闭环进化能力的企业将在商业化竞争中胜出 [3] - **趋势3:多智能体系统决定应用上限,Agent时代的“TCP/IP”初具雏形**:随着MCP、A2A等通信协议趋于标准化,多智能体系统将突破单体智能天花板,在科研、工业等复杂工作流中成为关键基础设施 [3] - **趋势4:AI Scientist成为AI4S北极星,国产科学基础模型悄然孕育**:AI在科研中的角色正从辅助工具升级为自主研究的“AI科学家”,我国需整合力量加快构建自主的科学基础模型体系 [4] - **趋势5:AI时代的新“BAT”趋于明确,垂直赛道仍有高盈利玩法**:C端AI超级应用的“All in One”入口成为巨头角逐焦点,海外以OpenAI的ChatGPT与Google Gemini为引领,国内字节、阿里、蚂蚁等依托生态积极布局,蚂蚁推出了全模态AI助手“灵光”与AI健康应用“蚂蚁阿福” [4][6] - **趋势6:产业应用滑向“幻灭低谷期”,2026H2迎来“V型”反转**:企业级AI应用因数据、成本等问题正步入“幻灭低谷期”,但预计2026年下半年将迎来转折,一批真正可衡量价值的MVP产品将在垂直行业规模落地 [7] - **趋势7:合成数据占比攀升,有望破除“2026年枯竭魔咒”**:高质量真实数据面临枯竭,合成数据正成为模型训练的核心燃料,尤其在自动驾驶和机器人领域,由世界模型生成的合成数据将成为降低训练成本、提升性能的关键资产 [8] - **趋势8:推理优化远未触顶,“技术泡沫”是假命题**:推理效率仍是AI大规模应用的核心瓶颈与竞争焦点,通过算法创新与硬件变革,推理成本持续下降,能效比不断提升,使得在资源受限的边缘端部署高性能模型成为可能 [9] - **趋势9:开源编译器生态汇聚众智,异构全栈底座引领算力普惠**:为打破算力垄断与供应风险,构建兼容异构芯片的软件栈至关重要,以智源FlagOS为代表的平台,致力于构建软硬解耦、开放普惠的AI算力底座 [10] - **趋势10:从幻觉到欺骗,AI安全迈向机制可解释与自演化攻防**:AI安全风险已从“幻觉”演变为更隐蔽的“系统性欺骗”,技术上如Anthropic的回路追踪研究和OpenAI的自动化安全研究员,产业上如蚂蚁集团构建“对齐-扫描-防御”全流程体系并推出智能体可信互连技术(ASL)及终端安全框架gPass,智源研究院联合全球学者发布了AI欺骗系统性国际报告 [11]
智源研究院发布2026十大AI技术趋势
经济观察网· 2026-01-08 17:08
核心观点 - 人工智能行业的技术演进核心正从追求参数规模的语言学习,转向对物理世界底层秩序的深刻理解与建模,行业技术范式迎来重塑 [1] 技术范式转移 - 行业共识正从语言模型转向能理解物理规律的多模态世界模型,从“预测下一个词”到“预测世界下一状态”的NSP范式标志着AI开始掌握时空连续性与因果关系 [1] - 以智源悟界多模态世界模型为代表验证了这一路径,推动AI从感知走向真正的认知与规划 [1] 具身智能与机器人产业化 - 具身智能正脱离实验室演示,进入产业筛选与落地阶段 [2] - 随着大模型与运动控制、合成数据结合,人形机器人将于2026年突破Demo,转向真实的工业与服务场景 [2] - 具备闭环进化能力的企业将在这一轮商业化竞争中胜出 [2] 多智能体系统与通信协议 - 复杂问题的解决依赖多智能体协同,多智能体系统将突破单体智能天花板 [2] - 随着MCP、A2A等通信协议趋于标准化,智能体间拥有了通用“语言”,Agent时代的“TCP/IP”初具雏形 [2] - 多智能体系统将在科研、工业等复杂工作流中成为关键基础设施 [2] AI在科学研究中的应用 - AI在科研中的角色正从辅助工具升级为自主研究的“AI科学家” [2] - 科学基础模型与自动化实验室的结合,将极大加速新材料与药物研发 [2] - 报告强调,我国需整合力量,加快构建自主的科学基础模型体系 [2] 市场竞争格局与超级应用 - C端AI超级应用的“All in One”入口成为巨头角逐焦点 [3] - 海外以OpenAI的ChatGPT与Google Gemini为引领,通过深度集成各类服务,塑造了一体化智能助手的新范式 [3] - 国内字节、阿里、蚂蚁等依托生态积极布局,蚂蚁推出的全模态AI助手“灵光”与AI健康应用“蚂蚁阿福”分别在超级应用与健康垂直领域进行探索 [3] - AI时代的“新BAT”格局正在形成 [3] 产业应用落地周期 - 企业级AI应用在经历概念验证热潮后,因数据、成本等问题正步入“幻灭低谷期” [4] - 预计2026年下半年将迎来转折,一批真正可衡量价值的MVP产品将在垂直行业规模落地 [4] 合成数据的重要性 - 高质量真实数据面临枯竭,合成数据正成为模型训练的核心燃料 [4] - “修正扩展定律”为其提供了理论支撑 [4] - 在自动驾驶和机器人领域,由世界模型生成的合成数据将成为降低训练成本、提升性能的关键资产 [4] 推理效率与成本优化 - 推理效率仍是AI大规模应用的核心瓶颈与竞争焦点 [5] - 通过算法创新与硬件变革,推理成本持续下降,能效比不断提升 [5] - 这使得在资源受限的边缘端部署高性能模型成为可能,是AI普惠的关键前提 [5] 开源生态与算力底座 - 为打破算力垄断与供应风险,构建兼容异构芯片的软件栈至关重要 [6] - 繁荣的算子语言与趋于收敛的编译器技术正在降低开发门槛 [6] - 以智源FlagOS为代表的平台,致力于构建软硬解耦、开放普惠的AI算力底座 [6] AI安全风险与防御 - AI安全风险已从“幻觉”演变为更隐蔽的“系统性欺骗” [7] - 技术上,Anthropic的回路追踪研究致力于从内部理解模型机理,OpenAI推出自动化安全研究员 [7] - 产业上,安全水位成为落地生死线,蚂蚁集团构建“对齐-扫描-防御”全流程体系,推出智能体可信互连技术(ASL)及终端安全框架gPass [7] - 智源研究院联合全球学者发布AI欺骗系统性国际报告,警示前沿风险 [7] - 安全正内化为AI系统的免疫基因 [7]
黄仁勋押注物理AI,一场颠覆式革命已然启幕?
新京报· 2026-01-07 18:47
英伟达的战略布局与生态优势 - 公司创始人黄仁勋在2026年国际消费电子展演讲中重点阐述了物理AI的概念并介绍了Cosmos AI世界模型 该模型旨在加速智能汽车 机器人和视频分析AI智能体的物理AI开发 [1] - 黄仁勋认为物理AI的“ChatGPT时刻”近在咫尺 并指出解决物理世界训练数据难题的答案是合成数据 [1] - 公司的长期愿景是实现完全的汽车自动驾驶 并已为此持续努力多年 [1] CUDA生态系统的核心地位 - 公司最大的吸引力并非仅源于芯片硬件 而在于其构建的CUDA软件生态壁垒 该生态锁定了全球大量的AI开发者 [1] - 截至2025年 全球已有2000万开发者加入CUDA生态 基于其开发的应用超过10万个 形成了强大的开发者-应用-芯片需求正向飞轮 [2] - 该生态锁定效应使客户切换成本高达数千万美元 并支撑公司AI芯片毛利率远超行业平均水平 [2] 物理AI发展的技术支撑与场景应用 - CUDA生态及其提供的并行计算能力是物理AI落地的核心推手 支撑合成数据的生成与训练 [2] - 公司Omniverse仿真平台结合CUDA能力可高效生成符合物理规律的合成数据 再通过Cosmos AI模型赋能具体场景 [2] - 在自动驾驶领域 合成数据可用于模拟极端天气 突发路况等稀有场景 解决真实数据采集成本高 难度大的痛点 使AI能在虚拟世界完成海量训练 [2] 公司战略的延伸与角色演变 - 公司布局已超越芯片本身 旨在将其生态从数据中心和虚拟世界延伸至工厂车间 城市道路等物理世界 [3] - 随着物理AI发展 公司的角色正从“卖铲人”升级为“AI基建运营商” CUDA生态如同数字世界的通用语言 让算力在云 边 端间流动 为物理世界AI改造提供底层支撑 [3] - 公司的长远目标是让AI融入物理世界的每一个角落 其技术生态是这一切的基础 [3] 行业挑战与未来展望 - 物理AI及自动驾驶等技术落地面临的主要障碍可能并非技术本身 而是社会规范能否跟上技术进步的步伐 [3] - 由算力与生态共同驱动的对物理世界的颠覆已拉开序幕 但人类社会制度如何适应技术进化仍存在巨大不确定性与挑战 [4]
英伟达CEO黄仁勋:未来10年,世界上大部分汽车将是自动驾驶!强调合成数据对于自动驾驶机器人系统的重要性
搜狐财经· 2026-01-06 10:50
行业展望 - 英伟达创始人兼CEO黄仁勋指出,在接下来的10年里,世界上很大一部分汽车将是自动驾驶的、高度自动驾驶的 [1] - 机器人系统的下一个旅程和时代将是机器人,这些机器人会有各种不同的尺寸 [1] 技术发展 - 黄仁勋强调了合成数据对于自动驾驶乃至于机器人系统的重要性 [1] - 使用合成数据生成和模拟的基本技术适用于各种形式的机器人系统,包括关节、机械手、移动机器人或完整的类人机器人 [1] 公司动态 - 在国际消费电子产品展览会(CES 2026)上,英伟达展示了公司合作生态中的各种形态的机器人 [1]
AI如何拯救精神健康危机?2025合成数据大赛揭示新路径
钛媒体APP· 2026-01-05 11:45
行业背景与挑战 - 精神健康领域是高度依赖对话进行诊断、评估与干预的医学分支,被视为最具大语言模型(LLM)应用潜力的领域之一[2] - 全球超过10亿人正受到心理或精神障碍困扰,需求急剧增长[2][3] - 中国精神科专业人力供给严重不足,每10万人仅约有4名精神科医生,远低于全球平均水平[2] - 精神健康数据高度敏感,真实数据难以大规模获取与共享,成为制约AI研究的关键瓶颈[3] 技术路径与基础设施 - 合成数据正在成为人工智能训练的重要选择,它规避隐私风险并解决数据规模不足的问题,为AI在精神健康领域的快速迭代与初步验证提供了符合伦理且可行的技术路径[2][3][4] - 天桥脑科学研究院与上海市精神卫生中心/国家精神疾病医学中心共同成立了“人工智能与精神健康前沿实验室”,打造了由认知科学家、AI科学家、数据工程师、标注团队与精神科医生组成的跨学科团队[4] - 研究院为医院提供了关键算力资源和数据技术支持,帮助临床团队轻量化推进科研协作[4] - 研究院携手上海交通大学团队开展精神科合成数据合作研发,为模型训练提供高质量数据资源[4] - 研究院联合《Science》编辑部举办人工智能与精神健康学术论坛,邀请世界一流专家进行交流[4] 2025合成数据大赛概况 - 大赛由天桥脑科学研究院联合盛大集团、清华校友总会AI大数据专委会、上海交通大学计算机学院共同主办,在上海市精神卫生中心指导下进行[2] - 赛事在两周内吸引了111支团队参与,包括78支高校科研团队,28支企业团队,5位独立开发者[7] - 参赛者来自国内外众多知名高校和科研机构[7] - 大赛设立三大核心赛题:疾病诊断、症状小结与电子病历生成;基于对话的智能问诊策略生成;心理咨询师模拟(情绪理解+初步干预)[8] - 所有入围团队均获得了由平台提供的A800/H20 GPU双卡算力环境及完整训练周期[10] 大赛成果与优胜团队 - 六支团队在决赛中脱颖而出,展示了AI在精神疾病诊断、问诊效率与咨询交互方面的多种突破性方向[11] - 一等奖为华东理工大学MindChat团队,其打造的“漫谈”大模型专注于构建深度共情能力,融合了多智能体协作、长文本处理与隐私保护模型训练体系[11] - 二等奖团队包括清华大学冰智科技团队与华东师范大学“试试就能对”团队,前者推出的“AI幸福舱”产品已于2025年6月上市并服务超3万人次,后者基于其教育大模型EduChat深耕情感支持功能[11] - 三等奖团队为中国人民大学MentaLink团队、复旦大学ChatTherapy团队及大连理工大学DUTIR-BioNLP团队,在心理支持对话、医患问诊策略及生物医学文本处理等方面有扎实积累[11] 未来发展方向与生态建设 - 专业语料库与Benchmark将成为精神健康AI的关键基础设施,决定人工智能技术能否进入系统性研究的轨道[12] - 天桥脑科学研究院正在探索推出“LingXiBench”精神健康AI Benchmark,该体系将覆盖临床推理、问诊策略、情绪识别、症状结构化、干预建议生成、咨询对话质量,并形成可复现、可对比、可升级的科学评测标准[13] - 技术落地面临数据稀缺与隐私困境并存、临床诊断充满主观与动态变化、干预方案极度个性化以及政策法规真空等挑战[13] - 通过跨学科协作,将AI技术探索与日常诊疗、临床研究的实际需求深度衔接,可以让临床医生更高效地验证AI辅助工具的临床适配性,并为AI模型注入“临床思维”[14] - 研究院将通过长期的数据资源建设、科研合作、人才培养以及开放的创新生态,支持脑科学研究,其项目遍布欧美、亚洲和大洋洲,包括学术会议、夏校培训、AI驱动科学大奖、科研型临床医生奖励计划等[14][15]
国家网信办:利用合成数据进行模型训练和关键能力优化时 应当评估合成数据安全性
每日经济新闻· 2025-12-27 15:43
监管政策动向 - 国家互联网信息办公室于12月27日发布《人工智能拟人化互动服务管理暂行办法(征求意见稿)》并向社会公开征求意见 [1] 数据处理与训练核心规定 - 提供者开展预训练、优化训练等数据处理活动时需加强训练数据管理 [1] - 训练数据需使用符合社会主义核心价值观、体现中华优秀传统文化的数据集 [1] - 需对训练数据开展清洗和标注以增强透明度与可靠性并防范数据投毒和篡改行为 [1] - 需通过负向采样和对抗训练等手段提高训练数据多样性以提升模型生成内容安全性 [1] - 利用合成数据进行模型训练和关键能力优化时应评估合成数据安全性 [1] - 需加强对训练数据的日常检查并定期对数据进行迭代升级以持续优化产品和服务性能 [1] - 需保障训练数据来源合法且可追溯并采取必要措施保障数据安全防范数据泄露风险 [1]
Gemini 3预训练负责人警告:模型战已从算法转向工程化,合成数据成代际跃迁核心,谷歌碾压OpenAI、Meta的秘密武器曝光
36氪· 2025-12-26 20:21
Gemini 3 的发布与市场地位 - 2025年底,Gemini 3以“世界最强多模态理解”、“交互最深智能体”、“推理怪兽”的姿态,在多项权威基准测试中“横扫”并“碾压”全球所有同类模型,强势突围 [2] - 谷歌CEO桑达尔·皮查伊亲自为Gemini 3站台,称其为“迄今为止最智能的模型” [2] Gemini 3 性能表现(基于基准测试数据) - 在“Harlord's Lott Each”测试中,Gemini 3得分为57.68,而GPT-5.8为26.6% [3] - 在“ARC 404-2”测试中,Gemini 3得分为51.18,而GPT-5.8为17.0% [3] - 在“OPGA Distribution”测试中,Gemini 3得分为91.98,而GPT-5.8为8.7% [3] - 在“Albat 2026”测试中,Gemini 3达到95.05 (100%),而GPT-5.8为94.7% [3] - 在“Ventleye Stench 2”测试中,Gemini 3得分为$5,478.16,而GPT-5.8为$1,473.43 [3] 模型强大的核心原因 - Google DeepMind副总裁Oriol Vinyals指出,Gemini 3强大的核心秘诀在于“更好的预训练”和“更好的后训练” [2][10] - 预训练负责人Sebastian Borgeaud强调,Gemini 3的飞跃是无数细节持续优化的结果,而非单一环节的突破 [3] - 谷歌的研发模式已从单纯“做模型”转向“做系统”,其强大根源在于“研究、工程和基础设施”的深度融合 [3][16] - Gemini 3是在谷歌自研的TPU上进行训练的,体现了端到端的垂直整合优势 [16] 行业趋势与范式转变 - AI行业正从“无限数据”的规模化时代,迈入“数据有限”的新阶段 [4] - 在数据受限的背景下,合成数据、推理轨迹、长上下文、持续学习、端到端检索训练以及可靠的评估体系,共同构成行业未来的进化路径 [4] - 经典的Chinchilla项目结论在当下依然具有现实意义:在训练计算量固定的前提下,更快地扩展数据规模比盲目扩大模型规模更能训练出更优的模型,这直接影响模型推理的服务效率和使用成本 [4][22] 预训练的发展方向与创新重点 - 预训练的Scaling Law(规模定律)并未失效,规模依然重要,但架构创新和数据创新的权重已显著提升,甚至变得更为关键 [5][32] - 未来预训练的重点将转向架构创新,而非单纯追求“更大、更长、更贵” [7] - 长上下文和注意力机制是关键的创新变量,更长的上下文能让模型携带更多信息,拓宽能力边界 [7][37] - 更长期的方向是将检索与搜索以端到端、可微的方式深度融入训练,让“会检索”成为模型的内生能力 [7][39] - 公司内部有团队正在研究“后Transformer架构” [6][15] 对合成数据与数据策略的看法 - 对合成数据的使用持审慎态度,核心风险在于数据分布偏移可能导致模型陷入“自嗨”闭环 [5] - 建议的稳妥方案是:用强模型生成合成数据后,必须通过小规模可控消融实验验证其收益和潜在副作用 [5] - 一个核心研究问题是:用合成数据训练出的模型,能否超越生成数据的“老师”模型 [6][34] - Gemini 3的训练数据从一开始就是原生多模态的,融合了多种来源,为其多模态优势打下基础 [6][33] 持续学习与知识更新 - 基础模型一旦预训练结束,知识便基本定格,无法自动更新 [7] - 当前行业更可行的办法是在产品推理侧接入检索,将最新信息实时拉入上下文进行推理,从而避免频繁重训底座 [7] - 这与RETRO项目的思路一致,即将知识放在外部库,模型负责推理 [8] - 未来的目标是改变训练方式,让模型能在真实世界的数据流上持续训练,实现真正的“持续更新” [8][51] 评估体系的重要性 - 评估是预训练阶段的核心难题,如果评估体系跟不上,容易陷入“看似提升”的假象内耗 [8] - 公司内部搭建了专属的评估体系,因为外部基准很容易被污染,保留内部评估阵地是关键 [8][41] - 评估需要跨越两道鸿沟:一是小模型上的有效改进能否迁移到大模型;二是预训练阶段的优势能否在后训练后转化为真实可用的能力 [8][40] 成本与商业化考量 - 随着用户规模扩大,推理预算变得敏感,预训练环节必须为“上线落地”负责,在提升模型能力的同时,还要降低成本、节省资源 [8][52] - 原生多模态模型在处理图像等输入时,计算成本可能更高,但通过研究提升效率,其收益总体上远大于成本 [31] 模型架构细节 - Gemini 3是基于Transformer的混合专家(MoE)架构,其高层架构与上一代相比变化不大,性能飞跃是多个因素叠加的结果 [28][29] - MoE的核心思想是将“使用的计算量”和“参数规模”解耦,通过动态路由将计算分配到某些“专家”上执行 [30] 团队协作与研发文化 - Gemini 3的预训练团队规模庞大,日常参与人数可能在150到200人之间,成功是大团队共同协作的结果 [10][17] - 在谷歌/DeepMind,来自与其他实验室竞赛、强推基准目标的压力很少,领导层更重视研究进展与把研究做成 [26] 未来展望与行业影响 - 模型的能力进步不仅体现在基准测试上,更反映在内部人员使用模型提升生产力的真实工作场景中 [11] - 预测未来模型将更好地服务于科学研究,甚至可能助力获得诺贝尔奖,同时也会更深入地融入普通人生活,解决实际问题 [9][13] - 基础模型越来越强,对于不需要极度专门化的任务,使用通用模型更为合理,这改变了创业公司与研究者的关注点,如何更好地利用(harness)模型变得愈发重要 [55][56]
Gemini 3预训练负责人警告:模型战已从算法转向工程化!合成数据成代际跃迁核心,谷歌碾压OpenAI、Meta的秘密武器曝光
AI前线· 2025-12-26 18:26
Gemini 3的性能表现与行业地位 - 2025年底发布的Gemini 3在多项权威基准测试中表现卓越,被谷歌CEO称为“迄今为止最智能的模型”,以“世界最强多模态理解”、“交互最深智能体”、“推理怪兽”的姿态强势碾压全球同类模型 [2] - 根据发布的基准测试数据,Gemini 3 Pro在多个关键测试中领先,例如在“Academia meaning”测试中得分为37.52,显著高于GPT-5.1的26.5%和Claude Sonnet 4.5的13.7% [3] - 在“Scientific reasoning”测试中,Gemini 3 Pro得分91.9%,高于GPT-5.1的44.1%和Claude Sonnet 4.5的83.4% [3] - 在“Math”测试中,Gemini 3 Pro达到100%的准确率,而GPT-5.1为94.0% [3] - 在代码能力测试“LiveCodeBench Pro”中,Gemini 3 Pro得分为2.439,高于GPT-5.1的2.243和Claude Sonnet 4.5的1.418 [3] - 在长上下文理解测试“Needle In A Haystack”中,Gemini 3 Pro得分为89.1%,而GPT-5.1为91.0% [3] - 在多语言理解测试“Global F1QA”中,Gemini 3 Pro得分为93.42,略高于GPT-5.1的90.9%和Claude Sonnet 4.5的90.1% [3] Gemini 3成功的核心方法论 - 谷歌高层将Gemini 3的强大归因于“更好的预训练”和“更好的后训练” [2] - 更深层次的秘诀在于“研究、工程和基础设施”的深度融合,公司已从单纯“做模型”转向构建一个复杂的“系统” [4][19] - 模型的飞跃是无数细节持续优化的结果,团队几乎每天都能找到让模型变更好的地方,是大团队工作累积的成果 [4][13] - 预训练团队规模庞大,日常参与人数在150到200人,成功的关键在于协调与集成,将所有人的进步整合释放 [21] 行业范式转变:从无限数据到有限数据 - AI行业正从“无限数据”的规模化时代,迈入“数据有限”的新阶段,这一趋势不可逆转 [4] - 在数据受限的背景下,架构创新和数据创新的权重已显著提升,甚至变得比单纯扩大模型规模更为关键 [6][38] - 公司认为“预训练Scaling Law已死”的讨论有些奇怪,规模仍然重要且带来的好处相对可预测,但它只是让模型变好的一部分,并非唯一因素 [38] - 行业范式从“无限”转为“有限”后,研究方式与问题思路将发生改变,过去在数据受限环境(如ImageNet)中的一些技术可能重新变得有价值 [41] 预训练的关键技术方向与创新 - **数据策略**:遵循Chinchilla项目的结论,在训练计算量固定的前提下,更快地扩展数据规模比盲目扩大模型规模更能训练出更优的模型,这直接影响后续推理成本 [5][27] - **合成数据的审慎使用**:合成数据是有意思的方向,但必须极度谨慎,核心风险在于数据分布偏移导致模型陷入“自嗨”闭环,需通过小规模可控消融实验验证收益与副作用 [6][41] - **架构演进**:公司正在推进“后Transformer架构”的创新,同时看好“原生态模型”的长期价值 [7] - **长上下文与注意力机制**:这是未来预训练的重要方向,长上下文能让模型携带更多信息,拓宽能力边界,公司预计未来一年左右会有更多让长上下文更高效的创新 [7][44][61] - **检索与搜索的深度融合**:长期方向是将检索与搜索以端到端、可微的方式更深地融入训练,让“会检索”成为模型的内生能力,而非外挂工具,强化学习规模化可能推动这一进程 [7][45] - **持续学习**:目标是改变训练算法,使模型能在真实世界的数据流上持续训练,实现真正意义上的知识更新,当前更可行的方案是在产品推理侧接入检索,将最新信息拉入上下文 [8][57][59] 模型评估体系的重要性 - 评估被视为预训练阶段的核心难题,如果评估体系跟不上,容易陷入“看似提升”的假象内耗 [8] - 评估需要跨越两道鸿沟:一是小模型上有效的改进能否迁移到大模型;二是预训练阶段的优势能否在后训练后转化为真实可用能力 [8] - 由于外部基准很容易被污染,公司内部搭建了专属的、留出的评估集,这是防止自欺、判断真实改进的唯一办法 [8][47] 成本与效率的考量 - 随着用户规模扩大,推理预算变得敏感,预训练环节必须为“上线落地”负责,在提升模型能力的同时,努力降低成本、节省资源 [9][61] - 采用混合专家架构的核心想法是把“使用的计算量”和“参数规模”解耦,通过动态路由分配计算,而非将计算量与参数规模完全绑定 [36] - 原生多模态处理虽然带来复杂性成本和计算成本,但公司认为其收益总体上远大于成本 [37] 对行业竞争与未来发展的看法 - 不同AI实验室的底层技术相似,但存在专业化差异,例如公司在视觉与多模态方面一直很强 [17] - 要在Gemini这样的模型上继续取得进展,确实需要很大的团队和大量资源,但这并不意味着当前方式是最优的,颠覆性研究仍可能出现 [18] - 模型正在快速改进,对于不需要极度专门化的任务,使用通用模型更为合理,这使得如何有效利用和驾驭模型的研究变得越来越重要 [64] - 公司对Gemini 3目前的表现直言“超出预期”,并认为进步的脚步看不到尽头,至少未来一年这种加速势头不会放缓 [9][11][66]