预训练Scaling Law
搜索文档
Gemini 3预训练负责人警告:模型战已从算法转向工程化!合成数据成代际跃迁核心,谷歌碾压OpenAI、Meta的秘密武器曝光
AI前线· 2025-12-26 18:26
Gemini 3的性能表现与行业地位 - 2025年底发布的Gemini 3在多项权威基准测试中表现卓越,被谷歌CEO称为“迄今为止最智能的模型”,以“世界最强多模态理解”、“交互最深智能体”、“推理怪兽”的姿态强势碾压全球同类模型 [2] - 根据发布的基准测试数据,Gemini 3 Pro在多个关键测试中领先,例如在“Academia meaning”测试中得分为37.52,显著高于GPT-5.1的26.5%和Claude Sonnet 4.5的13.7% [3] - 在“Scientific reasoning”测试中,Gemini 3 Pro得分91.9%,高于GPT-5.1的44.1%和Claude Sonnet 4.5的83.4% [3] - 在“Math”测试中,Gemini 3 Pro达到100%的准确率,而GPT-5.1为94.0% [3] - 在代码能力测试“LiveCodeBench Pro”中,Gemini 3 Pro得分为2.439,高于GPT-5.1的2.243和Claude Sonnet 4.5的1.418 [3] - 在长上下文理解测试“Needle In A Haystack”中,Gemini 3 Pro得分为89.1%,而GPT-5.1为91.0% [3] - 在多语言理解测试“Global F1QA”中,Gemini 3 Pro得分为93.42,略高于GPT-5.1的90.9%和Claude Sonnet 4.5的90.1% [3] Gemini 3成功的核心方法论 - 谷歌高层将Gemini 3的强大归因于“更好的预训练”和“更好的后训练” [2] - 更深层次的秘诀在于“研究、工程和基础设施”的深度融合,公司已从单纯“做模型”转向构建一个复杂的“系统” [4][19] - 模型的飞跃是无数细节持续优化的结果,团队几乎每天都能找到让模型变更好的地方,是大团队工作累积的成果 [4][13] - 预训练团队规模庞大,日常参与人数在150到200人,成功的关键在于协调与集成,将所有人的进步整合释放 [21] 行业范式转变:从无限数据到有限数据 - AI行业正从“无限数据”的规模化时代,迈入“数据有限”的新阶段,这一趋势不可逆转 [4] - 在数据受限的背景下,架构创新和数据创新的权重已显著提升,甚至变得比单纯扩大模型规模更为关键 [6][38] - 公司认为“预训练Scaling Law已死”的讨论有些奇怪,规模仍然重要且带来的好处相对可预测,但它只是让模型变好的一部分,并非唯一因素 [38] - 行业范式从“无限”转为“有限”后,研究方式与问题思路将发生改变,过去在数据受限环境(如ImageNet)中的一些技术可能重新变得有价值 [41] 预训练的关键技术方向与创新 - **数据策略**:遵循Chinchilla项目的结论,在训练计算量固定的前提下,更快地扩展数据规模比盲目扩大模型规模更能训练出更优的模型,这直接影响后续推理成本 [5][27] - **合成数据的审慎使用**:合成数据是有意思的方向,但必须极度谨慎,核心风险在于数据分布偏移导致模型陷入“自嗨”闭环,需通过小规模可控消融实验验证收益与副作用 [6][41] - **架构演进**:公司正在推进“后Transformer架构”的创新,同时看好“原生态模型”的长期价值 [7] - **长上下文与注意力机制**:这是未来预训练的重要方向,长上下文能让模型携带更多信息,拓宽能力边界,公司预计未来一年左右会有更多让长上下文更高效的创新 [7][44][61] - **检索与搜索的深度融合**:长期方向是将检索与搜索以端到端、可微的方式更深地融入训练,让“会检索”成为模型的内生能力,而非外挂工具,强化学习规模化可能推动这一进程 [7][45] - **持续学习**:目标是改变训练算法,使模型能在真实世界的数据流上持续训练,实现真正意义上的知识更新,当前更可行的方案是在产品推理侧接入检索,将最新信息拉入上下文 [8][57][59] 模型评估体系的重要性 - 评估被视为预训练阶段的核心难题,如果评估体系跟不上,容易陷入“看似提升”的假象内耗 [8] - 评估需要跨越两道鸿沟:一是小模型上有效的改进能否迁移到大模型;二是预训练阶段的优势能否在后训练后转化为真实可用能力 [8] - 由于外部基准很容易被污染,公司内部搭建了专属的、留出的评估集,这是防止自欺、判断真实改进的唯一办法 [8][47] 成本与效率的考量 - 随着用户规模扩大,推理预算变得敏感,预训练环节必须为“上线落地”负责,在提升模型能力的同时,努力降低成本、节省资源 [9][61] - 采用混合专家架构的核心想法是把“使用的计算量”和“参数规模”解耦,通过动态路由分配计算,而非将计算量与参数规模完全绑定 [36] - 原生多模态处理虽然带来复杂性成本和计算成本,但公司认为其收益总体上远大于成本 [37] 对行业竞争与未来发展的看法 - 不同AI实验室的底层技术相似,但存在专业化差异,例如公司在视觉与多模态方面一直很强 [17] - 要在Gemini这样的模型上继续取得进展,确实需要很大的团队和大量资源,但这并不意味着当前方式是最优的,颠覆性研究仍可能出现 [18] - 模型正在快速改进,对于不需要极度专门化的任务,使用通用模型更为合理,这使得如何有效利用和驾驭模型的研究变得越来越重要 [64] - 公司对Gemini 3目前的表现直言“超出预期”,并认为进步的脚步看不到尽头,至少未来一年这种加速势头不会放缓 [9][11][66]
国泰海通|海外科技:Gemini 3、TPU、端侧AI应用更新报告——模型多模态升级加速端侧AI落地,TPU冲击算力格局
国泰海通证券研究· 2025-12-03 21:47
模型能力与生态优势 - Gemini 3验证了预训练Scaling Law仍旧成立,其能力大幅跃迁得益于预训练突破,证明谷歌在算力投入上不再保守[1] - 谷歌拥有搜索、YouTube、Chrome等生态产生的独家且不可迁移的用户行为数据,构成了理解用户意图和上下文的强大壁垒[1] - 公司具备全栈技术加全面应用场景的独特生态优势[1] 多模态能力与端侧应用 - Gemini重点强化多模态能力,屏幕理解表现亮眼,ScreenSpot-Pro测试得分达72.7%,远超GPT-5.1的3.5%与Claude Sonnet 4.5的36.2%[2] - 模型逐渐具备视觉智能与界面逻辑理解能力,为端侧AI Agent实现GUI操控提供可能[2] - 豆包手机助手已率先落地,其跨APP比价功能本质是GUI模拟人类操作[2] - 谷歌坐拥安卓系统、模型、Pixel硬件入口及应用全家桶的全栈集成能力,在端侧AI落地具备天然优势[2] TPU算力生态与竞争格局 - 谷歌2025年加速优化TPU生态,原生支持PyTorch并在vLLM的TPU支持上进行大规模工程投入,大幅提升外部可用性[3] - TPU在内部使用时TCO较GB200服务器低44%,对外租赁时TCO较GB200低30%、较GB300低41%[3] - TPU集群通过ICI 3D Torus网络支持最大9216颗芯片,OCS技术实现数千种拓扑组合,适配多样并行需求[3] - TPU对谷歌的核心意义在于构建全栈AI生态,通过芯片与模型架构协同设计实现算力成本与效率最优,并赋能云业务[3] - 长期看TPU完全颠覆英伟达GPU概率较小,更可能作为其补充,因英伟达拥有规模优势、供应链议价权及开箱即用属性对中小客户吸引力更强[3] - 英伟达Rubin系列升级显著缩小TCO差距,且其一年一迭代的能力(如Feynman接力Rubin)有望持续保持技术领先性[3]
AI展望:NewScaling,NewParadigm,NewTAM
华泰证券· 2025-06-10 09:43
报告核心观点 - 全球AI发展呈现模型端新架构探索、算力端需求上行与硬件设计进入新范式、应用端商业模式变革的趋势,持续看好AI产业投资主线,全球AI应用将进入业绩收获期 [1] 模型:预训练Scaling Law有望开启新起点 - 大模型技术路线从预训练到后训练发展,2018 - 2024年9月为预训练阶段,2024年9月后进入后训练阶段 [13][15] - 腾讯混元Turbo - S通过创新架构实现性能与效率平衡,Google Gemini Diffusion在文本生成上有突破,大厂在预训练参数量和数据量扩大上有尝试,大规模算力集群支持预训练探索,模型架构改进或使预训练Scaling Law开启新起点 [23][24][25] 算力:训练推理两条主线共同推动算力需求持续上行 训练端 - 后训练阶段Scaling Law成大厂共识,新Scaling路径不断涌现,新架构探索有望重启预训练阶段算力需求叙事 [33][34] - 以“星际之门”为代表的大规模算力集群进展顺利,中东版“星际之门”落地,主权AI逐步落地,台积电新产能规划预示算力需求乐观 [38][41][42] 推理端 - Agent需求增长或使推理算力提升几十至上百倍,大量工具调用和信息交互使tokens消耗量大幅提升,产品用户数量增长带动算力需求提升 [43][46][52] 算力硬件新范式 - 大模型对系统综合能力要求提高,NVLink Fusion强化英伟达硬件生态优势,国产算力加速迭代,华为云推出新服务器,高密度机架方案为性能追赶提供路径 [57][58][60] 应用:Agent进展提速,看好AI应用进入业绩收获期 Agent发展情况 - Agent可能是AI应用终极形态,目前雏形初具,但完成复杂长期任务能力有限,“任务长度”是关键衡量指标且提升速度快 [68][73][74] - MCP统一了Agent工具调用生态,促进其快速构建和发展 [79] 海外AI应用 - AI Coding是重要垂类赛道,细分垂类商业化效果好,25Q1业绩大部分超预期,头部2B软件AI产品存量客户渗透率接近10%,全年收入有望加速增长 [82][84][85] 国内AI应用 - 加速从简单环节到复杂环节产品升级,25Q1利润指标率先改善,AI商业化24年初步验证,25年有望加速复制推广,MCP有望加速产业节奏 [88][90][94] 落地节奏展望:商业模式变革有望成为共识,看好细分领域率先放量 商业模式变革 - Agent应用从交付工具转变为交付结果,按效果付费新范式有望成行业共识 [99] 细分场景放量 - 数据复杂度低、幻觉容忍度高的场景率先实现规模化商业落地,2C场景商业化进展领先,2B应用分场景和行业来看,数据复杂度和预算影响落地节奏 [103][104][110] AI + 营销/销售 - 数据丰富、可量化ROI和流程标准化驱动AI快速商业化,企业需求从单一工具向全链路智能中枢升级,市场格局分散,AI有望重塑格局 [113][114][119] 重点公司推荐 - 推荐金山办公、福昕软件、泛微网络等多家公司,均给予“买入”评级 [7]