持续学习 - 财报，业绩电话会，研报，新闻

持续学习

搜索文档

Gemini 3预训练负责人警告：模型战已从算法转向工程化！合成数据成代际跃迁核心，谷歌碾压OpenAI、Meta的秘密武器曝光

AI前线· 2025-12-26 18:26

Gemini 3的性能表现与行业地位 - 2025年底发布的Gemini 3在多项权威基准测试中表现卓越，被谷歌CEO称为“迄今为止最智能的模型”，以“世界最强多模态理解”、“交互最深智能体”、“推理怪兽”的姿态强势碾压全球同类模型 [2] - 根据发布的基准测试数据，Gemini 3 Pro在多个关键测试中领先，例如在“Academia meaning”测试中得分为37.52，显著高于GPT-5.1的26.5%和Claude Sonnet 4.5的13.7% [3] - 在“Scientific reasoning”测试中，Gemini 3 Pro得分91.9%，高于GPT-5.1的44.1%和Claude Sonnet 4.5的83.4% [3] - 在“Math”测试中，Gemini 3 Pro达到100%的准确率，而GPT-5.1为94.0% [3] - 在代码能力测试“LiveCodeBench Pro”中，Gemini 3 Pro得分为2.439，高于GPT-5.1的2.243和Claude Sonnet 4.5的1.418 [3] - 在长上下文理解测试“Needle In A Haystack”中，Gemini 3 Pro得分为89.1%，而GPT-5.1为91.0% [3] - 在多语言理解测试“Global F1QA”中，Gemini 3 Pro得分为93.42，略高于GPT-5.1的90.9%和Claude Sonnet 4.5的90.1% [3] Gemini 3成功的核心方法论 - 谷歌高层将Gemini 3的强大归因于“更好的预训练”和“更好的后训练” [2] - 更深层次的秘诀在于“研究、工程和基础设施”的深度融合，公司已从单纯“做模型”转向构建一个复杂的“系统” [4][19] - 模型的飞跃是无数细节持续优化的结果，团队几乎每天都能找到让模型变更好的地方，是大团队工作累积的成果 [4][13] - 预训练团队规模庞大，日常参与人数在150到200人，成功的关键在于协调与集成，将所有人的进步整合释放 [21] 行业范式转变：从无限数据到有限数据 - AI行业正从“无限数据”的规模化时代，迈入“数据有限”的新阶段，这一趋势不可逆转 [4] - 在数据受限的背景下，架构创新和数据创新的权重已显著提升，甚至变得比单纯扩大模型规模更为关键 [6][38] - 公司认为“预训练Scaling Law已死”的讨论有些奇怪，规模仍然重要且带来的好处相对可预测，但它只是让模型变好的一部分，并非唯一因素 [38] - 行业范式从“无限”转为“有限”后，研究方式与问题思路将发生改变，过去在数据受限环境（如ImageNet）中的一些技术可能重新变得有价值 [41] 预训练的关键技术方向与创新 - **数据策略**：遵循Chinchilla项目的结论，在训练计算量固定的前提下，更快地扩展数据规模比盲目扩大模型规模更能训练出更优的模型，这直接影响后续推理成本 [5][27] - **合成数据的审慎使用**：合成数据是有意思的方向，但必须极度谨慎，核心风险在于数据分布偏移导致模型陷入“自嗨”闭环，需通过小规模可控消融实验验证收益与副作用 [6][41] - **架构演进**：公司正在推进“后Transformer架构”的创新，同时看好“原生态模型”的长期价值 [7] - **长上下文与注意力机制**：这是未来预训练的重要方向，长上下文能让模型携带更多信息，拓宽能力边界，公司预计未来一年左右会有更多让长上下文更高效的创新 [7][44][61] - **检索与搜索的深度融合**：长期方向是将检索与搜索以端到端、可微的方式更深地融入训练，让“会检索”成为模型的内生能力，而非外挂工具，强化学习规模化可能推动这一进程 [7][45] - **持续学习**：目标是改变训练算法，使模型能在真实世界的数据流上持续训练，实现真正意义上的知识更新，当前更可行的方案是在产品推理侧接入检索，将最新信息拉入上下文 [8][57][59] 模型评估体系的重要性 - 评估被视为预训练阶段的核心难题，如果评估体系跟不上，容易陷入“看似提升”的假象内耗 [8] - 评估需要跨越两道鸿沟：一是小模型上有效的改进能否迁移到大模型；二是预训练阶段的优势能否在后训练后转化为真实可用能力 [8] - 由于外部基准很容易被污染，公司内部搭建了专属的、留出的评估集，这是防止自欺、判断真实改进的唯一办法 [8][47] 成本与效率的考量 - 随着用户规模扩大，推理预算变得敏感，预训练环节必须为“上线落地”负责，在提升模型能力的同时，努力降低成本、节省资源 [9][61] - 采用混合专家架构的核心想法是把“使用的计算量”和“参数规模”解耦，通过动态路由分配计算，而非将计算量与参数规模完全绑定 [36] - 原生多模态处理虽然带来复杂性成本和计算成本，但公司认为其收益总体上远大于成本 [37] 对行业竞争与未来发展的看法 - 不同AI实验室的底层技术相似，但存在专业化差异，例如公司在视觉与多模态方面一直很强 [17] - 要在Gemini这样的模型上继续取得进展，确实需要很大的团队和大量资源，但这并不意味着当前方式是最优的，颠覆性研究仍可能出现 [18] - 模型正在快速改进，对于不需要极度专门化的任务，使用通用模型更为合理，这使得如何有效利用和驾驭模型的研究变得越来越重要 [64] - 公司对Gemini 3目前的表现直言“超出预期”，并认为进步的脚步看不到尽头，至少未来一年这种加速势头不会放缓 [9][11][66]