数据有限模式 - 财报，业绩电话会，研报，新闻

数据有限模式

搜索文档

深度｜Gemini 3预训练负责人揭秘Gemini 3巨大飞跃的关键，行业正从“数据无限”向“数据有限”范式转变

Z Potentials· 2026-02-21 11:43

Gemini 3的成功逻辑与核心驱动力 - 模型成功并非依赖单一突破，而是庞大团队协作与无数改进创新融合的结果[4][6] - 核心秘诀是更优质的预训练和后训练，基于Transformer的混合专家架构，将计算量使用与参数规模分离[5][23][24] - 规模是提升性能的重要因素但非唯一，架构和数据创新的重要性可能更甚[5][26] - 模型性能的巨大提升源于多个方面（如架构、数据、基础设施、评估）的共同改进，而非单一重大变化[23][32] 行业发展趋势与范式转变 - 行业正从“数据无限”向“数据有限”范式转变，数据量有限但并未枯竭，这改变了研究方向和思维方式[5][29][31] - 合成数据需谨慎使用，存在误用风险，关键挑战在于能否用其训练出优于数据生成模型的新模型[5][28] - 技术路线呈现趋同与差异化并存，顶尖实验室在基础技术（如类Transformer模型）上相似，但在视觉、多模态、推理等具体领域进行差异化深耕[9] - 模型架构的改进能让模型用更少数据实现更好效果，是应对数据有限范式的重要方向[5][31] 预训练领域的关键进展与未来方向 - 长上下文能力是重要发展方向，未来一两年在效率提升和长度扩展上将有更多创新[32] - 注意力机制近期有非常有趣的发现，将塑造未来几个月的研究方向[32] - 评估工作至关重要且极具难度，需要弥合小规模实验与最终规模化模型、以及预训练与后训练之间的差距，评估方面的进步是推动模型和数据改进的关键[5][22][34] - 预训练数据是多模态、多来源的混合[27] - 行业越来越倾向于内部构建评估体系，以避免外部基准测试数据污染导致自欺欺人[35] 模型能力、应用与成本考量 - 每一代新模型都能展现出前所未有的能力，内部员工使用模型提升工作效率的时间持续增加，这是模型能力增强的实际体现[6] - 原生多模态意味着同一神经网络处理所有模态，虽增加了研究复杂性和计算成本，但收益远超成本[25][26] - 预训练阶段需更多考虑模型的部署成本和使用成本，研究如何提升质量同时降低资源消耗[45] - 对于智能体应用，出色的屏幕理解能力是预训练阶段的一个重要方面[42] 研究、工程与团队协作模式 - 谷歌/DeepMind的核心优势在于研究、工程和基础设施的垂直整合与结合[11] - 工作模式强调“研究型工程”，研究与工程的界限越来越模糊，构建庞大系统需要两者紧密结合[11] - 预训练团队规模庞大，约有150到200人每日在数据、模型、基础设施和评估等多个方面协作，成功关键在于整合众多人的工作成果而非少数人领先[12] - 研究品味非常重要，包括研究需能与他人的工作整合、对复杂性保持警惕、管理研究风险，有时会为降低复杂度而在性能上做让步[19] - 研究需平衡短期关键路径改进与长期探索性项目，在模型规模扩张阶段探索性研究更多，在发布新模型前则更关注降低风险和执行力[20] 对初创公司及从业者的启示 - 开发顶尖模型需要庞大团队和大量资源，但当前做法未必最优，未来可能出现颠覆性研究让小型团队实现弯道超车[10] - 初创公司应回顾模型能力的进步轨迹并进行合理推断，在模型持续进步的领域跟进，在进展不大的领域寻找机会[47] - 通用模型能力快速增强，使得为通用任务开发专门模型的价值降低，关于如何使用模型、构建应用框架以及提高其稳健性的研究变得更重要[47] - 对从业者而言，理解从硬件（如TPU）到研究层面的整个技术栈的系统性知识变得非常重要[45]

人工智能

数据有限模式

持续学习

Artificial Intelligence

Artificial Intelligence

Gemini 3

GPT - 5.2