完整版｜谷歌创始人最新访谈，揭秘Gemini为什么突然变得这么强大？

谷歌AI发展现状 - 谷歌I/O大会发布了一系列AI创新功能包括搜索中的虚拟试穿反响热烈但仍有大量工作需完成交付[2] - 语言模型成为AI发展主要驱动力这一趋势在15年前并不明显DeepMind过去更专注物理基础[14] - 思维模型展现出惊人可解释性能清晰展示推理过程从安全角度看具有显著优势[14] 模型架构与技术演进 - 不同模态模型架构高度相似视频传播模型与文本语言模型共享大量Transformer核心技术[15] - 后训练阶段占比显著提升从99%预训练转变为80-90% 新增工具使用等功能增强模型能力[16] - Gemini 2.5 Pro实现技术飞跃在多数基准测试中保持第一2.5 Flash模型速度超快位列第二[20][21] 深度思考与推理扩展 - 谷歌开发五种不同方法实现深度思考模型可延长推理时间至数小时甚至数月以解决复杂问题[17] - 模型需突破长上下文输入限制当前支持百万级信息未来需实现无限上下文处理[18] - 从短期任务训练到长期开发存在显著技术差距需模型具备持续数天的思考能力[18] 谷歌创新战略与转型 - 公司需定期自我重塑从网页到移动再到AI转型凭借谷歌大脑和Transformer技术积累占据优势[19] - 2025年产品发布速度明显快于2024年Gemini系列模型迭代加速体现技术突破[19][20] - 原生音频功能耗时一年才正式推出需解决输入输出同步等技术难题[10] 生成式AI应用进展 - 生成媒体模型如Imagen和Veo 3实现超人级创作效率艺术领域突破远超人类专家水平[7] - 音频生成技术通过Diffusion实现与视频生成类似可观察训练过程中逐步优化的过程[10][12] - 文本模型已广泛应用于编码和数学问题解决可靠性持续提升但仍存在偶发错误[7]