Workflow
Gemini负责人爆料!多模态统一token表示,视觉至关重要
量子位·2025-07-03 14:58

Gemini多模态技术核心观点 - Gemini从设计之初就是原生多模态模型,旨在构建像人类一样感知世界的通用人工智能(AGI),视觉能力是其核心组成部分[8][9] - 最新Gemini 2.5 Pro(0605)在代码、推理和视觉能力(尤其是视频理解)上达到SOTA水平,巩固了谷歌在多模态领域的领先地位[4][16] - 多模态能力存在正向迁移效应,视觉能力的提升带动了代码处理、OCR等多项能力的整合,催生"视频转代码"等创新用例[21][24] - 采用"万物皆视觉"产品理念,将视觉应用分为基础OCR、人类专家级任务和超越人类能力的三类场景[36][38][41] 技术架构设计 - 原生多模态架构:所有模态(文本/图像/视频/音频)统一转化为token表示进行协同训练,而非拼接单一模态模型[12][13] - 视频处理技术:以1FPS采样率配合64token/帧的压缩方案,实现6小时长视频处理(200万上下文token),音频与视频帧交错对齐提升理解能力[33][31][34] - 信息损失控制:承认图像/视频token化存在固有信息损失,但通过大规模训练使模型在低采样率下仍保持优异泛化能力[14] 产品应用方向 - 视频理解突破:解决长视频注意力衰减问题,支持食谱生成、讲座笔记转换等实用功能,未来将拓展高尔夫挥杆分析等高帧率场景[18][20][34] - 交互体验革新:计划突破"回合制"交互模式,通过视觉化信息呈现(如IDE流式编程辅助)和隐含意图理解提升自然度[25][55][57] - 未来场景规划:开发物理世界交互能力(实时环境问答)、烹饪辅助等超越人类反应速度的实时应用[42][43][45] 团队与研发策略 - 人才密集型研发:需整合OCR、检测、分割等多领域专家构建统一模型,形成产品-模型反馈循环[49][50][52] - 长期技术布局:当前视觉能力作为未来自然交互的基石,重点开发个性化和同理心等拟人化特性[53][54][56]