AGI (General Artificial Intelligence)

搜索文档
谷歌Nano Banana全网刷屏,起底背后团队
36氪· 2025-08-29 15:08
Gemini 2.5 Flash Image模型技术亮点 - 引入「交错生成」功能,增强模型在世界知识和创意解释方面的能力 [1] - 拥有原生图像生成与编辑能力,能快速生成高质量图像,在多轮对话中保持场景一致 [1] - 模型能够通过自然语言指令进行多轮互动,在多次编辑中保持场景一致性,无需输入冗长提示词 [27] - 能在图中正确生成简短的文字,团队将文本渲染能力当作模型评估的新指标 [27][29] - 模型在原生图像生成与多模态理解方面实现紧密结合,图像理解为生成提供信息,生成又反过来强化理解 [30] - 通过图像、视频甚至音频从世界中学习额外知识,从而提升文本理解与生成能力 [30] - 面对复杂任务时将一次性指令拆解成多轮操作,逐步生成与编辑图像,实现像素级别的完美编辑 [30] - 生成一张图只需十几秒,失败了也能迅速重试,极大提升了创作效率 [32] 核心研发团队成员背景 - Logan Kilpatrick是Google DeepMind的高级产品经理,负责领导Google AI Studio和Gemini API的产品开发工作,曾在OpenAI担任开发者关系负责人,在Apple担任机器学习工程师,在NASA担任开源政策顾问 [4][6] - Kaushik Shivakumar是Google DeepMind的研究工程师,专注于机器人技术、人工智能和多模态学习的研究与应用,毕业于加利福尼亚大学伯克利分校,在DeepMind参与了Gemini 2.5模型的开发 [10][11] - Robert Riachi是Google DeepMind的研究工程师,专注于多模态AI模型的开发与应用,尤其在图像生成和编辑领域具有显著贡献,参与了Gemini 2.0和Gemini 2.5系列模型的研发工作 [14][15] - Nicole Brichtova是Google DeepMind的视觉生成产品负责人,专注于构建生成模型,推动Gemini应用、Google Ads和Google Cloud等产品的发展,本科和研究生分别毕业于美国乔治敦大学和美国杜克大学富卡商学院 [17][19] - Mostafa Dehghani是Google DeepMind的研究科学家,主要从事机器学习,特别是深度学习方面的工作,研究兴趣包括自监督学习、生成模型、大模型训练和序列建模,参与了多模态视觉语言模型PaLI-X等项目的开发 [22] 实际应用场景与产品定位 - 在家居设计中,用户可以快速查看多种方案,如房间不同窗帘效果可视化,模型能精准修改而不破坏整体环境 [32] - 在人物OOTD中,无论是换衣服、变角度,还是生成80年代复古风形象,人物的面部和身份一致性都能保持稳定 [32] - Gemini的终极目标是整合所有模态,向AGI方向迈进,能够利用知识转移,在跨模态的复杂任务中发挥作用 [33] - Imagen专注文本到图像任务,在Vertex平台中提供多种变体,针对特定需求进行了优化,例如单张图像的高质量生成、快速输出以及成本效益 [33] - 如果任务目标明确、追求速度和性价比,Imagen是理想选择,而在复杂多模态工作流中,Gemini的优势更加突出,支持生成+编辑、多轮创意迭代,能理解模糊指令 [33] - Gemini能利用世界知识理解模糊提示,适合创意场景,可以直接将参考图像作为风格输入,比Imagen的操作更方便 [33] 未来模型能力展望 - 期待模型能展现出智能,即使不完全遵循指令,也能生成比实际描述的更好的结果 [34] - 对事实性感到非常兴奋,希望未来的模型能够生成既美观又具功能性且准确无误的图表或信息图,甚至能自动制作工作简报 [34]