Imagen 4 Ultra - 财报，业绩电话会，研报，新闻

Imagen 4 Ultra

搜索文档

第一财经· 2026-02-27 13:54

产品发布与迭代 - 谷歌于北京时间2月27日发布了其最新的图像生成模型 Nano Banana 2 (Gemini 3.1 Flash Image) [1] - 该模型是谷歌团队目前最好的图像生成和编辑模型，兼具了速度和此前Pro版的性能，同时价格也更便宜 [1] - 相比初代Nano Banana，Nano Banana 2大幅缩小了速度与画质的差距，能生成高质量、照片级的逼真图像 [16] 性能与基准测试 - 根据AI基准测试机构Artificial Analysis的数据，Nano Banana 2在文生图榜单中排名第一，在图像编辑榜单中排名第三 [1] - 大模型竞技场LMArena发布的排行榜同样显示，Nano Banana 2拿下全球第一，文生图测试得分为1280分，超越了GPT Image 1.5 (1268分) 和 Nano Banana Pro (1220分) [4] - 在谷歌AI Studio平台，Nano Banana 2输出每张1k图片的单价为0.067美元，输入为0.5美元，而Nano Banana Pro对应的价格是0.134美元和2美元，价格便宜一半 [4] 技术特性与功能 - 模型具备先进的世界知识、精确的文本渲染和翻译、主题一致性、精确的指令执行和视觉保真度提升等功能 [4] - 模型可以呈现生动的光照、更丰富的纹理、更清晰的细节 [4] - 在单个工作流中，最多能保持五个角色的形象相似性，以及最多14个对象的特征一致性 [16] - 模型支持高级文本渲染和本地化，能够直接在图像中生成或翻译多种语言的文本 [13] 应用案例与客户反馈 - 谷歌创建了名为“Window Seat”的程序进行演示，用户可指定世界上任一地区的窗户位置，模型能生成逼真画面并根据实时天气数据更新景色 [5] - 谷歌开发了“全球广告本地化器”演示应用，可将英语版本的图像广告翻译成不同语言（如日文、法语等）以适应国际市场 [13] - AI应用开发公司HubX通过集成Nano Banana 2，实现了74%–76%的延迟降低，人脸编辑工作流速度提升了4倍，同时没有牺牲专业级画质 [16] - 有博主测评显示，无论是人物表情控制、还是文本生成和排版，Nano Banana 2都比Pro版本有很大提升 [16] 当前局限性与挑战 - 有测试发现，Nano Banana 2在生成图像时存在位置错误、中文字体标注错误等问题 [6] - 模型输出水平不稳定，例如在网页版中连广州塔的位置都绘制错误 [11] - 或许是由于参数量较小的原因，Nano Banana 2对人体结构、复杂度动作、物体结构认知不足，在一些复杂场景（如人体倒立）上会有问题 [16] - 有评论认为当前AI生图的不真实感仍然较重，生成并不准确 [4]

AI生图

Artificial Intelligence

Artificial Intelligence

谷歌 Nano Banana 2 一夜补齐短板，各种图解都能画，价格才是 OpenAI 一半

36氪· 2026-02-27 12:10

文章核心观点谷歌最新发布的Nano Banana 2文生图模型，凭借其创新的“实时联网”能力、卓越的图像生成质量与细节、显著提升的文本渲染与主体一致性，以及极具竞争力的价格，在权威测评中登顶榜首，标志着文生图行业的竞争焦点已从单纯画面质量转向速度、理解力与生态整合[1][10][66] 产品核心能力与性能 - **实时联网与信息整合**：模型整合了Gemini的搜索能力，能够边理解、边检索、边生成，使图像内容更贴合真实世界的信息结构，例如生成基于真实地理和气象信息的“窗口视角”构图[1][5] - **图像质量与细节**：生成的图像细节丰富、真实感强，街景中的招牌、广告牌等细节可放大查看，人物神态、光影到位，难以一眼辨别为AI生成[2][3][15] - **信息图与可视化生成**：模型擅长将抽象概念可视化，能生成逻辑清晰、标注准确的信息图、示意图、食谱、医学解剖图等，承担知识组织与表达的角色[6][31][33][39][41] - **文本渲染与多语言支持**：解决了AI图像中文字生成的短板，生成的文字清晰、拼写准确、排版自然，支持图中内容的翻译和本地化，保持原风格不变[47] - **主体一致性**：在工作流中可保持最多5个角色的特征一致及14个对象的高保真度稳定输出，即使转换视角也能保持稳定，适合系列创作[51][54][56] - **分辨率与画幅**：支持从512px到4K的多分辨率，新增512px档位优化低延迟场景；画幅比例丰富，新增4:1、1:4等超长比例，满足横幅广告、竖屏长图等原生生成需求[64] - **风格与材质控制**：支持自由更换纹理、材质和颜色，可快速切换不同视觉风格，如生成“香蕉恐龙”、“水母跑车”等创意图像[58][62][63] 市场表现与行业地位 - **测评排名与性价比**：在权威测评Artificial Analysis榜单中，Nano Banana 2位列第一，其API价格为每千张图像67.0美元，仅为第二名OpenAI（133.0美元/千张）的一半，堪称“性价比之王”[8] - **行业竞争态势**：榜单头部模型之间分数差距非常小（如第一名1,272分与第二名1,268分），表明行业已进入竞争焦灼的“贴身肉搏”阶段[8][9] - **用户增长与生态整合**：Gemini应用月活跃用户达6.5亿，Nano Banana系列的“病毒式传播”是增长重要原因；模型已在谷歌产品体系中完成替换，并整合进Google Ads的广告生成建议能力[10][69][71] 应用场景与潜在影响 - **效率工具**：模型从“创意玩具”转向“可控的图像渲染引擎”，对普通用户更好用，对企业而言更具可规模化部署的潜力[66] - **专业领域应用**：在教育领域可将抽象概念可视化；在科研中可快速生成复杂模型示意图；在政策汇报、企业报告中可将冗长材料压缩为重点明确的可视化内容[43] - **设计领域影响**：其强大的可视化能力被用户认为将颠覆信息图表领域，甚至有人测试后惊呼“设计已死”[12][33] - **内容真实性管理**：针对AI造假担忧，谷歌为生成内容叠加SynthID水印并整合C2PA内容凭证体系，以进行溯源[8]

文生图

实时联网

信息图生成

Artificial Intelligence

Artificial Intelligence

Nano Banana 2

Gemini

腾讯研究院AI速递 20250626

腾讯研究院· 2025-06-25 23:06

谷歌Gemini家族新成员 - Gemini Robotics On-Device是首个能在机器人本地运行的视觉-语言-动作模型，无需网络连接，适用于延迟敏感型应用 [1] - 该模型可执行高度灵巧任务如拉开拉链、折叠衣物，展现出优于其他本地模型的泛化性能和多步骤指令处理能力 [1] - 仅需50-100个演示即可适应新任务，能跨平台泛化到不同机器人如Franka FR3和Apollo人形机器人 [1] 谷歌Imagen 4/Ultra上线AI Studio - 谷歌将最新的Imagen 4和Imagen 4 Ultra文生图模型上线AI Studio和API，普通版每张约4美分，Ultra版约6美分，生成速度接近实时 [2] - Imagen 4 Ultra对prompt理解更精准，能生成高质量图像，支持每次生成最多四张1024×1024的图片，测试显示能生成逼真的超现实场景 [2] - 谷歌AI Studio未来将整合MCP服务器功能和Jules SWE Agent，界面也将更新，提供更统一的工作流和复杂操作能力 [2] OpenAI开发文档协作工具 - OpenAI正在开发ChatGPT文档协作功能，使用户能在平台上共同编辑文档并进行聊天交流，直接挑战微软Office和Google Workspace [3] - 这项功能是Sam Altman将ChatGPT打造为"超级智能工作助手"战略的一部分，可能进一步扩展至文件存储等生产力功能 [3] - 预计到2030年企业订阅ChatGPT将带来约150亿美元收入，但这可能加剧与最大股东微软的竞争关系 [3] ODDY工作室AI艺术创作 - AI技术复活世界名画与艺术家走秀视频爆红，ODDY工作室创作的《名作艺术秀》将梵高、达利、蒙娜丽莎等经典艺术元素以时装秀形式呈现 [4] - 视频重现多位艺术巨匠及其作品：梵高的《星夜》、波提切利的《维纳斯诞生》、克里姆特的《吻》、达利的超现实主义等 [5] - 最后场景中梵高、达利、莫奈、达芬奇等艺术大师同台相拥谢幕，这场AI视觉盛宴完美还原艺术作品细节并引发观众情感共鸣 [5] 出门问问TicNote AI硬件 - 出门问问推出全球首款Agentic AI硬件TicNote，3mm超薄设计可磁吸手机背面，支持120+语言转写，精度达98% [6] - 搭载Shadow AI智能体，能自动总结、生成思维导图，20小时超长续航，适用会议记录、课堂笔记等多场景 [6] - 产品展现"软硬结合+AI"战略成果，将Agent技术落地实用化，为职场人提供高效AI助手 [6] Readdy.ai出海增长 - AI设计工具Readdy.ai上线4个月实现近500万美元ARR，成为增长最快的AI出海应用之一，借助短视频在TikTok等平台病毒式传播 [7] - 产品成功关键在于生成界面质量超高，平衡专业设计规范与美学表现，让用户只需简单文本描述即可获得高完成度UI设计 [7] - 背后团队是打造蓝湖和MasterGo的中国顶尖设计工具团队，专注解决"无需设计基础也能产出专业界面"的痛点 [7] Delphi数字永生项目 - AI创业公司Delphi获红杉领投1600万美元A轮融资，创建数字化身让用户在赛博世界"永生"，已有情感导师靠此年入百万 [8] - 创始人Ladjevardian的初衷是为中风无法说话的爷爷创建"数字大脑"，将其回忆录中的智慧数字化，实现数字疗愈 [8] - Delphi提供多级订阅服务，可复制用户语言风格、知识体系和表达方式，用户可对每次对话收费并获85%以上收入 [8] 阿里云Agent应用变现 - 阿里云百炼平台与支付宝合作推出"AI打赏"功能，开发者的Agent应用可直接获取用户打赏，金额转入开发者个人支付宝账户 [10] - 开发者只需两步即可配置打赏功能：开启"支付宝AI收"功能并为Agent完成"赞赏卡片"配置，平台随机生成10元以内打赏金额 [10] - 百炼平台已有超10万开发者创建了30多万个Agent，未来将支持在任意渠道发布Agent并实现变现 [10] Biomni生物医学Agent - 斯坦福、基因泰克等机构联合开发通用生物医学AI智能体Biomni，能自主执行跨领域研究任务，无需预定义工作流程 [11] - Biomni由两部分组成：Biomni-E1(统一生物医学环境)和Biomni-A1(智能体架构，结合大语言模型推理与代码执行) [11] - 系统在遗传学、基因组学等领域表现出色，能分析可穿戴设备数据、处理复杂RNA数据并自主设计实验方案 [11] AI开源与应用竞争 - Linux基金会执行董事Jim Zemlin认为AI基础模型终将全面开源，真正的竞争将转向应用层 [12] - 开源模式能吸引顶尖人才共同创新，开发者参与开源的首要动机是"完成工作"而非金钱 [12] - 未来公司的竞争优势将体现在用户体验、专业服务等应用层面，而非基础模型本身 [12]

Artificial Intelligence

AI开源

Artificial Intelligence

ChatGPT

Gemini Robotics On-Device

Imagen 4

Artificial Intelligence

AI开源

Artificial Intelligence

ChatGPT

Gemini Robotics On-Device

Imagen 4

刚刚，首个能在机器人上本地运行的具身Gemini来了

机器之心· 2025-06-25 08:46

Gemini Robotics On-Device发布 - 谷歌DeepMind推出首个可直接部署在机器人上的视觉-语言-动作（VLA）模型Gemini Robotics On-Device，无需持续互联网连接即可运行[2] - 该模型基于Gemini 2.0多模态推理能力开发，属于Gemini Robotics系列，于2024年3月发布[3] - 模型经过优化可在机器人机体上高效运行，展现出强大的通用灵活性和任务泛化能力[4] 技术特性与优势 - 专为延迟敏感型应用设计，在连接中断或零连接环境中保持稳健性[5] - 相比之前最佳的本地端机器人模型表现出明显优势，在分布外任务和复杂多步骤指令方面优于其他本地端方案[15][16] - 只需50到100个演示即可快速适应新任务，展示出强大的基础知识泛化能力[21] 应用场景与测试表现 - 在七项不同难度灵巧操作任务测试中表现优异，包括拉开午餐盒拉链、画卡片和倒沙拉酱等[22] - 成功适配多种机器人平台，包括ALOHA机器人、双臂Franka FR3机器人和Apptronik的Apollo人形机器人[25][26][27] - 可执行通用指令，处理未见过的物体和场景，完成折叠连衣裙等灵巧任务及工业皮带装配等精密操作[26] 开发者支持 - 谷歌将发布Gemini Robotics SDK，支持开发者在MuJoCo物理模拟器中测试模型表现[7] - 开发者可使用SDK快速将模型适应到新领域，仅需少量演示即可完成适配[7] - 模型支持微调以获得更佳性能，是DeepMind首个可供微调的VLA模型[20] 相关技术进展 - 加州大学伯克利分校等机构联合推出的MuJoCo Playground获得RSS 2025杰出演示论文奖[8] - 谷歌同时宣布在AI Studio和Gemini API中推出图像生成模型Imagen 4和Imagen 4 Ultra[33] 产品策略调整 - 下调Gemini系列免费可用额度：Gemini 2.5 Flash从每日500次降至250次，Gemini 2.0 Flash从1500次大幅降至200次[30] - 公司表示这是伴随新模型推出的策略，会降低或取消上一代模型的免费套餐[32]

具身智能

人工智能

Gemini Robotics On-Device

Gemini Robotics On-Device

Imagen 4

Imagen 4 Ultra