Image Generation
搜索文档
Google launches Nano Banana 2 model with faster image generation
TechCrunch· 2026-02-27 00:00
Nano Banana 2模型发布 - 谷歌发布了其热门图像生成模型Nano Banana 2 该模型在技术上为Gemini 3.1 Flash Image 能够生成比前代更逼真的图像 [1] - 新模型将作为Gemini应用中Fast、Thinking和Pro模式的默认图像生成模型 [1] - Nano Banana 2保留了Pro模型的高保真特性 但生成图像速度更快 支持生成分辨率从512px到4K 且支持不同宽高比的图像 [2] 产品性能与功能 - Nano Banana 2在一个工作流中最多可保持5个角色的一致性 以及最多14个对象的保真度 以支持更好的故事叙述 [5] - 用户可发出包含细致差别的复杂请求来生成图像 并能创作出具有更生动光线、更丰富纹理和更清晰细节的媒体内容 [5] - 自11月在Gemini应用中推出SynthID验证以来 用户已使用超过2000万次 [15] 产品整合与部署 - Nano Banana 2将成为Gemini应用内所有图像生成功能的默认模型 并成为其视频编辑工具Flow的默认图像生成模型 [7] - 在搜索领域 Nano Banana 2将通过Google Lens和AI模式 成为Google应用及桌面与移动网页版Google Search在141个国家的默认图像生成模型 [7] - 对于谷歌的高端订阅计划Google AI Pro和Ultra 订阅者仍可通过三点菜单重新生成图像来使用Nano Banana Pro执行特定任务 [8] 开发者与生态 - 对于开发者 Nano Banana 2将通过Gemini API、Gemini CLI和Vertex API以预览形式提供 同时也可通过AI Studio及公司去年11月发布的开发工具Antigravity获取 [14] - 所有通过新模型创建的图像都将带有SynthID水印 这是谷歌用于标识AI生成图像的标记 这些图像也与由Adobe、微软、谷歌、OpenAI、Meta等公司组成的行业机构创建的C2PA内容凭证互操作 [15] 产品历史与市场接受度 - 公司于2025年8月首次发布Nano Banana 促使人们在Gemini应用中生成了数百万张图像 在印度等国家尤其受欢迎 [2] - 公司于2025年11月发布了Nano Banana Pro 允许用户创建更详细和高质量的图像 [2]
让扩散模型「可解释」不再降质,开启图片编辑新思路
机器之心· 2025-12-16 10:31
文章核心观点 - 香港中文大学MMLab与上海人工智能实验室的研究团队提出了一种名为TIDE(Temporal-Aware Sparse Autoencoders)的新框架,这是首个真正意义上面向扩散Transformer(DiT)的时序稀疏自编码器框架,旨在解决扩散模型内部机制不透明的问题[3][6] - TIDE的核心创新在于将“时序”作为扩散模型可解释性的关键,通过捕捉不同时间步中保持一致的语义因子,首次清晰呈现了扩散模型内部的渐进式生成过程,且几乎不损害模型的原始生成质量[6][7][10] - 该框架在多个主流扩散模型(如Stable Diffusion XL, PixArt-α, Flux)上得到验证,不仅实现了高质量、可解释的语义因子分解,还催生了全新的“因子级”图像编辑方式,并提升了模型的结构理解与安全性,标志着扩散模型可解释性研究的重要突破[8][12][14][17] 技术原理与创新 - **以时序为核心**:TIDE突破了以往忽视扩散过程时间线的方法,它并非“硬拆”静态特征,而是让模型在时间维度上对齐语义,形成可读、可控的“时间语义剖面”[6] - **无损可解释性**:TIDE的稀疏自编码器在特征空间进行无损重构,扩散轨迹保持稳定,对生成质量影响极小,FID、sFID变化小于0.1%,实现了“可解释而不降质”[7][10] - **因子分解**:TIDE将扩散特征分解为具有明确可控语义的因子,例如负责轮廓、物体姿态、材质纹理的因子,甚至可以捕捉跨时间的概念演化[8] 性能表现与效果 - **生成质量保持**:在多种设置下,TIDE对FID指标的影响很小。例如,在默认配置(5% sparsity, 16d)下,FID仅从基线7.30增加到7.45(增加0.15)[15] - **语义理解提升**:TIDE显著提升了AlignScore中的语义绑定(颜色、形状、纹理)和关系理解(空间与非空间关系)指标,在多项指标上取得最优表现(表中绿色标记)[12][15] - **泛化能力强**:TIDE在SDXL和FLUX-dev等不同主流扩散架构上均表现出稳定的优势。例如,在SDXL上,TIDE的FID增加(+0.14)小于传统SAE(+0.20)[15] - **安全性增强**:在安全性评测中,TIDE将攻击成功率(ASR)降至0.64%,显著低于基线SDv1.4的17.80%,显示出更稳健的特征理解能力[14][15] 应用与影响 - **因子级图像编辑**:基于TIDE分解出的语义因子,研究团队构建了全新的图像编辑方式,无需依赖繁琐提示语或反复调参,即可直接操控扩散过程,实现如调整物体姿态但保持背景一致等操作[8][13] - **推动研究范式**:TIDE不仅是一个技术方法,更是一种新的研究范式,它证明了扩散模型并非不可解释,只是缺少合适的视角(时序),为未来的可解释性研究开辟了道路[17][19] - **未来发展方向**:TIDE为更可控、稳健的扩散编辑系统、统一理解-生成模型的因子级桥接、扩散模型的因果与语义理论研究以及新一代透明可信的视觉生成系统奠定了基础[21]
Disney to Invest $1 Billion in OpenAI, License Characters on Sora
Youtube· 2025-12-12 00:00
迪士尼与OpenAI的战略合作 - 迪士尼成为OpenAI旗下Sora模型的首个重要内容授权合作伙伴 [2] - OpenAI对迪士尼进行了10亿美元($1,000,000,000)的股权投资 [1][3] - 此次合作被视为对迪士尼及其知识产权价值的信心投票 [1] 行业技术应用趋势 - 图像生成和AIGC技术增长迅速 迪士尼旨在将其核心IP置于该趋势的中心 [2] - 流媒体巨头Netflix已在制作过程中使用生成式AI [5] - 基于纽约的图像生成公司Runway因其领先的模型而被越来越多公司采用 [5] - 行业内的竞争焦点在于如何将人类创造力与AI工具结合 [6] 对内容创作与劳动力的影响 - 好莱坞此前曾发生大规模罢工 部分原因是对AI可能取代人类创作角色的担忧 [3][4] - 尽管AI工具普及 但创造迪士尼这类标志性IP仍需要人类参与核心创作环节 [6] - 公司需要向员工传达他们在AI时代仍然至关重要的信息 [7] 合作背后的战略考量 - 迪士尼通过授权其IP 可以从OpenAI的增长和图像生成技术的发展中获益 [3] - 合作使迪士尼能够利用其IP进行未来的图像生成和内容创作 [6] - OpenAI可能将图像生成功能整合进其核心产品(如Gemini) 而非仅专注于ChatGPT [2]