文本渲染 - 财报，业绩电话会，研报，新闻

文本渲染

搜索文档

机器之心· 2025-09-03 16:33

文章核心观点 - 谷歌Nano Banana模型通过优化提示词设计显著提升图像生成能力官方发布六类文本转图像提示模板以最大化模型潜力[8][11] - 用户通过创意提示词实现多样化应用场景包括产品摄影、风格化插画、文字渲染、商业摄影、极简设计及连续性艺术创作[3][6][16] - 模型在图像编辑一致性和稳定性方面存在技术局限部分场景下表现不及Qwen和Kontext Pro等竞品[39] 提示词模板分类总结照片级写实场景 - 需包含机位角度、镜头类型、光线及细节描写例如使用85mm肖像镜头生成带有景深效果的垂直人像[13][15] - 模板结构包含拍摄类型、主体动作、环境光照及画幅比例强调纹理细节以实现逼真效果[14] 风格化插画与贴纸 - 需明确艺术风格、关键特征及色板白色背景需在提示词中特别声明[18] - 案例如卡哇伊风格的小熊猫贴纸采用粗轮廓线和简单赛璐珞着色[19] 文字渲染应用 - 擅长生成含清晰文字的图像需指定文字内容、字体风格及整体设计[22] - 模板包含图像类型、品牌概念及色彩方案案例为黑白极简咖啡店logo[23] 产品模型与商业摄影 - 适用于电商及广告场景强调高分辨率影棚灯光与特定角度[26] - 模板包含产品描述、背景表面及三点柔光箱设置案例为混凝土台面上的陶瓷咖啡杯特写[27][28] 极简与留白设计 - 适用于网页及营销素材背景主体位于画框特定位置并保留大量负空间[30] - 案例为右下角红枫叶与灰白背景的组合采用顶部柔光照明[32] 连续性艺术创作 - 适用于漫画分镜及视觉叙事需清晰描述场景角色及对话文本[35] - 模板包含艺术风格、前后景细节及情绪光照案例为黑白 noir 风格侦探场景[36][37]

Nano banana手办玩法火爆出圈！无需抽卡，效果惊了(°o°)

猿大侠· 2025-08-31 12:11

模型发布与市场反响 - 谷歌匿名发布的图像编辑模型nano-banana在LMArena平台突然爆火后由官方确认为Gemini 2 5 Flash Image模型[5][7][8] - 该模型在国内外社交平台引发大规模试玩热潮尤其在手办生成领域形成刷屏现象[2][4][9] 核心功能与技术特性 - 支持通过文本提示词生成1/7比例写实风格手办需指定亚克力底座电脑屏幕显示ZBrush建模过程及TAMIYA风格包装盒等细节[10][11] - 采用原生多模态架构实现图像理解与生成的深度整合通过交错式生成技术支持多轮复杂编辑可分解包含50个编辑要求的任务[61][63][64] - 创新性使用文本渲染作为核心评估指标该指标具备客观可量化特性能持续指引模型改进并带来意外性能提升[55][56][58][59] 实际应用表现 - 能够识别动漫角色名称（如艾伦耶格尔）并生成对应手办对非全身像参考图可能产生局部异常但整体效果逼真[13][15][16] - 支持宠物照片转手办生成效果引发用户主动寻求购买链接并可结合3D打印实现实体化[18][20][21] - 真人照片需使用全身图生成包括动态姿势需额外提示词添加支撑结构防止模型漂浮[24][26][28][29] 多元化应用场景 - 支持三图联合创作通过姿态控制实现角色互动（如搭肩比心战斗动作）[33][44][46] - 可生成漫展场景下的真人化二次元角色效果接近真实cosplayer生图[41][42][48][51] - 结合视频生成模型创作连贯动画仅需火柴人草图即可驱动完整动作[36][37] 模型优化路径 - 团队通过社交平台系统性收集用户失败案例构建评估基准新版本需通过真实场景测试[65][66] - 针对Imagen 2 0存在的像素级编辑偏差角色一致性不足及图像质感不自然等问题进行专项优化[68][69][70] 生态建设与访问方式 - 谷歌计划举办为期2天的Nano Banana Hackathon活动提供免费API额度及奖品激励[72][73] - 模型可通过AI Studio Gemini API或直接集成至Gemini使用支持中文提示词但建议英文以降低错误率[11][73][75]

Gemini 2.5 Flash Image

Gemini 2.5 Flash Image

Qwen新开源，把AI生图里的文字SOTA拉爆了

量子位· 2025-08-05 09:40

通义千问开源图像生成模型Qwen-Image - 通义千问开源200亿参数图像生成基础模型Qwen-Image，采用MMDiT架构，是系列中首个图像生成基础模型[3][4] - 模型主打复杂文本渲染能力，能准确生成包含复杂图文混合布局的图像，文字准确度和契合度高[5][6] - 支持生成海报、PPT、商品宣传图等多种应用场景，文字渲染能力突出[8][16][22] Qwen-Image核心能力 - 具备复杂文本渲染能力，支持多行布局、段落级文本生成和细粒度细节呈现，中英文均能高保真输出[28] - 拥有一致性图像编辑能力，支持风格迁移、增删改、细节增强、文字编辑等多种操作[27] - 采用渐进式训练策略，从非文字到文字渲染逐步过渡，增强原生文字渲染能力[34] 性能表现 - 在多个公开基准测试中实现SOTA，包括通用图像生成的GenEval、DPG和OneIG-Bench等[29][30] - 在文本渲染基准LongText-Bench、ChineseWord和TextCraft上表现尤为出色，中文文本渲染大幅领先现有最先进模型[32][33] 实测效果 - 情境插画生成效果优秀，文字与画面融合度高，细节氛围感强[11][13][14] - 能准确理解提示词生成PPT和海报，主体文字和图中图符合要求[16][18][20] - 商品宣传图生成中能准确对应文字与画面元素[22][24]