文本渲染

搜索文档
刚刚,谷歌放出Nano Banana六大正宗Prompt玩法,手残党速来
机器之心· 2025-09-03 16:33
文章核心观点 - 谷歌Nano Banana模型通过优化提示词设计显著提升图像生成能力 官方发布六类文本转图像提示模板以最大化模型潜力[8][11] - 用户通过创意提示词实现多样化应用场景 包括产品摄影、风格化插画、文字渲染、商业摄影、极简设计及连续性艺术创作[3][6][16] - 模型在图像编辑一致性和稳定性方面存在技术局限 部分场景下表现不及Qwen和Kontext Pro等竞品[39] 提示词模板分类总结 照片级写实场景 - 需包含机位角度、镜头类型、光线及细节描写 例如使用85mm肖像镜头生成带有景深效果的垂直人像[13][15] - 模板结构包含拍摄类型、主体动作、环境光照及画幅比例 强调纹理细节以实现逼真效果[14] 风格化插画与贴纸 - 需明确艺术风格、关键特征及色板 白色背景需在提示词中特别声明[18] - 案例如卡哇伊风格的小熊猫贴纸 采用粗轮廓线和简单赛璐珞着色[19] 文字渲染应用 - 擅长生成含清晰文字的图像 需指定文字内容、字体风格及整体设计[22] - 模板包含图像类型、品牌概念及色彩方案 案例为黑白极简咖啡店logo[23] 产品模型与商业摄影 - 适用于电商及广告场景 强调高分辨率影棚灯光与特定角度[26] - 模板包含产品描述、背景表面及三点柔光箱设置 案例为混凝土台面上的陶瓷咖啡杯特写[27][28] 极简与留白设计 - 适用于网页及营销素材背景 主体位于画框特定位置并保留大量负空间[30] - 案例为右下角红枫叶与灰白背景的组合 采用顶部柔光照明[32] 连续性艺术创作 - 适用于漫画分镜及视觉叙事 需清晰描述场景角色及对话文本[35] - 模板包含艺术风格、前后景细节及情绪光照 案例为黑白 noir 风格侦探场景[36][37]
Nano banana手办玩法火爆出圈!无需抽卡,效果惊了(°o°)
猿大侠· 2025-08-31 12:11
模型发布与市场反响 - 谷歌匿名发布的图像编辑模型nano-banana在LMArena平台突然爆火后由官方确认为Gemini 2 5 Flash Image模型[5][7][8] - 该模型在国内外社交平台引发大规模试玩热潮 尤其在手办生成领域形成刷屏现象[2][4][9] 核心功能与技术特性 - 支持通过文本提示词生成1/7比例写实风格手办 需指定亚克力底座 电脑屏幕显示ZBrush建模过程及TAMIYA风格包装盒等细节[10][11] - 采用原生多模态架构 实现图像理解与生成的深度整合 通过交错式生成技术支持多轮复杂编辑 可分解包含50个编辑要求的任务[61][63][64] - 创新性使用文本渲染作为核心评估指标 该指标具备客观可量化特性 能持续指引模型改进并带来意外性能提升[55][56][58][59] 实际应用表现 - 能够识别动漫角色名称(如艾伦耶格尔)并生成对应手办 对非全身像参考图可能产生局部异常但整体效果逼真[13][15][16] - 支持宠物照片转手办 生成效果引发用户主动寻求购买链接 并可结合3D打印实现实体化[18][20][21] - 真人照片需使用全身图生成 包括动态姿势 需额外提示词添加支撑结构防止模型漂浮[24][26][28][29] 多元化应用场景 - 支持三图联合创作 通过姿态控制实现角色互动(如搭肩比心 战斗动作)[33][44][46] - 可生成漫展场景下的真人化二次元角色 效果接近真实cosplayer生图[41][42][48][51] - 结合视频生成模型创作连贯动画 仅需火柴人草图即可驱动完整动作[36][37] 模型优化路径 - 团队通过社交平台系统性收集用户失败案例构建评估基准 新版本需通过真实场景测试[65][66] - 针对Imagen 2 0存在的像素级编辑偏差 角色一致性不足及图像质感不自然等问题进行专项优化[68][69][70] 生态建设与访问方式 - 谷歌计划举办为期2天的Nano Banana Hackathon活动 提供免费API额度及奖品激励[72][73] - 模型可通过AI Studio Gemini API或直接集成至Gemini使用 支持中文提示词但建议英文以降低错误率[11][73][75]
Qwen新开源,把AI生图里的文字SOTA拉爆了
量子位· 2025-08-05 09:40
通义千问开源图像生成模型Qwen-Image - 通义千问开源200亿参数图像生成基础模型Qwen-Image,采用MMDiT架构,是系列中首个图像生成基础模型[3][4] - 模型主打复杂文本渲染能力,能准确生成包含复杂图文混合布局的图像,文字准确度和契合度高[5][6] - 支持生成海报、PPT、商品宣传图等多种应用场景,文字渲染能力突出[8][16][22] Qwen-Image核心能力 - 具备复杂文本渲染能力,支持多行布局、段落级文本生成和细粒度细节呈现,中英文均能高保真输出[28] - 拥有一致性图像编辑能力,支持风格迁移、增删改、细节增强、文字编辑等多种操作[27] - 采用渐进式训练策略,从非文字到文字渲染逐步过渡,增强原生文字渲染能力[34] 性能表现 - 在多个公开基准测试中实现SOTA,包括通用图像生成的GenEval、DPG和OneIG-Bench等[29][30] - 在文本渲染基准LongText-Bench、ChineseWord和TextCraft上表现尤为出色,中文文本渲染大幅领先现有最先进模型[32][33] 实测效果 - 情境插画生成效果优秀,文字与画面融合度高,细节氛围感强[11][13][14] - 能准确理解提示词生成PPT和海报,主体文字和图中图符合要求[16][18][20] - 商品宣传图生成中能准确对应文字与画面元素[22][24]