AI生图
搜索文档
中文版Nano Banana来了?Qwen-Image-2.0炸场:1K长文本硬吃,中文生图彻底不拧巴了
36氪· 2026-02-11 07:05
阿里发布新一代图像生成模型Qwen-Image-2.0 - 公司发布新一代图像生成及编辑模型Qwen-Image-2.0,该模型在长文本理解、复杂指令执行、中文渲染及多图编辑等方面能力显著提升 [10] - 模型支持高达1K token的超长文本指令输入,并能准确理解复杂指令,生成准确率有所提升 [10] - 模型具备强大的图片编辑能力,支持上传单张或多张图片,通过提示词指令进行二次创作、修改等操作 [26] - 模型在中文文字渲染方面表现突出,能够高保真地生成包含汉字、数字、符号的图文内容,排版规整,笔锋清晰 [7][44][46] - 模型输出图像分辨率可达2K,保证了画面的质感 [10][56] - 模型在AI Arena国际评测平台的文生图基准测试中表现优异,Elo得分达到1029,排名第三,仅次于谷歌Gemini-3-Pro-Image-Preview和OpenAI的GPT Image 1.5 [46] 模型核心能力与实测表现 - **长文本与复杂指令理解**:模型成功处理了长达700字的复杂提示词,生成了包含五宫格结构、时间推进、场景切换且人物形象稳定的《西游记》主题漫画 [13][14][16] - **结构理解与细节还原**:模型根据600多字的详细描述,生成了结构准确、细节真实的汉堡分解信息图,食材层次、纹理质感(如牛肉饼焦化纹理、芝士拉丝)均得到很好呈现 [17][19] - **多重要求综合生成**:模型在同时满足“画轴、立体城市、微缩建模、2K分辨率”等多重要求下,生成了完成度高的上海市3D景观图,场景结合自然,细节处理细致 [19][20][23] - **创意场景构建**:模型根据提示生成了2K微距摄影视角下的“大米王国”场景,微缩人物比例、动作逻辑真实,米粒质感与景深处理接近真实摄影 [23][25] 多图编辑功能 - **多图融合编辑**:模型能够将多张输入图片的元素进行融合,例如将指定人物的服装替换并置于另一场景中,且补足倒影等细节,效果自然无违和感 [26][29] - **单图扩展创作**:仅输入一张人物照片,模型可根据指令生成一套包含多种角度和风格的九宫格影棚级写真 [8][31] - **图文结合创作**:模型在生成或编辑图片时,能同时根据指令生成配套文案,例如为水墨画自动题诗 [34] 中文渲染与文字生成能力 - **信息图表生成**:仅通过文字指令,模型即可生成包含数字、汉字、英文的完整科普信息图表,排版清晰可直接使用 [37] - **艺术字融合**:模型能将文字与画作完整融合,生成如“雪雕版”文字景观,实现远看是字、近看是景的效果 [41] - **高密度文字排版**:模型能高精度还原黑板报等复杂排版中的中文、数字及符号,文字几乎无乱码或假字,达到可直接阅读水平 [44][46] - 技术层面,模型通过升级VAE与生成模型,显著提升了小字号及高密度文字场景下的可读性,使PPT、信息图等场景能稳定输出可用图像 [50] 模型演进与技术特点 - 该模型是公司图像生成技术路线的集大成者,将此前分别侧重文字渲染准确性和图像细节质感的两条技术路线收拢合一,同时具备强大的生图和编辑能力 [48] - 模型在参数规模上做了进一步收敛,在提升能力的同时使模型体量更轻,降低了部署门槛,并提升了生图速度,适合高频提示词调试、实时展示等场景 [51] - 模型已通过阿里云百炼平台开通API邀测,开发者也可通过Qwen Chat免费体验 [58]
中文版Nano Banana来了?Qwen-Image-2.0炸场:1K长文本硬吃,中文生图彻底不拧巴了
量子位· 2026-02-10 19:59
阿里新一代图像生成模型Qwen-Image-2.0发布 - 公司发布了新一代图像生成及编辑模型Qwen-Image-2.0,该模型在长文本理解、复杂指令执行、中文渲染及多图编辑等方面表现突出[6] - 模型支持高达1K token的超长文本指令输入,并能准确理解复杂指令[8][9] - 模型具备强大的图片编辑能力,支持基于多张图片进行二次创作和修改[6][23] 长文本与复杂指令理解能力 - 模型能处理长达七八百字的超长提示词,并保持上下文一致性[9][11] - 在实测中,模型根据一段700字的复杂指令,生成了结构清晰、角色一致的《西游记》主题五宫格漫画[11][13] - 模型能根据600多字的详细描述,生成结构准确、细节真实的2K分辨率汉堡食材分解信息图[15][17] 多场景图像生成质量 - 模型能根据包含画轴、立体城市、微缩建模等多重要求的指令,生成上海市的3D景观图,细节处理到位[18][20] - 在微观景观生成测试中,模型能准确呈现“大米王国”的微缩比例关系与物理逻辑,画面质感接近真实微距摄影[20][22] - 模型支持一次性生成2K分辨率的图像,保证了画面的质感[6][50] 强大的图片编辑功能 - 模型支持多图编辑功能,例如可将不同图片中的人物、服装、背景进行自然融合,并补充细节如倒影[23][25] - 仅需上传一张照片并给出指令,模型即可生成一套影棚级的九宫格风格写真[27] - 编辑功能不仅限于图像,还能为生成的图像自动配文,例如为水墨画生成诗句[29] 卓越的中文文字渲染能力 - 模型在中文文字渲染方面表现突出,能准确生成包含数字、汉字、英文的科普信息图表[34] - 模型能将文字与画面艺术性融合,例如生成远看是字、近看是景的雪雕作品[35] - 在处理高密度排版如黑板报时,模型能做到文字1:1还原,笔锋和间距规整,达到可直接阅读的水平[37][39] 技术演进与模型性能 - 该模型是公司两条技术路线(生图能力与编辑能力)的融合成果,整体表现更稳定[41][42] - 针对小字号、高密度文字易模糊的行业痛点,模型在VAE与生成模型两端同步升级,显著提升了文字可读性[44] - 模型在参数规模上做了收敛,体量更轻,部署门槛更低,生图速度更快,适合高频调试与实时创作场景[45][46] 市场评价与可用性 - 在国际AI Arena模型评测中,Qwen-Image-2.0在文生图、图生图基准测试中成绩靠前,仅次于谷歌Nano Banana Pro和GPT Image 1.5[40] - 模型已通过阿里云百炼平台开通API邀测,开发者也可通过Qwen Chat免费体验[52][53]
腾讯宣布春节红包新玩法 元宝派将启动红包掉落活动
环球网· 2026-02-07 16:09
元宝APP春节活动用户参与度 - 自2月1日元宝APP春节主会场启动以来,元宝AI生图功能使用率飙升30倍 [3] - 新用户平均每天跟元宝的互动问答超过8轮 [3] - 用户单日使用元宝时长增长超80% [3] 元宝AI功能与技术升级 - 元宝宣布正式接入混元图生图3.0模型 [3] - 用户通过元宝APP"创作"入口,可体验超400套新春创作模版 [3]
电商人实测:真正能批量出产品效果图的AI软件,到底解决了我哪些工作难题?
搜狐财经· 2026-02-07 08:59
电商行业视觉内容生产的痛点 - 电商运营面临视觉内容高频更新需求,传统摄影与设计流程存在“慢”和“贵”的核心风险,导致响应速度慢且试错成本高 [1] - 传统模式依赖摄影棚、设计师和反复修改,成本高昂且周期长,一旦方向错误前期投入即作废 [1][3] - 具体痛点包括新品上架缺主图、老品改版详情页过时、活动节点临时调整缺图、平台要求多尺寸多风格导致一套图不够用 [3] 现有AI生图工具的局限性 - 市面多数AI生图工具生成的图像更接近“概念海报”而非商品图,存在产品比例不对、材质失真、包装细节被魔改、logo出错等问题,不适合电商转化场景 [1][4] - 许多工具无法有效批量生产,当需要10张或20张同风格产品图时,效率甚至低于人工,且存在参数不可复用、风格难以统一的问题 [1][4] - 工具本身非为电商设计,运营人员需自行“翻译”电商需求,通过大量试错换取可用图片,沟通与试错成本极高 [1][4] 即梦AI 4.5生图模型的核心优势 - 该模型对产品结构和商业细节理解深刻,能生成产品结构稳定、包装比例准确、材质光影接近真实拍摄的图像,同一组图风格高度统一 [7][8] - 真正支持电商友好的批量出图功能,可基于同一产品、同一风格,快速生成不同场景、构图和氛围的图片,且输出质量稳定 [12][13] - 产品逻辑站在“业务侧”而非“炫技侧”,特别关注电商运营关心的速度、稳定性、可复用性和规模化能力 [31][32] 即梦AI 4.5生图模型带来的效率变革 - 显著降低沟通成本,无需反复向设计师解释需求;降低试错成本,可快速验证不同视觉方向 [34] - 大幅提高响应速度,例如一次因平台活动临时改规则需重做主图,从改需求到图可上线用时不到1小时,而传统方式需3至5天 [24][27] - 支持长期复用,提示词(prompt)可沉淀为可重复使用的资产 [34] 适用场景与用户画像 - 该工具特别适合电商运营或店铺负责人、需要高频更新商品图、对设计有要求但预算有限、以及希望提升视觉测试效率的人群 [35] - 推动工作方式从“拍图思维”转向“生成思维”,流程变为先生成、再快速筛选、后数据验证,使视觉成为可持续优化的变量 [33] 工具的市场定位与价值主张 - 即梦AI定位为国内顶级的图片、视频AI双TOP创作工具,其目标是成为电商运营的“基础设施”而非玩票工具 [2] - 电商需要的AI生图工具并非最炫或最艺术的,而是最能落地、最能规模化、最能为转化服务的工具 [33] - 该工具能满足电商行业对一款能批量出产品效果图、真正适合电商场景、并能被纳入日常工作流的AI软件的核心需求 [36]
火爆全网的AI片场探班玩法,手把手教会你。
数字生命卡兹克· 2025-12-25 09:20
AI视频生成玩法的新趋势 - 近期在小红书和X等社交平台上,一种“AI片场探班”视频玩法流行,用户可生成与各类明星、角色在虚拟片场或场景中的合影视频,形成广泛传播的热潮 [1] 生成AI图片的关键步骤与工具选择 - 生成过程主要分为三步:使用提示词生成图片、利用首尾帧生成视频、最后用剪辑软件拼接视频 [4] - 在生成图片环节,首先尝试使用Nano Banana Pro模型,该模型具备强大的世界知识,理论上只需输入影片、角色和场景即可生成目标图片 [4] - 然而,Nano Banana Pro在处理亚洲人脸时存在一致性不足的问题,生成的图像人物面部特征易失真,与用户本人差异较大 [7][9][11] - 针对亚洲人脸优化,转而使用国产模型即梦(Seedream 4.5),通过提供参考图和提示词进行面孔替换,成功解决了人脸一致性问题,获得了可识别的个人图像 [11][13][14] - 对于非电影场景(如游戏),可通过让Gemini等AI工具根据初始提示词进行反推和改写,快速生成适配新场景的提示词,无需背诵或购买 [16][17] - 对于某些特定内容(如经典国产剧《武林外传》),Nano Banana Pro因缺乏相关知识而无法有效生成,必须依赖国产模型即梦,结合网络参考图和Gemini生成的提示词进行多次尝试才能达到较好还原度 [23][25] AI视频生成与后期处理 - 在获得满意的图片后,视频生成过程相对简单,使用具备首尾帧功能的模型(如可灵O1或即梦3.5 Pro)即可,将生成的前后两张图作为首尾帧,并添加描述人物移动的提示词 [25] - 提示词需要根据生成结果进行多次调整和优化,例如移除不想要的物品(如手机)、控制人物行走速度等,以得到理想效果 [27] - 生成的视频素材可导入剪映等剪辑软件进行加工,添加拍照特效和音效,最终完成视频制作 [30] 应用案例展示 - 该技术可应用于多种场景,例如生成与《阿凡达》角色在潘多拉星球的合影 [28] - 生成在《怪奇物语》片场与主角及怪物的合照 [29] - 生成穿越到三国时期与历史人物会面的场景 [32] - 实现与经典影视作品(如《武林外传》)角色的同框,唤起用户的情感回忆 [33][34][35]
你还在晒AI图,有人已经在靠“提示词”收款了
36氪· 2025-11-27 17:40
即梦4.0产品升级 - 即梦4.0版本在图像生成的真实感上实现重大突破,尤其补齐了人物眼神的短板,使瞳孔有光、表情带情绪,营造出偶然抓拍的错觉,显著减少了此前版本的"AI味"[8] - 技术层面实现"快、准、真"三大优势:采用多模态统一架构实现理解、生成、编辑一步到位;通过一致性算法锁定人物核心特征并在不同角度下保持稳定;支持4K高清生成,细节真实到衣料纹理和皮肤质感可见[11] - 与即梦3.x版本相比,4.0版本生成的图片使外人第一反应不再是"这图P得不错",而是质疑"真的假的",这种真假模糊地带成为传播的最佳温床[11] 市场热度与用户采用 - 即梦4.0功能结合明星流量形成爆火出圈现象,例如詹姆斯中国行期间用户广泛使用该工具生成与明星的合影在朋友圈传播[2] - 产品火爆的条件包括技术突破使虚拟合影跨过"像不像人"的坎、集成在月活达1.57亿的豆包应用中极大降低使用门槛,以及明星自带的天然流量加成[12] - 该应用的火爆程度已扩展到广泛用户群体,甚至父辈用户也开始使用其为孩子进行换装或与明星合影[12] 提示词经济生态 - 围绕AI生图工具形成了提示词交易生态,网上存在大量P图指令帖子,单个帖子可获得大几百个赞,提示词模板成为一门生意[4] - 部分店铺以几块钱的价格出售提示词模板,可卖出几百份,形成一笔不小的收入,好的提示词被视为能直接生成杂志质感的"新滤镜"[4][16] - 由于普通人缺乏时间精力调试参数,购买现成提示词成为需求,提示词交易本身已是一门小生意[16] 行业趋势与产品定位 - AI图像生成工具正推动行业进入"所想即所得"时代,传统需要摄影棚、灯光、化妆师、后期师的复杂流程,现在一个提示词即可实现[17] - 即梦4.0被定位为超越生图工具的"人生生成器",用户可生成与18岁的自己同框、未来60岁的自己或未曾选择的人生道路可能样貌等场景[17] - 行业趋势显示未来将出现更多"所见未必为实"的时刻,工具本身已成为大众可用的基础能力,关键在于用户如何创造性地使用[18]
开源模型叫板Nano Banana Pro!Stable Diffusion原班人马杀回来了
量子位· 2025-11-26 17:33
模型发布与定位 - Flux 2由黑森林实验室推出,是Flux 1的升级版,定位为生产力工具[1][2] - 模型发布即开源,获得Hugging Face联创支持[1] - 对标谷歌Nano Banana系列,主打性价比优势,质量接近但价格更低[42] 技术能力与性能 - 具备多参考图像处理能力,可同时参考多达10张图像[3][16] - 支持精细控制,如根据参考人物和指定姿势草图生成图像[5][7] - 图像编辑支持高达4MP分辨率(2560x1440像素)[44] - 在指令遵循、图像细节和照片真实感方面有显著增强[63] 产品版本与定价 - 提供四个版本:pro版(生产工作流,生成速度<10秒,文生图起价$0.03)、flex版(可调参数,最高质量,文生图起价$0.06)、dev版(32B开放权重,非商业免费)、klein版(即将推出)[16][17] - pro版生图质量媲美顶尖闭源模型Nano Banana,但成本更低[16] - 普通用户可通过Flux Playground在线试玩,开发者可通过Hugging Face获取权重或调用第三方API[17] 实测表现 - 在食谱图解生成测试中,pro版一分钟内生成4张图,拼写和内容准确[18][19][21] - 图像编辑功能能准确理解指令,如给马斯克添加黄色头盔且保持背景不变[31][33] - 支持多人物融合生成,能实现马斯克、李飞飞等多人同框效果[35][37] - 目前对中文支持较弱,但可用中文提示词要求生成英文内容[29] 市场对比与优势 - 网友实测显示在老照片修复、真实感增强方面表现优于Nano Banana系列[46][48] - 相比Nano Banana Pro的有限免费次数,Flux 2具有价格优势[42] - 团队背景雄厚,由Stable Diffusion原班人马创建,Flux 1曾获AI大神卡帕西站台[55][57][59]
太炸裂了!全网实测Nano Banana Pro,网友:这模型里到底装了什么鬼东西!
量子位· 2025-11-21 14:29
产品核心特点 - 谷歌推出最新最强文生图模型Nano Banana Pro,又名Gemini 3 Pro Image,整合了Gemini 3 Pro的多模态理解能力以及谷歌搜索的知识库,能理解现实语义与物理逻辑[11][12] - 主要升级包括支持2K、4K高清分辨率及多种宽高比,文字渲染能力大幅提升支持多语言直接渲染或翻译,支持最多14张图像融合生成,基于Gemini 3 Pro的多模态理解能力支持生成复杂专业图表[13][15] - 产品拥有最先进的图像生成和编辑功能,具备更高级的世界知识、文本渲染、精度和控制能力,基于Gemini 3构建,非常擅长制作复杂的图表[46] 功能性能演示 - 模型能够秒秒钟将英伟达最新财报PDF文件生成重点突出、内容精致的图表,一次性将未加工的Graphviz图表代码生成带logo的可视化效果图,直接生成论文流程图和核心概念解释图如Transformer架构图[2][4][6] - 生成自行车车架及组件的爆炸视图技术蓝图,拥有已拆卸的齿轮和链条,以毫米为单位进行尺寸标注,经过ChatGPT逐项打分认定完成度很高[14][17] - 实现14只娃娃坐在一起看电视的图像融合,整体氛围感符合要求,细节如落地灯光影和玩偶在窗户里的背影都考虑到,但娃娃数量未完全达到14只[18][20][21] 用户应用案例 - 用户将谷歌博客照搬进杂志,配图排版均由模型自动搞定,将灵魂草图转化为撕漫感插画并能拿捏人物神态,根据人物参考图1分钟生成带故事情节的条漫[29][32][34] - 通过口头描述直接生成世界杯对决海报,轻松制作各种结构分解图,用于生成精美的手册和指南如奥地利州狩猎参考指南[37][39][42] - 模型对物理世界理解增强,生成的透明物体能够经受住光影考验,展现更强的现实语义理解能力[44] 市场反响 - 模型出世后短短几小时即掀起全网疯玩热潮,硅谷VC大佬Deedy率先分享实测案例引发广泛关注[1][10] - 网友脑洞大开利用模型进行各种奇思妙想的创作,谷歌CEO皮猜亲自贡献生成图像并为产品站台[28][46] - 普通用户可在Gemini应用中免费体验但有限额,Google AI Plus、Pro和Ultra订阅用户享有更高配额[13]
AI技术滥用调查:“擦边”内容成流量密码,平台能拦却不拦?
虎嗅· 2025-10-12 18:08
AI技术滥用现状 - AI技术被滥用于制作不雅视频、克隆照片和恶意造谣,受害者包括高校导师、白领和公众人物等[1][6][8][9] - 社交平台上明星"AI换装"和"AI擦边"内容泛滥,成为流量密码,部分账号专门发布此类内容吸粉变现[2][10][11][13] 平台治理措施 - 小红书2025年上半年共处置治理虚假低质AIGC笔记60万篇,平台正加大AIGC识别模型研发投入并实施主动标识[24] - 抖音表示根据社区自律公约对低俗媚俗内容采取限制措施,无论是否通过AI生成[25] - 平台通常会在AI生成图片上标注"疑似AI创作,请谨慎甄别"等提示语,但律师认为仅标注不能自动豁免法律责任[27][28] AI应用实测结果 - 测试的12款AI应用中,5款(即梦、豆包、可灵、腾讯元宝和阶跃AI)可实现明星"一键换装"[32] - 9款应用(即梦、豆包、堆友、无界AI、秒画、LiblibAI、可灵、星流AI、腾讯元宝)能生成衣着暴露的"擦边"图片[40] - 部分应用如LiblibAI生成的图片尺度较大甚至露点,该平台模型创作者已突破两千万,累计生成图片逾5亿张[43] 企业回应与整改 - 星流AI和LiblibAI母公司承认新模型上线初期识别精度波动导致风险内容遗漏,已完成紧急修复优化[46][47] - 豆包和即梦表示严格遵守法律法规禁止生成色情内容,承认AI技术处于发展早期将持续改进[51] - 无界AI月独立设备数为13.5万台,公司称已采取多项防范措施[51] 技术防范瓶颈 - 专家指出拦截违规内容在技术上无根本难度,但需要消耗算力成本,可通过构建名人识别模型充当防火墙[55][56] - AI公司可对用户提示词进行合规改写,并对生成图片实施实时风险检测,但模型本身的大尺度内容漏过问题仍需解决[50] 法律监管环境 - 我国已出台多项法规包括《生成式人工智能服务管理暂行办法》《人工智能生成合成内容标识办法》等对AI内容进行规范[57][58] - 现行法律对"擦边"内容存在界定标准模糊、审核义务边界不明确等问题,导致灰色地带较多[60] - 2023年三部门联合指导意见强调利用深度合成技术发布违法信息的情形将依法从重处罚[59]
登顶苹果应用榜!谷歌火遍全网的“纳米香蕉”,凭啥击败ChatGPT?
证券时报· 2025-09-16 15:51
谷歌Gemini应用市场表现 - 谷歌旗下AI应用Gemini在美区AppStore下载量超越ChatGPT,登顶免费榜第一名 [1][2] - 除美国外,Gemini在加拿大、印度、摩洛哥等国家同样实现下载榜登顶,打破ChatGPT长期垄断地位 [2] Nano Banana技术突破与用户增长 - 谷歌DeepMind发布新一代AI图像生成与编辑模型Gemini 2.5 Flash Image,代号Nano Banana,在图像质量、编辑控制和应用场景上有大幅改进 [4] - Nano Banana功能上线后累计完成超2亿次图像编辑,并带动超1000万新用户尝试Gemini应用 [4] - 技术层面实现四大提升:自然语言驱动图像编辑、角色一致性与场景融合、多图融合与世界知识注入、降低3D建模门槛 [4][5] - 用户体验范式重构,实现从复杂工具栏到一句自然语言、从渲染缓慢到秒级出图、从效果不稳定到跨图一致性等突破 [9] 资本市场反应与行业影响 - 受益于反垄断裁决结果好于预期及Nano Banana市场表现,谷歌股价持续上涨,市值冲上3万亿美元 [1][9] - 花旗集团分析师将谷歌母公司Alphabet目标价从225美元上调至280美元,理由是Gemini在广告与云业务中采用加速,产品开发周期更快 [9] - Nano Banana火爆点燃图像生成视频赛道战火,国内厂商如字节跳动Seed团队推出豆包图像创作模型Seedream 4.0,生数科技推出Vidu Q1参考生图功能正面对标 [10] - 华泰证券认为原生多模态模型架构获业界认可,多模态为主的产品商业化快于文本产品,多模态大模型和应用发展奇点将至 [10] 多模态AI投资机会 - 多模态在算力和应用两方面带来投资机会:算力侧,原生多模态模型需要更多算力,视频推理算力需求远大于文字 [11] - 应用侧,国内视频生成模型领先,广告、零售、创作、教育等领域均有AI化需求 [11]