Workflow
AI生图
icon
搜索文档
李飞飞团队新作:简单调整生成顺序,大幅提升像素级图像生成质量
量子位· 2026-02-14 18:09
文章核心观点 - 李飞飞团队提出的Latent Forcing方法,通过重排扩散模型的生成轨迹,强制实现“先定结构、后填细节”的逻辑,从而在保持100%原始像素精度的同时,解决了传统AI生图方法在效率与保真度之间的取舍矛盾,并在多项指标上刷新了SOTA [4][5][6][26] 传统方法瓶颈 - 传统像素级扩散模型在降噪过程中,高频纹理细节会干扰低频语义结构,导致模型在未明确整体轮廓时就预测局部像素颜色,违背视觉生成的自然逻辑,容易产生结构混乱和速度慢的问题 [8][9] - 潜空间模型通过预训练tokenizer将图像压缩到低维空间,生成速度快,但依赖预训练解码器会引入重建误差,并丧失端到端建模原始数据的能力 [11][12] Latent Forcing方法原理 - 该方法核心是对扩散轨迹进行重新排序,在不改变基础Transformer架构的前提下,引入双时间变量机制,让模型同时但异步地处理像素和潜变量 [14][16] - 在生成初期,潜变量率先完成降噪,在大尺度上确立图像的语义骨架;在结构确定后,像素部分再进行精细化的降噪填色 [19] - 生成过程结束后,用于结构引导的潜变量“草稿”被直接丢弃,最终输出是100%无损的原始像素图像,无需解码器,整个过程端到端、可扩展,且几乎不增加计算量 [20][21] 性能表现与突破 - 在ImageNet-256任务中,相同计算规模下训练80个epochs,Latent Forcing的条件生成FID分数从此前最强的像素级模型JiT+REPA的18.60降至9.76,接近腰斩 [22] - 在200个epoch的最终模型(ViT‑L规模)下,Latent Forcing实现了条件生成FID 2.48(guided)、无条件生成FID 7.2(unguided)的分数,创下像素空间扩散Transformer新的SOTA [23][24] - 该方法打破了学术界“必须通过更高倍率的有损压缩才能换取好的FID表现”的普遍观点,证明在保持100%原始像素精度的情况下,性能可以超越有损模型 [25][26] 研究团队 - 该研究项目由斯坦福大学教授李飞飞领衔,其他共同作者包括Eric Ryan Chan、Kyle Sargent、Changan Chen和Ehsan Adeli,密歇根大学教授Justin Johnson作为合作作者参与 [27][28][29]
这个春节P图不求人!小红书开源图像编辑新SOTA
量子位· 2026-02-12 19:00
FireRed-Image-Edit模型发布 - 小红书基础模型FireRed-Image-Edit正式亮相,在AI生图领域展现出强劲实力 [2][3] - 该模型在处理复杂编辑指令、风格化转换及高精度文字编辑等多个核心指标上表现超强,在多项权威测试中达到业界领先水平 [3] - 项目代码、技术报告和demo网页已开源,模型权重也即将在未来几天开源 [6] 模型性能与技术优势 - 模型在ImgEdit、GEdit等多个榜单中取得了SOTA结果,凭借更精准的理解力、更强的ID保持度及高效的架构脱颖而出 [3] - 其高效架构背后的技术底座来自小红书Super Intelligence Team在图像生成与编辑领域的重要探索 [5] - 模型通过一套数据引擎与三阶段训练逻辑构建,包括预训练、微调和强化学习阶段,以提升指令泛化理解能力和训练效率 [13][16] 评测标准与数据构建 - 团队推出了RedEdit Bench深度评测方案,包含15个子任务,覆盖画面增删改、人像美化、低画质增强等高频实战场景 [9] - 该Bench对编辑模型通用能力的评估精度相比ImgEdit和GEdit更高,并计划开源以为开源社区建立新维度的评估标准 [10][11] - 模型构建了图像编辑数据生产引擎,通过三条路径规模化产出训练对,并采用“检查—补齐”流程解决长尾任务样本稀缺问题,确保数据质量 [13][14] 核心功能与能力展示 - 模型具备强大的指令遵循一致性,通过随机指令对齐机制使模型能真正理解语义与图像的对应关系 [18][20] - 在文字编辑方面,创新性地提出了Layout-Aware OCR-based Reward,在强化学习阶段惩罚错别字、字符错位、大小异常和布局崩坏,以提升文字编辑准确性并保持原始风格 [26][27][28] - 模型支持创造力场景生成和多参考图生成,包括风格迁移或多图融合,并能将超分、去模糊、去噪及光影增强等底层视觉任务统一纳入指令微调,实现一键画质调整 [33][44] 未来计划与社区贡献 - 公司计划后续进一步提升基础模型在人像美化、一致性、文字上的编辑能力 [49] - 将在未来几个月内持续开源更新版本和文生图基座模型 [49] - 通过开源FireRed-Image-Edit,公司希望为社区提供一个高效、可控、高质量的基座 [48]
春节前打响“百模大战”:AI生图为何突然“开窍”了?
新浪财经· 2026-02-12 15:27
行业核心观点 - 2026年初,阿里巴巴的Qwen-Image-2.0与字节跳动的Seedream 5.0同日发布,标志着AI生图行业竞争进入新阶段,行业焦点已从早期的创意探索转向高效生产,核心能力体现在可控生成、文字还原和多场景适配等方面 [2][31] - AI生图行业在不到四年时间内从“破圈”走向“成熟”,2025年谷歌Nano Banana凭借轻量化优势推动了技术普惠,2026年则成为各大模型厂商的角力场 [3][4][30] - 行业竞争逻辑发生根本变化,从比拼生成质量和创意发散,转向比拼可控性、场景适配性和生态整合力,以满足商用场景的批量生产需求 [24][51] 技术演进与核心能力突破 - **关键分水岭**:2025年,谷歌Nano Banana引爆“轻量普惠”时代,降低了使用门槛,实现了图文原生融合和快速出图 [5][32] - **最新模型突破**:阿里巴巴Qwen-Image-2.0首次将图像生成与编辑功能统一到单一模型架构,提升了出图效率;字节跳动Seedream 5.0增强了对提示词的理解能力,支持检索生图、多步逻辑推理和联网知识整合 [5][32] - **四大核心能力**:1) **多模态原生融合**:解决了图内文字乱码问题,能精准生成文本;2) **物理世界对齐**:生成的画面符合真实世界的物理规律;3) **可控生成**:能精准控制细节,支持局部修改和多轮编辑而不影响整体;4) **动态叙事**:能理解复杂业务逻辑,主动推理并输出完整交付物 [6][33] 主要模型技术路线与场景适配 - **模型共性**:主流模型均主打端到端多模态图像生成,功能上一站式搞定(文生图、图生图、编辑等),能理解创作意图,且生成效率高,几秒钟即可出图,并能适配商用场景的交付标准 [8][9][35][36] - **阿里巴巴 Qwen-Image-2.0**:采用MMDiT多模态扩散架构,整合生图与编辑能力,擅长中文创作场景,能解析最多1000个字符的中文长指令,对中文文字(如古诗词)的生成和排版还原度较好,适用于海报、广告图等场景 [11][38] - **字节跳动 Seedream 5.0**:采用混合多模态架构,加入RAG知识库和联网检索能力,能通过检索获取最新信息后再生成图片,对内容时效性要求高的场景(如热点事件、新产品)有帮助,同时擅长理解抽象指令,进行创意内容生成 [16][19][46][48] - **谷歌 Nano Banana**:采用Flow-Matching架构,在光影、材质、空间关系等物理细节还原上表现自然,角色一致性高,适合需要多图风格统一的需求(如故事绘本、IP设计),作为轻量化模型,硬件门槛低,普通笔记本即可运行,但中文理解能力和时效性内容支持有限 [23][50] 行业竞争格局与未来趋势 - **竞争焦点转变**:2026年,行业核心需求从创意探索转向高效生产,评价指标变为可控性、场景适配性等,Midjourney因在精细化控制和批量生产方面存在局限,市场声量下降 [23][24][51] - **当前三大竞争维度**:1) **可控性**:需求匹配度成为关键,如Seedream和Qwen在商用场景下的可用率更高;2) **场景适配性**:厂商深度绑定具体场景以建立壁垒,如Seedream集成到剪映切入短视频制作,Qwen瞄准电商和办公场景,Nano Banana面向专业摄影和影视领域;3) **生态整合力**:通过免费试用、简化操作(如Qwen的千问APP)等方式降低使用门槛 [24][25][52] - **未来发展方向**:1) **普及程度更高**:轻量化技术使更多设备可流畅运行,免费试用和低成本部署选项增加;2) **更懂用户需求**:AI能理解指令背后的意图,提供更个性化的方案;3) **场景适配加深**:技术与电商、短剧制作、设计等具体场景结合更紧密,实现一键生成和流程自动化;4) **使用门槛降低**:可能只需上传参考图加简单描述即可生成结果 [25][26][52][53]
阿里、字节同日上新图像生成模型,对标Nano Banana Pro
每日经济新闻· 2026-02-12 08:50
行业动态:中美AI图像生成模型竞速 - 2025年2月10日,阿里巴巴与字节跳动同日发布新一代图像生成模型,均对标谷歌的Nano Banana Pro [1][2] - 阿里巴巴发布Qwen-Image-2.0模型,聚焦语义理解与实用编辑,统一了生成与编辑架构,并强化了中文汉字渲染能力,能更好理解超长复杂指令 [1] - 字节跳动发布Seedream5.0Preview模型,主打检索生图与精细调控,显著提升提示词理解准确率,支持更精细的纹理生成与可控调整,深度适配内容创作全流程 [1] 技术进展与模型性能 - Qwen-Image-2.0支持1K token的超长文字输入和2K高分辨率输出,可准确渲染复杂指令,生成专业PPT及信息图 [2] - Qwen-Image-2.0在原有两大模型基础上全新升级,首次将图像生成和编辑统一到一个模型中,以更轻量架构实现生图和改图性能的大幅提升 [2] - Seedream5.0Preview支持2K和4K分辨率输出,用户可在即梦平台免费体验2K输出效果 [2] - 当前AI生图文字细节崩溃的主要原因包括:VAE(变分自动编码器)技术对图像中文字(尤其是小尺寸文字)处理的局限性,以及图像生成模型自身建模能力的限制 [3] 应用场景:电商领域 - AI生图是当前电商客户除数字人外,消耗token(最小文本单元)较大的需求 [1][6] - 电商场景是Qwen-Image模型落地的主流场景之一,Qwen-Image-2.0针对电商场景在商品生产细节、文字可控度及二次编辑等方面进行了优化 [1][6] - 新模型可将商品详情页描述图、模特穿搭效果等任务结合完成,通过将图片编辑和生成融合在一个模型中,提升电商卖家的效率,推动企业级应用落地 [6] 应用场景:漫剧市场 - AI技术正逐步渗透漫剧市场,主流制作途径为AI生成图片,再经图片视频化,搭配AI配音和字幕完成出片 [4] - 据东吴证券研报,AI可使漫剧制作成本降低90% [4] - 中文在线AI动漫部总经理表示,AI将传统漫剧的11个制作流程精简为4个步骤(剧本创作、图片生成、图转视频、后期加工),大大提高生产速度 [4] - 艾媒咨询数据显示,51.2%的用户肯定AI在降低漫剧制作成本方面的价值,47.7%的用户肯定其在加快IP转化方面的价值 [5] - 同时,47.1%的用户指出AI漫剧在画面风格统一性上存在不足,46.7%的用户指出其在配音情感表现上存在不足 [5] - AI漫剧目前极为依赖“抽卡”生成模式,最终效果高度依赖AI自身的理解与推理能力,人工干预主要在于打磨提示词 [5] 市场展望与行业影响 - 2025年图像生成技术正逐步渗透到电商场景与漫剧市场中 [2] - 随着技术进步,行业关注2026年是否能迎来规模化应用市场 [2] - AI技术对漫剧行业的影响兼具机遇与挑战,既通过降本增效推动行业升级,也因画风、配音等质量问题,倒逼行业在追求规模化的同时强化内容创意与品质把控 [5]
对标Nano Banana Pro 阿里、字节同一天发布图像生成模型 AI生图将迎来规模化应用市场?
每日经济新闻· 2026-02-11 23:51
阿里与字节发布新一代AI图像生成模型 - 2025年2月10日,阿里巴巴与字节跳动同日发布新一代图像生成模型,均对标谷歌Nano Banana Pro [1] - 阿里巴巴发布Qwen-Image-2.0,聚焦语义理解与实用编辑,统一了生成与编辑架构,并强化了中文汉字渲染能力,能更好理解超长、复杂的实用化指令 [1] - 字节跳动发布Seedream5.0 Preview,主打检索生图与精细调控,显著提升提示词理解准确率,支持更精细的纹理生成与可控调整,深度适配内容创作全流程 [1] 模型技术细节与性能 - Qwen-Image-2.0支持1K token的超长文字输入和2K高分辨率输出,可准确渲染复杂指令,轻松生成专业的PPT及信息图 [3] - Qwen-Image-2.0在Qwen-Image和Qwen-Image-Edit两大模型基础上全新升级,首次将图像生成和编辑统一到一个模型中,以更轻量的架构实现了生图和改图性能的大幅提升 [3] - Seedream 5.0 Preview支持2K和4K分辨率输出,用户可在即梦平台免费体验2K输出效果 [3] - 当前图像生成模型普遍采用VAE技术,其重构过程对图像中文字的处理影响显著,特别是小尺寸文字,当文字内容较多时生成难度将显著提升 [4] - 图像生成的真实度与细节还原质量受限于VAE的处理能力上限以及生成模型的建模能力 [4] 电商场景的应用与优化 - 算力运营商透露,AI生图是当前电商客户除数字人外,消耗token(最小文本单元)比较大的需求 [1][7] - 千问大模型高级解决方案架构师表示,电商场景是Qwen-Image模型落地的主流场景之一,Qwen-Image-2.0基于电商场景在商品生产细节、文字可控度及二次编辑等方面进行了优化 [1][7] - 在电商场景中,商品详情页描述图、模特穿搭效果等可以更好地结合新的图像生成模型完成 [7] - 相较于上一代模型需要通过二次编辑完成可控的商品出图,新模型将图片编辑和生成任务融合在一个模型中,从而提升电商卖家的效率 [7] AI漫剧市场的应用与影响 - AI生图技术正逐步渗透到漫剧市场,主流制作途径是AI生成图片,再将图片视频化,并搭配AI配音和字幕来完成出片 [5] - 东吴证券研报指出,AI可以使漫剧制作成本降低90% [5] - 中文在线AI动漫部总经理表示,AI把传统漫剧的11个繁复制作流程精简为剧本创作、图片生成、图转视频、后期加工4个步骤,大大提高生产速度 [5] - AI漫剧极为依赖“抽卡”生成模式,最终效果几乎完全取决于AI自身的理解与推理能力,操作者主要能做的只有打磨提示词 [5] - 艾媒咨询数据显示,51.2%的用户肯定AI技术在降低漫剧制作成本方面的价值,47.7%的用户肯定其在加快IP转化方面的价值 [5] - 同时,47.1%的用户指出AI漫剧在画面风格统一性上存在不足,46.7%的用户指出其在配音情感表现上存在明显不足 [5] - 行业分析认为,AI技术通过降低制作成本、加快IP转化推动漫剧行业升级,但也因画风统一度、配音质感等问题,倒逼行业在追求规模化的同时强化内容创意与品质把控 [6] 行业发展趋势 - 当前AI生图已不局限于视觉创作,正进一步走向企业级、规模化应用的赛道 [1] - 随着AI生图技术进步,行业关注其能否在2026年迎来规模化应用市场 [1] - 中美在AI领域的竞速正在持续 [2]
中文版Nano Banana来了?Qwen-Image-2.0炸场:1K长文本硬吃,中文生图彻底不拧巴了
36氪· 2026-02-11 07:05
阿里发布新一代图像生成模型Qwen-Image-2.0 - 公司发布新一代图像生成及编辑模型Qwen-Image-2.0,该模型在长文本理解、复杂指令执行、中文渲染及多图编辑等方面能力显著提升 [10] - 模型支持高达1K token的超长文本指令输入,并能准确理解复杂指令,生成准确率有所提升 [10] - 模型具备强大的图片编辑能力,支持上传单张或多张图片,通过提示词指令进行二次创作、修改等操作 [26] - 模型在中文文字渲染方面表现突出,能够高保真地生成包含汉字、数字、符号的图文内容,排版规整,笔锋清晰 [7][44][46] - 模型输出图像分辨率可达2K,保证了画面的质感 [10][56] - 模型在AI Arena国际评测平台的文生图基准测试中表现优异,Elo得分达到1029,排名第三,仅次于谷歌Gemini-3-Pro-Image-Preview和OpenAI的GPT Image 1.5 [46] 模型核心能力与实测表现 - **长文本与复杂指令理解**:模型成功处理了长达700字的复杂提示词,生成了包含五宫格结构、时间推进、场景切换且人物形象稳定的《西游记》主题漫画 [13][14][16] - **结构理解与细节还原**:模型根据600多字的详细描述,生成了结构准确、细节真实的汉堡分解信息图,食材层次、纹理质感(如牛肉饼焦化纹理、芝士拉丝)均得到很好呈现 [17][19] - **多重要求综合生成**:模型在同时满足“画轴、立体城市、微缩建模、2K分辨率”等多重要求下,生成了完成度高的上海市3D景观图,场景结合自然,细节处理细致 [19][20][23] - **创意场景构建**:模型根据提示生成了2K微距摄影视角下的“大米王国”场景,微缩人物比例、动作逻辑真实,米粒质感与景深处理接近真实摄影 [23][25] 多图编辑功能 - **多图融合编辑**:模型能够将多张输入图片的元素进行融合,例如将指定人物的服装替换并置于另一场景中,且补足倒影等细节,效果自然无违和感 [26][29] - **单图扩展创作**:仅输入一张人物照片,模型可根据指令生成一套包含多种角度和风格的九宫格影棚级写真 [8][31] - **图文结合创作**:模型在生成或编辑图片时,能同时根据指令生成配套文案,例如为水墨画自动题诗 [34] 中文渲染与文字生成能力 - **信息图表生成**:仅通过文字指令,模型即可生成包含数字、汉字、英文的完整科普信息图表,排版清晰可直接使用 [37] - **艺术字融合**:模型能将文字与画作完整融合,生成如“雪雕版”文字景观,实现远看是字、近看是景的效果 [41] - **高密度文字排版**:模型能高精度还原黑板报等复杂排版中的中文、数字及符号,文字几乎无乱码或假字,达到可直接阅读水平 [44][46] - 技术层面,模型通过升级VAE与生成模型,显著提升了小字号及高密度文字场景下的可读性,使PPT、信息图等场景能稳定输出可用图像 [50] 模型演进与技术特点 - 该模型是公司图像生成技术路线的集大成者,将此前分别侧重文字渲染准确性和图像细节质感的两条技术路线收拢合一,同时具备强大的生图和编辑能力 [48] - 模型在参数规模上做了进一步收敛,在提升能力的同时使模型体量更轻,降低了部署门槛,并提升了生图速度,适合高频提示词调试、实时展示等场景 [51] - 模型已通过阿里云百炼平台开通API邀测,开发者也可通过Qwen Chat免费体验 [58]
中文版Nano Banana来了?Qwen-Image-2.0炸场:1K长文本硬吃,中文生图彻底不拧巴了
量子位· 2026-02-10 19:59
阿里新一代图像生成模型Qwen-Image-2.0发布 - 公司发布了新一代图像生成及编辑模型Qwen-Image-2.0,该模型在长文本理解、复杂指令执行、中文渲染及多图编辑等方面表现突出[6] - 模型支持高达1K token的超长文本指令输入,并能准确理解复杂指令[8][9] - 模型具备强大的图片编辑能力,支持基于多张图片进行二次创作和修改[6][23] 长文本与复杂指令理解能力 - 模型能处理长达七八百字的超长提示词,并保持上下文一致性[9][11] - 在实测中,模型根据一段700字的复杂指令,生成了结构清晰、角色一致的《西游记》主题五宫格漫画[11][13] - 模型能根据600多字的详细描述,生成结构准确、细节真实的2K分辨率汉堡食材分解信息图[15][17] 多场景图像生成质量 - 模型能根据包含画轴、立体城市、微缩建模等多重要求的指令,生成上海市的3D景观图,细节处理到位[18][20] - 在微观景观生成测试中,模型能准确呈现“大米王国”的微缩比例关系与物理逻辑,画面质感接近真实微距摄影[20][22] - 模型支持一次性生成2K分辨率的图像,保证了画面的质感[6][50] 强大的图片编辑功能 - 模型支持多图编辑功能,例如可将不同图片中的人物、服装、背景进行自然融合,并补充细节如倒影[23][25] - 仅需上传一张照片并给出指令,模型即可生成一套影棚级的九宫格风格写真[27] - 编辑功能不仅限于图像,还能为生成的图像自动配文,例如为水墨画生成诗句[29] 卓越的中文文字渲染能力 - 模型在中文文字渲染方面表现突出,能准确生成包含数字、汉字、英文的科普信息图表[34] - 模型能将文字与画面艺术性融合,例如生成远看是字、近看是景的雪雕作品[35] - 在处理高密度排版如黑板报时,模型能做到文字1:1还原,笔锋和间距规整,达到可直接阅读的水平[37][39] 技术演进与模型性能 - 该模型是公司两条技术路线(生图能力与编辑能力)的融合成果,整体表现更稳定[41][42] - 针对小字号、高密度文字易模糊的行业痛点,模型在VAE与生成模型两端同步升级,显著提升了文字可读性[44] - 模型在参数规模上做了收敛,体量更轻,部署门槛更低,生图速度更快,适合高频调试与实时创作场景[45][46] 市场评价与可用性 - 在国际AI Arena模型评测中,Qwen-Image-2.0在文生图、图生图基准测试中成绩靠前,仅次于谷歌Nano Banana Pro和GPT Image 1.5[40] - 模型已通过阿里云百炼平台开通API邀测,开发者也可通过Qwen Chat免费体验[52][53]
腾讯宣布春节红包新玩法 元宝派将启动红包掉落活动
环球网· 2026-02-07 16:09
元宝APP春节活动用户参与度 - 自2月1日元宝APP春节主会场启动以来,元宝AI生图功能使用率飙升30倍 [3] - 新用户平均每天跟元宝的互动问答超过8轮 [3] - 用户单日使用元宝时长增长超80% [3] 元宝AI功能与技术升级 - 元宝宣布正式接入混元图生图3.0模型 [3] - 用户通过元宝APP"创作"入口,可体验超400套新春创作模版 [3]
电商人实测:真正能批量出产品效果图的AI软件,到底解决了我哪些工作难题?
搜狐财经· 2026-02-07 08:59
电商行业视觉内容生产的痛点 - 电商运营面临视觉内容高频更新需求,传统摄影与设计流程存在“慢”和“贵”的核心风险,导致响应速度慢且试错成本高 [1] - 传统模式依赖摄影棚、设计师和反复修改,成本高昂且周期长,一旦方向错误前期投入即作废 [1][3] - 具体痛点包括新品上架缺主图、老品改版详情页过时、活动节点临时调整缺图、平台要求多尺寸多风格导致一套图不够用 [3] 现有AI生图工具的局限性 - 市面多数AI生图工具生成的图像更接近“概念海报”而非商品图,存在产品比例不对、材质失真、包装细节被魔改、logo出错等问题,不适合电商转化场景 [1][4] - 许多工具无法有效批量生产,当需要10张或20张同风格产品图时,效率甚至低于人工,且存在参数不可复用、风格难以统一的问题 [1][4] - 工具本身非为电商设计,运营人员需自行“翻译”电商需求,通过大量试错换取可用图片,沟通与试错成本极高 [1][4] 即梦AI 4.5生图模型的核心优势 - 该模型对产品结构和商业细节理解深刻,能生成产品结构稳定、包装比例准确、材质光影接近真实拍摄的图像,同一组图风格高度统一 [7][8] - 真正支持电商友好的批量出图功能,可基于同一产品、同一风格,快速生成不同场景、构图和氛围的图片,且输出质量稳定 [12][13] - 产品逻辑站在“业务侧”而非“炫技侧”,特别关注电商运营关心的速度、稳定性、可复用性和规模化能力 [31][32] 即梦AI 4.5生图模型带来的效率变革 - 显著降低沟通成本,无需反复向设计师解释需求;降低试错成本,可快速验证不同视觉方向 [34] - 大幅提高响应速度,例如一次因平台活动临时改规则需重做主图,从改需求到图可上线用时不到1小时,而传统方式需3至5天 [24][27] - 支持长期复用,提示词(prompt)可沉淀为可重复使用的资产 [34] 适用场景与用户画像 - 该工具特别适合电商运营或店铺负责人、需要高频更新商品图、对设计有要求但预算有限、以及希望提升视觉测试效率的人群 [35] - 推动工作方式从“拍图思维”转向“生成思维”,流程变为先生成、再快速筛选、后数据验证,使视觉成为可持续优化的变量 [33] 工具的市场定位与价值主张 - 即梦AI定位为国内顶级的图片、视频AI双TOP创作工具,其目标是成为电商运营的“基础设施”而非玩票工具 [2] - 电商需要的AI生图工具并非最炫或最艺术的,而是最能落地、最能规模化、最能为转化服务的工具 [33] - 该工具能满足电商行业对一款能批量出产品效果图、真正适合电商场景、并能被纳入日常工作流的AI软件的核心需求 [36]
火爆全网的AI片场探班玩法,手把手教会你。
数字生命卡兹克· 2025-12-25 09:20
AI视频生成玩法的新趋势 - 近期在小红书和X等社交平台上,一种“AI片场探班”视频玩法流行,用户可生成与各类明星、角色在虚拟片场或场景中的合影视频,形成广泛传播的热潮 [1] 生成AI图片的关键步骤与工具选择 - 生成过程主要分为三步:使用提示词生成图片、利用首尾帧生成视频、最后用剪辑软件拼接视频 [4] - 在生成图片环节,首先尝试使用Nano Banana Pro模型,该模型具备强大的世界知识,理论上只需输入影片、角色和场景即可生成目标图片 [4] - 然而,Nano Banana Pro在处理亚洲人脸时存在一致性不足的问题,生成的图像人物面部特征易失真,与用户本人差异较大 [7][9][11] - 针对亚洲人脸优化,转而使用国产模型即梦(Seedream 4.5),通过提供参考图和提示词进行面孔替换,成功解决了人脸一致性问题,获得了可识别的个人图像 [11][13][14] - 对于非电影场景(如游戏),可通过让Gemini等AI工具根据初始提示词进行反推和改写,快速生成适配新场景的提示词,无需背诵或购买 [16][17] - 对于某些特定内容(如经典国产剧《武林外传》),Nano Banana Pro因缺乏相关知识而无法有效生成,必须依赖国产模型即梦,结合网络参考图和Gemini生成的提示词进行多次尝试才能达到较好还原度 [23][25] AI视频生成与后期处理 - 在获得满意的图片后,视频生成过程相对简单,使用具备首尾帧功能的模型(如可灵O1或即梦3.5 Pro)即可,将生成的前后两张图作为首尾帧,并添加描述人物移动的提示词 [25] - 提示词需要根据生成结果进行多次调整和优化,例如移除不想要的物品(如手机)、控制人物行走速度等,以得到理想效果 [27] - 生成的视频素材可导入剪映等剪辑软件进行加工,添加拍照特效和音效,最终完成视频制作 [30] 应用案例展示 - 该技术可应用于多种场景,例如生成与《阿凡达》角色在潘多拉星球的合影 [28] - 生成在《怪奇物语》片场与主角及怪物的合照 [29] - 生成穿越到三国时期与历史人物会面的场景 [32] - 实现与经典影视作品(如《武林外传》)角色的同框,唤起用户的情感回忆 [33][34][35]