Workflow
AI图像生成
icon
搜索文档
字节跳动发布Seedream5.0:AI图像生成进入“实用创作”时代
新浪财经· 2026-02-11 11:33
产品发布与定位 - 字节跳动于2026年2月10日正式推出图像生成大模型Seedream5.0 [1][11] - 该模型定位为实用型AI创作引擎,直接对标谷歌的Nano Banana Pro [1][11] - 模型旨在以高分辨率输出、智能交互及工具链整合能力冲击内容创作行业 [1][11] 核心技术突破 - 图像质量显著跃升,优化了细节纹理与光影表现,提升了电商海报、角色写真的商用可用率 [3][13] - 智能交互实现突破,通过联网检索生图解决了传统AI生图的“信息滞后”痛点 [3][13] - 智能交互能精准解析抽象指令,并支持局部笔刷编辑 [3][13] - 深度构建生态闭环,集成剪映、CapCut、小云雀等工具,实现“生成→编辑→分发”全链路覆盖 [3][13] 用户获取与商业模式 - 国内用户可通过剪映、小云雀APP的“图片5.0 Preview”入口体验 [5][15] - 海外用户可通过CapCut集成入口使用 [5][15] - 进阶创作可通过即梦AI平台参与,该平台目前处于灰度测试中 [5][15] - 平台限时开放每日20次免费生成次数 [5][15] - 会员可解锁无限生成次数及商用授权 [5][15] 行业影响与趋势 - Seedream5.0预计将推动创作效率革命,使普通用户内容可用率提升至90% [10][18] - 模型预计能将创作周期缩短10倍,加速自媒体、电商领域的工业化进程 [10][18] - 国产模型的竞争逻辑正从“参数竞赛”转向“生态整合” [10][18]
豆包官宣将登央视春晚 阿里发布图像模型Qwen-Image-2.0|未来商业早参
每日经济新闻· 2026-02-11 07:11
品牌营销与用户互动 - 豆包宣布将登上央视春晚平台 计划在除夕当晚送出超过10万份科技好礼及最高8888元现金红包以提升品牌知名度和用户参与度 [1] - 所有送出科技好礼均接入豆包大模型 奖品涵盖17种热门科技产品 包括宇树机器人及两款电车的使用权 [1] AI技术研发与产品发布 - 阿里巴巴发布新一代图像生成及编辑模型Qwen-Image-2.0 该模型支持高达1K tokens的文字输出并在汉字渲染方面展现优势 [2] - Qwen-Image-2.0的技术演示包括生成以王羲之小楷为字体的数百字古文《兰亭集序》图片 显示了公司在AI图像生成领域的技术实力 [2] 企业融资与战略发展 - 穹彻智能完成A轮融资 融资金额达数亿元人民币 由C资本领投 多家海外产业方和国内头部财投跟投 老股东Prosperity7 Ventures超额追投 [3] - 此次融资或将加速公司具身大脑的研发迭代和多场景的商业化落地 并推动其国际化进程 [3]
5秒出4张2K大图!阿里提出2步生成方案,拉爆AI生图进度条
搜狐财经· 2026-01-30 20:44
核心观点 - 阿里巴巴智能引擎团队通过创新的蒸馏与对抗学习技术组合,将Qwen-Image模型的图像生成步数从80-100步大幅压缩至2步,实现了40倍的速度提升,仅需5秒即可生成4张2K高清图片,显著提升了AI图像生成的效率与实用性[1][2] 技术突破与方案 - **技术路径演进**:团队克服了传统轨迹蒸馏在低步数下生成图像模糊、细节扭曲的缺陷,转而采用基于概率空间的蒸馏方案(如DMD2算法),通过Reverse-KL损失函数让学生模型自我生成并接受教师模型指导,显著提升了生成图像的细节与合理性[6][7][10][11] - **解决分布退化**:针对极低步数(2步)设定下Reverse-KL可能导致的多样性降低、饱和度增加等问题,团队引入PCM蒸馏进行模型热启动,有效缓解了分布退化,改善了形体扭曲问题[12][13][14][15] - **引入对抗学习增强细节**:为进一步提升2步模型在细节纹理上的表现,团队引入了对抗学习(GAN),通过混合真实数据与教师生成图、引入DINO特征提取器、调整损失权重等改进,显著增强了生成画面的真实感与细节质感[22][24] 产品化与开源 - **模型发布与集成**:该2步蒸馏模型(Qwen-Image-2512-Turbo-LoRA-2-Steps)的检查点已发布在HuggingFace和ModelScope平台,供开发者下载体验,并已集成至呜哩AI平台支持调用[3][4] - **工程能力与开源文化**:团队作为阿里AI工程系统的建设者,聚焦大模型全链路工程能力,致力于性能优化与基础设施构建,并坚持开放共享,已贡献包括Havenask、RTP-LLM在内的多项优秀开源项目[26] - **持续迭代计划**:团队承认在部分复杂场景下模型仍有改进空间,未来将持续迭代扩散加速技术并开源模型权重,致力于将先进的工程能力转化为触手可及的创作工具[26][27]
色情风波后 Grok图像生成功能仅限付费用户
新浪财经· 2026-01-10 12:05
事件概述 - 埃隆・马斯克旗下X平台的Grok AI图像生成功能因被滥用于制作未经同意的色情图像(包括未成年人图像)而引发广泛批评,并受到各地政府及监管机构的压力 [1] - 作为应对措施,X平台已将Grok的图像生成和编辑功能限制为仅向付费订阅客户开放,大多数未订阅用户已无法使用该功能创建图像 [1] - 未订阅用户仍可在Grok App或网页上使用图像编辑功能,但付费订阅用户的姓名和付款信息会被平台保存 [1] 公司业务调整 - X平台对Grok AI的图像生成功能采取了访问权限限制,将其从面向所有用户调整为仅限付费订阅用户使用 [1] - 平台通过技术手段进行拦截,当Grok收到图像编辑请求时,会回复提示“图像生成、编辑功能仅限付费订阅用户使用” [1] - 此次调整是公司对近期滥用事件及监管压力的直接回应 [1]
GPT Image 1.5 上线:AI 图像开始走向真实生产
36氪· 2025-12-18 13:46
核心观点 - OpenAI于2025年底发布新一代图像生成模型GPT Image 1.5,其核心革新并非单纯的技术能力展示,而是围绕使用方式和工作流进行的产品逻辑转向,标志着AI图像正从“能画出好看的图”走向“能真正用进工作” [1] 产品形态与设计逻辑 - GPT Image 1.5并非独立应用,而是被深度整合进ChatGPT的图像功能模块,生成、修改、确认全流程在同一对话环境中完成,减少了用户在多个工具间切换的成本 [5] - 该设计基于对真实创作场景的洞察,着重强化了“反复修改却不推翻原有框架”的稳定性,以适配图片需要反复打磨的实际工作流程 [5] - 模型在指令理解上表现更趋稳定,能更明确地响应用户的修改需求,且不易偏离原有画面逻辑,这对于需要保持品牌视觉、人物形象或教学示意一致性的场景尤为重要 [7] - 模型并未刻意强调某种“标志性风格”,而是追求一种相对中性、可控的输出,这更接近真实使用需求 [7] 性能与效率提升 - 相比早期模型,GPT Image 1.5在生成速度与编辑能力上有所提升 [1] - 生成与编辑效率的提升,使得AI图像更容易嵌入日常工作节奏,当生成和修改不再成为明显的等待节点,图像才可能成为流程中的常规环节 [7] 行业竞争格局与路线差异 - 过去一年,Google推出的图像生成模型Nano Banana在视觉冲击力和风格表现上极具辨识度,擅长制造“第一眼惊艳”,适合展示和分享 [9] - 但在需要多轮调整的任务中,Nano Banana这类强风格模型的局部编辑往往意味着重新生成,成本不低 [9] - GPT Image 1.5与Nano Banana代表了AI图像生成的两种方向:一种偏向传播和表达,一种偏向流程和交付 [12] - GPT Image 1.5并不试图在单张效果上做到最极致,而是把重点放在可编辑性和一致性上,其生成结果更容易被修改、复用和延展 [12] - 随着AI图像逐渐走向规模化应用,偏向流程和交付的路线其重要性正在被不断放大 [12] 商业应用影响 - 在商业场景中,品牌和营销团队已开始将AI图像用于初稿生成和版本扩展,设计师的工作重心从从零开始创作转向审美把关和最终确认 [15] - 这种变化意味着AI图像正从“展示能力”走向“生产资料”,开始参与到真实世界的工作流程中,承担起可被反复使用和修改的职责 [22] 教育应用影响 - 教育内容高度依赖视觉材料,其对视觉效果的要求不在于“好看”,而在于内容准确、便于理解 [18] - 可编辑性对教育场景尤为重要,教学内容常需根据学生反馈调整,图像也需随之修改 [20] - GPT Image 1.5的稳定修改能力使其在教育场景中具备适配性,教师可根据教学需要逐步调整图像内容,降低了制作门槛,缩短了内容准备周期 [20] - AI图像生产效率的提升,可能让教育工作者的更多精力回到教学设计和内容本身,AI承担的是工具角色而非决策角色 [20]
Nano Banana Pro再次封神,我总结了9种邪修用法
36氪· 2025-11-26 16:13
产品核心能力 - 模型Nano Banana Pro基于Gemini 3 Pro Image构建,具备卓越的图像生成一致性,能锁定人物特征,在多画面、多角度下保持同一张脸、同一束光、同一套风格,避免画面混乱或特征突变[2] - 模型能够自动统一不同图像的光影、颜色和风格,将多个独立角色自然融合到同一宇宙或场景中,并自主判断画面主角,实现无缝拼接[2] - 支持将动画角色无缝转换为真人风格,或将真人角色改造为动画风格,甚至实现真人与卡通人物同框,自动统一光影并融合不同世界观至同一镜头效果[4] 应用场景与功能 - 具备从基础角色自动续画漫画的能力,上传一个角色后,后续所有页面均沿用同一张脸和特征,保证连续性非常稳定[7] - 支持风格迁移,可将简单线条的表情包或美式漫画转换为更写实的图像效果,并保持人物姿势和五官不变[10][11] - 能够理解和可视化复杂信息,可处理长文、PDF、论文、蓝图等资料,提取结构、因果关系、流程和关键数据,并以图像、排版或动画方式重新呈现[13] - 可将纯文字稿自动生成杂志内页,包含主标题、副标题、配图、正文、引用和视觉点图示,结构清晰且一致性极高[14][15] - 能将论文内容转换为白板式思维图,拆解实验流程、关键变量和结论关系,输出可直接用于幻灯片的横版图[17][18] - 支持从艺术画作或设计手稿生成真实照片,准确理解蓝图的结构、比例、材质和空间关系,补充细节并呈现真实质感[18][19] - 可将财报等长文档直接转换为信息图,提取营收、毛利率等关键指标,并以趋势折线和要点列表形式可视化[21][22] - 支持将教学文本拆分为分镜表格,明确每个分镜的画面要素、旁白要点和关键数据,便于视频制作团队直接使用[24][25] 技术特点与行业影响 - 模型标志着AI生图进入“专业成片”时代,能直接生成广告级成片,同时优化文案、排版、光影和构图,摆脱过往玩具感效果[27] - 生成图像效果真实、高级,可直接满足业务需求并交付,因此在短时间内迅速出圈[27]
测完Nano Banana Pro的时空重现,我人傻了……
36氪· 2025-11-26 11:57
产品核心功能 - Nano Banana Pro具备“时空重现”能力,可根据用户提供的坐标和可选时间生成该时空的拟真影像[1] - 该功能是产品能力的“逆向进化”,从早期版本通过照片反推坐标,升级为基于坐标和时间直接重构现实[22] - 产品能理解并模拟特定时代的影像特征,例如生成黑白图片并添加照片瑕疵以增强历史真实感[37] 产品技术表现 - 产品能精准识别用户提供的时空坐标所对应的历史事件并进行场景分析[28] - 生成结果在“惊艳”与“离谱”间波动,存在明显事实错误,如将北京奥运会开幕式生成在鸟巢外部而非内部[23] - 出现严重时代错乱幻觉,例如在明末场景中生成清末的龙旗[35] - 产品对自身生成结果表现出高度自信,即使通过提示词要求修改也难以纠正错误[28] 用户应用与影响 - 产品在发布5天后热度依旧屠榜,相关推文在2025年11月24日获得130万次浏览[1][8] - 用户积极尝试不同历史坐标,包括公元33年耶稣受难、1963年肯尼迪遇刺等重大历史事件[6][9][12] - 用户探索虚实结合的新玩法,如在现实坐标上叠加虚拟世界背景设定[39] - 产品能力可结合其他AI工具(如Veo 3.1)生成视频,拓展了自动化创作的可能性[49]
测完Nano Banana Pro的时空重现,我人傻了……
机器之心· 2025-11-26 09:36
核心观点 - Nano Banana Pro展现出革命性的“时空重现”能力,能够基于坐标和时间生成拟真影像,实现了从“推理”到“创造”的跃升[1][7] - 该技术在历史事件重建和虚实结合场景中展现出巨大潜力,但存在显著的不稳定性和“时代错乱”等严重幻觉问题[9][17][21] 技术能力分析 - 基于坐标和时间直接重构特定时空的光影与现实,完成从画面推导坐标到逆向创造的进化[7] - 能够理解时代影像特征,如生成黑白图片并添加照片瑕疵和做旧效果增强真实感[24] - 支持虚实结合玩法,可将现实坐标与虚拟世界背景设定叠加生成拟真照片[27] 应用场景探索 - 历史事件现场重建,如911事件、泰坦尼克号幸存经历、秦始皇泰山封禅等场景模拟[1][3][12] - 创意内容生成,包括动漫人物真实化映射、迷因图处理和视频内容自动生成[31][33][34] - 实用功能开发,如人物年龄分析等潜在应用方向[29] 性能表现评估 - 在诺曼底登陆场景中表现出色,正确识别坐标并生成符合时代特征的影像[22][24] - 存在严重的地理位置偏差和时代错乱问题,如北京奥运会开幕式场地错误、崇祯帝场景出现清末龙旗等明显幻觉[10][21] - 对生成结果表现出迷之自信,即使通过提示词要求修改也难以纠正错误[17]
藏师傅用 Nano Banana Pro 帮你想去哪就去哪
歸藏的AI工具箱· 2025-11-25 20:59
产品核心功能 - 基于Nano Banana Pro的实时检索能力,通过输入经纬度可直接生成对应地点的照片,并整合当前位置的实时时间和天气信息以增强场景真实性[1][2] - 产品具备两种主要图像生成模式:Scenery风景模式仅生成当前位置的实时风景照,Travel Portrait人像打卡模式支持用户上传个人或合照,生成结合当地实时时间、天气和温度的个性化打卡照片,系统会根据气温自动调整人物着装[8][13][15][17][18] - 特色功能包括时间机器(Time Machine),可模拟生成任意历史或未来年代(如公元1000年的伊斯坦布尔)的打卡照,以及平行宇宙模式,支持输入影视作品名称或风格(如黑客帝国)生成对应主题图像[20][21] - 恶搞模式(Prank Mode)可在生成的图像中添加意外元素,例如在外景中插入外星人等趣味内容[23] 技术实现与平台支持 - 产品通过AI Studio的Build模式快速开发完成,目前提供官网(https://bananacamera.trickle.host/)支持地址搜索或地图点击触发图像生成[4][7][8] - 多平台接入方式包括:AI Studio(功能最全但需付费API Key)、Poe(消耗订阅积分,当前Nano Banana Pro模型可能存在繁忙问题)、Youware(支持免费试用但使用普通模型,中文生成效果可能受限)[30] - 底层技术依赖Nano Banana Pro的实时数据检索能力,用户可通过替换提示词中的经纬度(例如40.00023661635351, 116.27808154448789)自定义生成目标地点的图像[31] 应用场景与潜力 - 产品可模拟全球任意地点(如太平洋中央、南极冰盖、珠穆朗玛峰)的虚拟打卡,突破物理限制[26] - 时间机器与风格自定义功能允许用户通过组合提示词元素生成多样化结果,例如基于历史建筑风格或影视主题的创意图像[20][21][25] - 官网提供预设地址示例,用户上传照片后可快速生成打卡照,降低操作门槛[28]
Nano Banana新玩法无限套娃,“GPT-5都不会处理这种级别的递归”
36氪· 2025-11-25 13:54
产品性能与用户反馈 - Nano Banana Pro(推测为Gemini 3的图像生成功能)在理解复杂递归提示词方面表现突出,能够生成包含细节如老式显示器光晕、画布颜料溅落和相机时间戳的图像,获得专业提示工程师Riley Goodside的高度评价[3] - 产品对提示词中规定的背景和拍摄视角理解到位,用户生成的结果有成功案例[7],但也存在不完美的套娃结果和细节错误[8][9][14] - 图像生成机制并非基于现有图片素材的拼接,而是对每个看似相同的部分分别进行随机噪声生成[15] 市场份额与用户获取 - Gemini在Gemini 3发布后市场份额迅速提升,根据SimilarWeb统计,其桌面和移动网页浏览量市场份额从23%提升至30%,增幅达7个百分点[16][19] - 市场份额快速增长的可持续性存疑,数据显示ChatGPT的用户忠诚度约为82%,而Gemini为49%,新增用户可能包含大量一时兴起的边缘用户[19] 高端用户评价与使用场景 - Salesforce的CEO Marc Benioff在使用了Gemini 3两小时后,宣布从持续使用3年的ChatGPT转向Gemini,并高度评价其推理能力、速度及多模态(图像、视频)功能的飞跃[22] - 部分用户形成AI工具组合使用习惯,例如使用Claude进行编程和写作,而将Gemini应用于深度研究、搜索、学习、设计和多媒体内容生成等场景[23]