图像生成

搜索文档
智源新出OmniGen2开源神器,一键解锁AI绘图「哆啦 A 梦」任意门
机器之心· 2025-07-03 12:14
核心观点 - 智源研究院发布统一图像生成模型OmniGen2,支持文本生成图像、图像编辑和主题驱动图像生成等多种任务,仅需自然语言指令即可实现,无需额外提示或插件[1][2] - OmniGen2在保持简洁架构的基础上,显著提升上下文理解能力、指令遵循能力和图像生成质量,同时支持图像和文字生成,打通多模态技术生态[2] - 模型权重、训练代码及训练数据全面开源,推动统一图像生成模型从构想向现实转变[2][30] 技术架构 - 采用分离式架构解耦文本和图像,结合ViT和VAE双编码器策略,独立作用于MLLM和Diffusion Transformer中,提高图像一致性同时保留文字生成能力[3][4] - 开发从视频和图像数据中生成图像编辑和上下文参考数据的构造流程,解决开源数据集质量缺陷问题[6] - 引入反思能力,构建由文本和图像交错序列组成的反思数据,分析生成图像的缺陷并提出解决方案[8][9] - 未来计划通过强化学习进一步训练模型的反思能力[11] 功能特性 - 支持基于自然语言指令的图片编辑,包括物体增删、颜色调整、人物表情修改、背景替换等[21][22] - 可从输入图像中提取指定元素并生成新图像,更擅长保持物体相似度而非人脸相似度[24] - 能够生成任意比例的图片[26] 性能优化与基准 - 依托FlagScale框架优化推理部署,通过重构推理链路和TeaCache缓存加速策略,实现32%的推理效率提升[29] - 引入OmniContext基准,包含8个任务类别,专门评估个人、物体和场景的一致性,采用多模态大语言模型初筛和人类专家手工标注相结合的混合方法构建[28] 应用与体验 - 科研体验版已开放,支持图像编辑、上下文参照的图像生成等功能,用户可通过提示词解锁丰富能力[19][20] - 提供模型、论文及体验版链接,方便开发者访问和使用[31]
字节图像生成新模型:主打多主体一致性,新基准数据集同时亮相
量子位· 2025-07-02 17:33
时令 发自 凹非寺 量子位 | 公众号 QbitAI 设定角色,让AI照"本"生成主角不变的不同图像,对于各路AIGC工具来说一直是不小的挑战。 那么Xverse是如何做到又稳又准的呢? Xverse方法概述 XVerse的核心是通过学习DiT(Diffusion Transformer,一种扩散模型和Transformer架构的生成模型)中文本流调制机制中的偏移量, 实 现对多个主体身份和语义属性的一致控制 。 而现在,字节再进一步,最新发布多主体控制生成模型 Xverse —— 既可以对设定好的每个主体进行精确控制,也不会破坏图像的生成质量。 多主体?多光源?多风格?它说:安排! 此方法包括四个关键组成部分: T-Mod适配器 采用perceiver重采样器作为文本流调制的核心,将CLIP编码的图像特征与文本提示特征结合,生成交叉偏移量。通过对每个token进行精细 调制,模型得以精准控制多个主体的表现。 文本流调制机制 将参考图像转换为文本流调制的偏移量,并将这些偏移量添加到注入模型的相应token嵌入中,同时调整原始的缩放和移位参数,以实现对生 成过程的精确控制。 VAE编码图像特征模块 将VAE编码 ...
10 人 1600 万美金 ARR,华人团队 OpenArt 用了这 11 个 AI 技术栈
投资实习所· 2025-06-29 19:53
定位策略 - 早期面临定位挑战,AI图像生成市场竞争激烈,Midjourney以艺术化输出见长,DALL-E以技术实力著称 [1] - 核心功能与竞品相似,差异化在于用户体验和使用场景的精准把握 [1] - 确定三大核心用户群体:内容创作者、奇幻爱好者、中小企业 [2] 增长策略 - 传统SEO增长趋缓,转向程序化SEO(pSEO)策略 [2] - 针对长尾关键词创建特定主题的AI生成器页面,结构包括H1标题、示例按钮、示例画廊、使用指南 [3] - 与daydream合作,8个月内创建600多个pSEO页面,月访问量达100万次,跻身"AI艺术生成器"搜索前10 [4] 战略转型 - 从AI图像生成转向视觉故事讲述,定位为"品类定义公司" [5] - 赞助MIT AI电影黑客马拉松,验证方向可行性,团队两天创作出接近皮克斯水准的短片 [5] - 采用"Uber模式",简化复杂流程为输入→输出体验,区别于Sora/Pika/Runway的"手动挡工具" [6][7] 技术突破 - 解决角色一致性问题,通过多模态集成组合多个开源工具 [8] - 技术栈包括Stability AI、Flux、ElevenLabs、Kling、Hailuo等 [10] 产品开发与运营 - 编程工具使用Cursor或Windsurf,支持全局上下文搜索,提升效率 [13] - 测试工具Checkly和Stably减少手动QA工作量,提升稳定性 [14][15] - 客户支持工具Serif自动生成70%以上回复,减少人工干预 [16] 用户研究与内容管理 - 用户反馈工具Claude实时分析需求与情绪 [17] - 用户研究工具Dovetail快速梳理访谈内容,提取关键需求 [18] - 内容审核工具Cinder每日处理数百万张图片,保障内容安全 [19] 市场营销 - 程序化SEO工作流每月产出数百个高质量页面,带来数百万自然流量 [20] - SEM广告管理仅需1人兼职,OpenArt生成素材,DeepSeek撰写文案 [21] - 网红挖掘工具Beacons AI匹配契合度90%+的网红,GMass批量触达 [22][23] - 网红管理工具Serif和MightyScout优化沟通与追踪 [24] - YouTube分析工具VidIQ助力订阅量从0增至7万 [25] 未来愿景 - 长期目标是成为AI原生社交媒体平台,探索互动式内容格式 [9] - 定位为故事可视化解决方案,保存用户角色、故事和模板,增强用户粘性 [9]
480P的元宇宙入口:Midjourney不是在做视频,是在造"任意门"
歸藏的AI工具箱· 2025-06-19 16:20
产品功能与定价 - Midjourney Video V1仅支持图生视频 不支持文生视频 生成方式为在图片上点击"Animate"按钮 无需输入提示词[3] - 每次生成4个视频 支持通过延长功能扩展至20秒 提供低动态幅度(适合静态场景)和高动态幅度(适合动态场景)两种模式[3][5] - 视频分辨率标称480P 但实际采样率高于部分720P模型 长边尺寸超过720P标准[6] - 视频生成消耗快速生成时间 成本与图片超分相当 60美元会员计划提供无限慢速生成额度[9] 技术表现 - 美学表现顶级 在色彩表现和氛围营造方面保持Midjourney一贯优势[9] - 高风格化视频处理能力突出 能稳定保持罕见风格的色彩、笔触和氛围一致性[11] - 生成速度极快 4个视频仅需65秒 延长稳定性优异 复杂场景下17秒视频仍不崩溃[13] - 在提示词理解、复杂运动稳定性和物理特性方面表现一般 落后于第一梯队1080P模型[15] 战略定位与愿景 - 公司明确不参与现有视频模型竞争框架 专注实现"实时图像生成AI系统"的长期愿景[19] - 技术路线聚焦生成速度(65秒/次)和长时间一致性(17秒不崩溃)两大核心指标[19][13] - 商业模式具备独特性 无融资压力支撑长期主义发展路径[20] - 产品设计体现"想象力具象化"理念 视频探索页面已初步展现元宇宙入口雏形[21][25] 行业启示 - 在行业普遍追逐高分辨率和物理准确性时 公司选择重新定义问题本质[23] - 产品命名《精骛八极 心游万仞》隐喻突破时空限制的创作理念 与公司愿景高度契合[22] - 480P视频模型可能成为未来元宇宙的基础设施 体现差异化技术路线价值[25]
Midjourney入局视频生成,图像模型V7不断更新,视觉卷王实锤了
量子位· 2025-06-16 18:30
Midjourney视频生成模型 - 视频生成效果展示包括跑步动作、人物和空间转换非常丝滑[2] - 挖蛋糕场景逼真,勺子上有倒影等细节[3] - 多人物动作和视角切换流畅[14] - 小猫动作和人手动作具有物理真实感[16] - 小狗滑滑板场景展示[18] - 小猫美甲精细,手部纹路和指纹细节突出[21] - 叠毯子场景中手部发力和褶皱表现真实,但毯子自动缩回存在不合理性[24] - 爬楼梯场景中花朵从右手飘到左手存在逻辑问题[27] - 视频生成模型在物理真实感、纹路细节、动作平滑度上表现优秀[26] - 缺乏音频功能,与Veo 3相比无法生成乐器声音[28][29][30] Midjourney图像模型V7更新 - 图像模型V7不断更新,支持语音生图功能[37] - 从3月开始呼吁用户参与图像评分以完善V7[38] - 4月发布V7 alpha版本,包含Relax和Turbo模式[39][40] - 手部纹理生成逼真[41] - 旗舰功能"草稿模式"可将提示栏改为对话模式,支持语音输入生成图像[44][45][47] - 草稿模式生成成本减半,渲染速度提升10倍[49] - 快速模式优化耗时从40秒降至18秒[50] - 图像生成速度整体提升40%,快速模式渲染时间从36秒减至22秒,Turbo模式从13秒减至9秒[51][52][53] 公司动态与市场反应 - 视频生成演示引发Reddit热议,点赞量达2.5k[5][6] - 用户评价视频效果"与现实无法区分"[9] - 公司会议展示视频生成功能,强调"动画化图片"作为差异化优势[33] - 动画风格是Midjourney的强项[34] - 定价策略考虑用户需求,展现诚意[35][36]
迪士尼(DIS.N)、宽带网络供应商康斯卡特起诉AI图像生成器Midjourney。
快讯· 2025-06-11 22:50
迪士尼与康斯卡特起诉Midjourney - 迪士尼联合宽带网络供应商康斯卡特对AI图像生成器Midjourney提起诉讼 [1] - 诉讼涉及AI生成内容可能侵犯知识产权 [1] - 案件凸显传统媒体与新兴AI技术之间的法律冲突 [1]
苹果(AAPL.O):将ChatGPT图像生成加入到Image Playground功能中。
快讯· 2025-06-10 01:36
苹果公司产品更新 - 苹果将ChatGPT图像生成技术整合到Image Playground功能中 [1]
AI生图迎来大升级:图像编辑达到像素级!背后团队大多来自Stable Diffusion模型基础技术发明团队
AI前线· 2025-05-30 13:38
公司动态 - Black Forest Labs(BFL)发布全新图像生成模型FLUX1 Kontext,支持文本和图像输入实现基于上下文的生成和编辑[1] - 该模型通过流匹配架构统一图像生成和编辑功能,在1MP分辨率下保持3~5秒交互速度,实现跨多轮编辑的顶尖字符一致性[3] - 公司推出BFL Playground供用户测试,并发布两个商业版本FLUX1 Kontext [pro]和[max],已在KreaAI等平台上线[3] 技术特性 - FLUX1 Kontext支持基于参考图像的上下文生成,避免从零开始创作[4] - 四大核心能力包括:角色一致性、局部编辑、风格迁移和低延迟输出(具体数值未披露)[7] - 采用流模型架构,与Diffusion模型技术路线不同,实现更灵活的噪声数据路径学习[19] - 在文生图基准测试中,模型在美观度、提示词遵循性等维度达到顶尖水平[20] 公司背景 - BFL成立于2023年8月,由Stable Diffusion核心开发者Robin Rombach创立,团队包含12名前Stability AI员工[6][14] - 已完成3100万美元种子轮融资,投资方包括General Catalyst和Andreessen Horowitz[6][15] - 目前团队规模30人,正在德国和美国招聘6个远程技术岗位[14] 产品矩阵 - FLUX1 Kontext [pro]定位快速迭代编辑,速度较先进模型快一个数量级[17] - [max]版本在保持速度的同时提升提示词遵循性和编辑一致性[17] - 即将推出12B参数的开放权重版本FLUX1 Kontext [dev][18] 市场反馈 - 用户实测显示模型可在10秒内完成头像生成/编辑,接近实拍效果[23] - 局部编辑能力获认可,能实现像素级修改(如添加绿龙案例)[28] - 此前发布的Flux 11 Pro模型已通过API集成至第三方应用[22] 行业竞争 - 需直面MidJourney、Adobe Firefly等成熟产品的竞争,后者已具备参考图编辑功能[17] - 技术路线差异化为竞争优势,流模型架构区别于主流Diffusion方案[19]
混元与AI生图的“零延迟”时代
腾讯研究院· 2025-05-20 16:48
腾讯混元Hunyuan Image2.0模型技术突破 - 基于超高压缩倍率的图像编解码器和全新扩散架构,实现毫秒级推理速度和超高质量图像生成,显著降低"AI味"[3][4] - 解决当前主流文生图模型生成时间长(5-10秒/张)和结果随机性问题,实现"所见即所得"的实时生成体验[5] - 在GenEval评测中表现优异:总体得分0.9597,单物体0.9968,双物体0.9747,颜色0.9973,位置0.885,远超DALL-E 3(0.67)和SD3-Medium(0.74)等竞品[7] 核心功能创新 - 文生图实现打字同步出图,支持连续修改多细节(如人像摄影中实时添加背景、切换角度)[11][13][15] - 图生图提供"参考主体"和"参考轮廓"双模式,可调节强度(92%强度下保持猫咪主体特征同时添加皇冠等元素)[18][19][20] - 专业设计功能:双画布联动实现线稿实时上色预览,多图层融合支持草图/图片叠加生成(需调试主体参考强度和提示词)[28][35] 应用场景拓展 - 个人用户可快速完成演讲插图、创意宠物照片等任务(如生成"家居猫/公主猫/古惑仔猫"系列)[30] - 设计师生产力工具:实时风格修改(赛博朋克风格转换)、元素添加(项圈/雪茄等)、光影调整[31][33] - 支持3D毛绒质感等特殊效果生成,但复杂风格(陶土风格)需更详细提示词描述[31] 技术局限性 - 轮廓模式对毛绒物体等模糊轮廓提取能力较弱[23] - 双画布指令响应速度略慢于实时文生图[28] - 风格转换存在主观性差异,赛博朋克等特征需多轮提示词调整[33]
边写边画、边说边画,混元图像2.0来了!
华尔街见闻· 2025-05-16 20:00
腾讯混元图像2.0发布 - 推出新一代图像生成模型混元图像2 0 实现毫秒级响应速度 用户输入提示词时可实时看到图像变化 [1] - 采用超高压缩倍率图像编解码器和全新扩散架构 参数量提升一个数量级 改变传统"抽卡—等待—抽卡"方式 [1] - 在GenEval基准测试中准确率超过95% 远超同类模型 展现复杂文本指令理解与生成能力 [1] 交互革新 - 实现"边打字边出图"的完全实时反馈 画面随文字变化实时调整 例如输入"人像摄影 爱因斯坦 背景是东方明珠电视塔"可立即生成对应图像 [2] - 支持连续增加或修改多个细节 如"亚洲面孔 大眼睛 笑容灿烂 长头发 穿中式服装 戴帽子"等元素可逐步添加 [5] - 彻底打破传统"输入→等待→查看→调整"流程 大幅降低创作门槛 使创意表达更流畅 [7] 图像质量提升 - 通过强化学习算法和人类美学知识对齐 有效避免"AI味" 呈现更真实质感和丰富细节 [8] - 高保真度图像生成能力对广告 设计等需要高质量素材的行业具有巨大吸引力 [8] 图生图功能 - 支持提取参考图主体或轮廓特征进行二次编辑 如上传猫咪照片可调整眼睛大小 添加皇冠等 [9] - 可对现有图片进行风格修改 如将巧克力蛋糕改为草莓味同时保持形状一致 [10] - 支持一键为简笔画上色和"画面优化"功能 自动改进构图 景深和光影效果 [14] 实时绘画板 - 用户在绘制线稿或调整参数时 预览区同步生成上色效果 突破传统"绘制-等待-修改"流程 [16] - 特别适合有设计想法但缺乏专业绘画能力的用户 [17] 技术突破 - 参数量提升一个数量级 显著提高性能上限 [19] - 自研超高压缩倍率图像编解码器 降低图像编码序列长度同时保证细节生成能力 [19] - 采用多模态大语言模型作为文本编码器 显著提升语义匹配能力 [19] - 通过全尺度多维度强化学习后训练提升图片生成真实感 [19] - 自研对抗蒸馏方案实现少步高质量生成 [19]