豆包・图像编辑模型SeedEdit 3.0

搜索文档

腾讯研究院AI速递 20250731

腾讯研究院· 2025-07-31 00:03

生成式 AI 一、 ChatGPT「学习模式」火爆上线，24小时的导师免费用 1. OpenAI上线ChatGPT新功能"学习模式"，采用苏格拉底式逐步引导方式，帮助用户深入理解复杂概念； 2. 所有免费版、Plus版、专业版和团队版用户均可免费使用，功能包括交互式提示、分步解答和个性化支持； 3. 该模式背后的提示词被开发者Simon Willison发现并公开，系统会根据用户的教育背景和知识基础调整教学策略。 https://mp.weixin.qq.com/s/_tdb7OORoHRQxQ-5jg7s5Q 二、 Grok即将推出了「Imagine」视频功能，挑战谷歌Veo 3 1. 马斯克的xAI即将为Grok iOS应用推出全新图像视频生成功能"Imagine"，支持带音频的视频生成，可一次性生成4段视频； 2. 数据集将3D高斯技术与自研空间大模型SpatialLM深度融合，打通"现实-虚拟-现实"闭环，使其成为具身智能领域的"ImageNet"； 2. 实测效果逼真，细节丰富，支持多种风格生成，用户可通过语音或文字描述进行创作； 3. Imagine将拥有独立标签页，提供近乎实时的图像 ...

生成式AI

具身智能

Artificial Intelligence

Artificial Intelligence

ChatGPT

Grok

Skywork UniPic

P图手残党有救了，豆包·图像编辑模型3.0上线，一个对话框搞定「增删改替」

机器之心· 2025-07-30 13:13

行业趋势 - 图像编辑需求日益个性化，对工具智能化要求提升[2] - AIGC领域技术持续突破，头部厂商在图像/视频生成领域保持活跃[83] - 国内厂商通过多样化平台触达用户，推动"模型即产品"模式[84] 产品发布 - 火山引擎发布豆包・图像编辑模型SeedEdit 3.0，主打"全能且可控"[3][4] - 模型三大优势：指令遵循能力强化、主体保持优化、生成质量提升[5] - 支持人像编辑、背景更改、光影转换等复杂场景，关键指标平衡性突出[5] 技术能力 - 基于Seedream 3.0架构，解决语义一致性/局部编辑/细节保留等技术难题[66][67] - 采用多阶段训练策略（预训练+微调），引入特定奖励模型优化高价值属性[78] - 实现8倍推理加速，运行时长从64秒降至8秒[80] - CLIP评估显示编辑保持效果领先Gemini 2.0/Step1X/GPT-4o等SOTA模型[68] 应用场景 - 电商领域：一键生成商品海报，自动匹配背景与文案[45][47] - 影视创作：快速调整镜头画面/替换背景/添加特效[87] - 游戏开发：高效修改角色与场景设计元素[87] - 个人用户：支持消除路人/变色/风格转换等17种编辑功能[18][34][39] 竞品对比 - 文字编辑任务中精准率显著优于GPT-4o（乱码）和Gemini 2.5 Pro（指令偏离）[55] - 风格转换时人物特征保持度优于竞品，避免儿童涂鸦式失真[58][60] - 复杂消除任务中完整执行指令，背景修复自然度领先[61][62] 数据与架构 - 采用合成数据/专家数据/视频帧等多源数据，多粒度标签策略提升鲁棒性[72][74] - 视觉理解模型+因果扩散网络架构，新增连接模块对齐编辑意图[76] - 支持原生1K-2K分辨率生成，强化人脸与物体细节保留[77] 市场影响 - 推动图像创作从专业化工具向智能化/自动化转型[86] - 降低C端用户创作门槛，释放非专业人群创意潜力[85] - 预计在影视/广告/电商等B端市场激发新应用场景[87]

AIGC

Artificial Intelligence

豆包・图像编辑模型SeedEdit 3.0

GPT-4o

Gemini 2.5 Pro

AIGC

Artificial Intelligence

豆包・图像编辑模型SeedEdit 3.0

GPT-4o

Gemini 2.5 Pro