Workflow
豆包・图像编辑模型SeedEdit 3.0
icon
搜索文档
腾讯研究院AI速递 20250731
腾讯研究院· 2025-07-31 00:03
生成 式 AI 一、 ChatGPT「学习模式」火爆上线,24小时的导师免费用 1. OpenAI上线ChatGPT新功能"学习模式",采用苏格拉底式逐步引导方式,帮助用户深入理 解复杂概念; 2. 所有免费版、Plus版、专业版和团队版用户均可免费使用,功能包括交互式提示、分步解 答和个性化支持; 3. 该模式背后的提示词被开发者Simon Willison发现并公开,系统会根据用户的教育背景和 知识基础调整教学策略。 https://mp.weixin.qq.com/s/_tdb7OORoHRQxQ-5jg7s5Q 二、 Grok即将推出了「Imagine」视频功能,挑战谷歌Veo 3 1. 马斯克的xAI即将为Grok iOS应用推出全新图像视频生成功能"Imagine",支持带音频的视 频生成,可一次性生成4段视频; 2. 数据集将3D高斯技术与自研空间大模型SpatialLM深度融合,打通"现实-虚拟-现实"闭 环,使其成为具身智能领域的"ImageNet"; 2. 实测效果逼真,细节丰富,支持多种风格生成,用户可通过语音或文字描述进行创作; 3. Imagine将拥有独立标签页,提供近乎实时的图像 ...
P图手残党有救了,豆包·图像编辑模型3.0上线,一个对话框搞定「增删改替」
机器之心· 2025-07-30 13:13
行业趋势 - 图像编辑需求日益个性化,对工具智能化要求提升[2] - AIGC领域技术持续突破,头部厂商在图像/视频生成领域保持活跃[83] - 国内厂商通过多样化平台触达用户,推动"模型即产品"模式[84] 产品发布 - 火山引擎发布豆包・图像编辑模型SeedEdit 3.0,主打"全能且可控"[3][4] - 模型三大优势:指令遵循能力强化、主体保持优化、生成质量提升[5] - 支持人像编辑、背景更改、光影转换等复杂场景,关键指标平衡性突出[5] 技术能力 - 基于Seedream 3.0架构,解决语义一致性/局部编辑/细节保留等技术难题[66][67] - 采用多阶段训练策略(预训练+微调),引入特定奖励模型优化高价值属性[78] - 实现8倍推理加速,运行时长从64秒降至8秒[80] - CLIP评估显示编辑保持效果领先Gemini 2.0/Step1X/GPT-4o等SOTA模型[68] 应用场景 - 电商领域:一键生成商品海报,自动匹配背景与文案[45][47] - 影视创作:快速调整镜头画面/替换背景/添加特效[87] - 游戏开发:高效修改角色与场景设计元素[87] - 个人用户:支持消除路人/变色/风格转换等17种编辑功能[18][34][39] 竞品对比 - 文字编辑任务中精准率显著优于GPT-4o(乱码)和Gemini 2.5 Pro(指令偏离)[55] - 风格转换时人物特征保持度优于竞品,避免儿童涂鸦式失真[58][60] - 复杂消除任务中完整执行指令,背景修复自然度领先[61][62] 数据与架构 - 采用合成数据/专家数据/视频帧等多源数据,多粒度标签策略提升鲁棒性[72][74] - 视觉理解模型+因果扩散网络架构,新增连接模块对齐编辑意图[76] - 支持原生1K-2K分辨率生成,强化人脸与物体细节保留[77] 市场影响 - 推动图像创作从专业化工具向智能化/自动化转型[86] - 降低C端用户创作门槛,释放非专业人群创意潜力[85] - 预计在影视/广告/电商等B端市场激发新应用场景[87]