Stable Diffusion

搜索文档
ICCV 2025|训练太复杂?对图片语义、布局要求太高?图像morphing终于一步到位
机器之心· 2025-07-18 08:38
核心观点 - FreeMorph是一种无需训练、一步到位的图像变形方法,能够在不同语义与布局的图像之间生成流畅自然的过渡效果 [5] - 该方法通过改进扩散模型的自注意力机制,解决了传统方法中训练成本高、适应性差的问题 [5][11] - FreeMorph在30秒内即可为两张输入图像生成高质量平滑过渡,显著优于现有技术 [32] 技术背景 - 传统图像变形技术依赖复杂的图像对齐算法和颜色插值,难以处理复杂纹理和多样语义的图像 [4] - 现有深度学习方法如GAN、VAE存在训练成本高、数据依赖强、反演不稳定等问题 [4] - 基于Stable Diffusion和CLIP等大模型的方法仍面临训练时间长(约30分钟/案例)和语义处理能力不足的挑战 [9] 技术方案 - 引导感知的球面插值:通过修改预训练扩散模型的自注意力模块,融入输入图像的显式引导来增强模型 [11] - 球面特征聚合融合自注意力模块的Key和Value特征,确保过渡一致性 [16] - 先验引导的自注意力机制保留输入图像的独特身份特征 [18] - 步骤导向的变化趋势:融合两个输入图像的自注意力模块,实现受控且一致的过渡 [21] - 改进的反向去噪和正向扩散过程:将创新组件集成到原始DDIM框架中 [22][25] 技术优势 - 无需训练或调参,仅需两张输入图像即可完成变形 [5] - 处理时间仅需30秒,显著快于现有方法(如IMPUS需要30分钟) [32] - 能够处理语义多样、布局复杂的图像对,保持身份特征和平滑过渡 [27][30] - 在四组不同类别的评估数据集上表现优异 [12] 应用前景 - 可应用于动画、电影特效或照片编辑等领域 [3] - 能够捕捉细微变化,如不同颜色的蛋糕或人物表情的微妙差异 [27] - 为training-free图像变形打开了新的可能性 [5] 技术局限 - 处理语义或布局差异较大的图像时,过渡可能不够平滑 [34] - 继承了Stable Diffusion的固有偏差,在人体四肢等结构处理上准确性受影响 [34]
ICML 2025|多模态理解与生成最新进展:港科联合SnapResearch发布ThinkDiff,为扩散模型装上大脑
机器之心· 2025-07-16 12:21
多模态理解与生成技术进展 - 当前文本到图像生成技术如Stable Diffusion和Flux缺乏真正的多模态推理能力,难以理解图像与文本的复杂逻辑关系[1] - OpenAI的GPT-4o和Google的Gemini Pro展示了强大能力,但依赖超大规模参数和算力资源[2] - 香港科技大学与Snap Research提出的ThinkDiff方法,仅需少量数据和数小时训练即可实现多模态推理式生成[3] ThinkDiff核心技术 - 核心创新在于将视觉语言模型(VLM)的推理能力迁移至扩散模型,结合两者优势实现高质量生成[7] - 利用LLM与Diffusion共享特征空间的特性,通过代理任务将VLM与LLM解码器对齐[9][11] - 采用掩码训练策略强制对齐网络深度理解多模态信息,避免特征对齐走捷径[15] 模型架构与变体 - ThinkDiff-LVLM版本继承大型视觉语言模型的多模态理解能力[16] - ThinkDiff-CLIP版本强化文本图像组合能力,可扩展至视频生成领域[16][34] - 网络设计关键:对齐VLM自回归生成的tokens特征而非输入tokens,实现真正的推理能力传递[15] 性能表现 - 在CoBSAT基准测试中全面领先:Color-I准确率0.638(较SEED-LLaMA提升32.4%),Action-II准确率0.664(提升220.8%)[19] - 训练效率显著:仅用4块A100训练5小时即达0.463平均准确率,远优于需64块A100训练216小时的SEED-LLaMA[21] - 定性测试显示其生成质量与商业模型Gemini相当,且具备视频生成扩展能力[25][34] 行业影响 - 突破性解决低资源环境下的多模态推理难题,为学术研究和工业应用提供新路径[3][36] - 开创扩散模型理解复杂图文组合的新范式,显著提升生成式AI的语义理解深度[7][15] - 技术方案具备高度可扩展性,可适配不同VLM架构并延伸至视频生成领域[16][34]
马斯克疯狂点赞,Lovart凭什么是世界上第一个设计智能体?
搜狐财经· 2025-07-12 13:18
Lovart的核心定位与市场表现 - 产品在海外科技圈迅速引爆 官方视频播放近百万 推特引发5000条讨论 马斯克点赞 24小时内超2万名用户申请试用邀请码 [3] - 区别于现有AIGC工具 定位为"创意团队"而非单一工具 重构AI时代创意工作生产关系 [3][8] - 创始人陈冕提出"SaaS本质是服务由人提供 而AI成为服务主体" 商业价值在于提升甚至替代特定职业生产效率 [8] 产品创新与交互设计 - 采用"画布+对话框"交互范式 左边无限大画布(桌子) 右边对话框 支持自然语言指令修改作品 [9][10] - 交互设计复刻"甲方站在设计师旁指点"场景 将复杂工作流封装为自然沟通方式 [9][11] - 不同垂直领域AI需要不同交互界面 设计领域需共享视觉空间 纯对话交互不足 [11] 竞争策略与行业洞察 - 避开与Adobe、Midjourney等巨头正面对抗 聚焦创意个体户和Prosumer群体 [14] - 选择"价值链条最长、最痛苦、最依赖人工协作"领域 用AI Agent端到端打通 [13] - 判断Midjourney代表1.0时代已成熟 ComfyUI的2.0时代门槛过高 果断下注Agent代表的3.0时代 [15][16] 行业变革与未来展望 - 从取代单一工具到取代个体职业 最终可能取代具有协作能力的团队 重构生产关系 [19] - 让顶尖设计能力突破价格壁垒 向所有人平权开放 [19] - 创始人经历互联网行业大战后 认为AI浪潮是创业者的救赎机会 [19]
WPP's dire profit warning is the last thing the ad business needs as it grapples with the impact of AI
Business Insider· 2025-07-09 22:24
广告行业现状 - WPP发布意外盈利预警 股价单日暴跌18% 同行Omnicom、Publicis、IPG和Havas股价同步下跌[1] - WPP预计2025年全年收入将下降3%至5% 主因客户流失、新业务放缓及经济不确定性导致的市场谨慎[2] - 行业新业务量同比锐减三分之二 反映广告主信心低迷 且新业务规模普遍小于往年[4] AI对行业的影响 - AI技术既带来业务机会 也威胁传统服务模式 可能颠覆按小时计费的传统商业模式[3] - 企业客户可能用内部AI解决方案替代部分代理服务 导致新业务量骤降[5][9] - AI搜索兴起减少出版商和品牌网站流量 对在线广告传播构成挑战[13] 主要公司动态 - WPP计划每年投入3亿英镑(约4.07亿美元)发展AI技术 已投资Stability AI并重点开发AI平台WPP Open[14] - Publicis和Omnicom承诺未来数年投入数亿美元布局AI 其中Publicis因业绩强劲未被巴克莱降级[11][17] - Omnicom与IPG即将合并 将成全球最大广告集团 导致WPP行业地位下滑[18] WPP面临的挑战 - 近期失去辉瑞和可口可乐北美等关键客户 业务重组伴随裁员造成运营干扰[16] - 任职30余年的CEO马克·里德宣布离职 继任者未定 管理层变动增加不确定性[17] - 分析师认为WPP需加速转型才可能重夺行业龙头地位 但短期内难以实现[18]
在湍流中寻找航向
华夏时报· 2025-07-07 21:26
人工智能对全球经济的影响 - 人工智能的迅猛发展正在以前所未有的速度重塑全球经济格局,技术奇点的加速临近催生了新一轮的"脉动速度",象征着技术迭代的指数级增长和数字经济时代竞争逻辑的根本性转变 [2] - 人工智能时代加速了行业和企业的"大洗牌"效应,曾经的"百年老店"可能一夜陨落,而新兴企业也可能在短短数年内成为行业霸主 [2] - AI技术的崛起重构了变化的本质,ChatGPT的用户在两个月内突破1亿,Stable Diffusion让艺术创作门槛归零,自动驾驶算法的迭代周期从"年"压缩至"周" [7] 脉动速度理论 - "脉动速度"定义为产业演进的节奏,拆解为三个维度:流程更新速度、产品迭代速度和组织变革速度,例如英特尔微处理器的生命周期以"月"计,而波音747客机的技术框架却横跨数十年 [4] - 脉动速度的差异决定了企业战略的优先级,在快节奏领域,灵活性和预见性胜于规模,微软通过捆绑策略快速响应网景的挑战 [4] - 当技术脉动速度突破临界点,竞争优势的半衰期将以指数级坍缩,算法重构规则、数据重塑权力 [7] 竞争优势的暂时性 - 所有竞争优势都是暂时的,传统企业追求"护城河"的思维在数字技术冲击下已显落伍 [3] - 柯达固守胶片技术而忽视数码相机趋势,其垂直整合的基因和对短期利润的执着使其在行业脉动速度骤增时无力转身,核心优势变为核心惰性 [3] - 在AI时代,OpenAI凭借GPT-3一度独占鳌头,但短短一年内,Meta的Llama、谷歌的Gemini、Anthropic的Claude已形成围攻之势,开源社区让技术壁垒加速瓦解 [8] 供应链设计的战略价值 - 供应链设计被视为企业的终极核心实力,从"成本中心"到"战略资产"的跃迁逻辑,戴尔的"零库存"模式是对PC行业极快脉动速度的精准适配 [5] - 三维并行工程(3-DCE)突破了传统线性思维,强调产品设计、制造优化和技术路线必须紧密缠绕、协同进化 [5] - 惠普病人监护系统通过三维并行工程将硬件设计、云端数据分析与医院工作流程无缝衔接,技术的价值在于其与业务架构、供应链能力的同频共振 [6] 商业双螺旋理论 - 产业结构的演变遵循"垂直一体化→水平模块化→再垂直一体化"的循环,如同DNA双螺旋的旋转 [6] - 企业拥抱工业互联网、人工智能时需警惕"为数字化而数字化"的陷阱,技术的价值不在于孤立的前沿性,而在于与业务架构的适配 [6] - 在AI时代,真正的竞争优势或许只能以"天"为单位存在,算法可以被复制、数据能够被迁移、算力逐渐商品化 [8]
物理学家靠生物揭开AI创造力来源:起因竟是“技术缺陷”
量子位· 2025-07-04 12:40
核心观点 - AI的"创造力"本质上是扩散模型架构的确定性产物,而非高级智能表现[1][19] - 扩散模型的局部性和等变性限制(技术缺陷)反而成为其创造力的来源[13][16][19] - 该机制与生物形态发生学中的图灵模式高度相似,解释了AI生成图像常见缺陷(如多余手指)的成因[9][12][19] 研究背景 - 扩散模型(DALL·E/Stable Diffusion核心)设计初衷是精确复制训练数据,但实际表现出"即兴创作"能力[3][5] - 去噪过程中像素块的局部重组导致信息丢失,类似拼图丢失说明书后的创造性重组[6][8] - 物理学家团队(跨学科背景)从生物自组装过程获得启发,建立ELS数学模型验证假设[9][16] 关键发现 - ELS模型仅基于局部性+等变性规则,即能以90%准确率复现扩散模型输出[18][19] - 创造力源于系统动态:模型过度关注局部像素块而缺乏全局协调(类似生物发育中的多指畸形)[12][15][19] - 该机制可数学形式化,证明创造力是去噪过程的必然副产品[16][19] 未解问题 - 非扩散模型(如LLM)的创造力机制尚未被该理论覆盖[21] - 人类与AI创造力可能共享"不完整认知→填补空白"的底层逻辑[21][22] 行业意义 - 首次将AI创造力归因于底层技术架构而非抽象能力[1][19] - 为理解人类创造性思维提供新视角(神经科学类比)[19][21] - 可能推动新一代生成模型的设计范式转变[16][19]
AI改变了一切,除了猫咪
虎嗅APP· 2025-06-30 18:22
AI猫咪视频的流行现象 - AI猫咪视频分为两种类型:拟人化剧情类和技术展示类,前者如"大橘剧场"讲述连续故事,后者如奥运会跳水猫展示AI技术突破[6] - 数据表现亮眼:YouTube频道Batysyr通过20个AI猫咪视频月增77万粉丝获1亿播放量,Cat channel 91转型后月增200万订阅者且单视频播放量从数万跃至千万级[8] - 国内平台同步爆发:抖音、小红书等平台出现大量AI猫咪账号,单个视频点赞量普遍达数千至上万[8] 商业化变现模式 - 平台分成收益显著:创作者安胜运营的百万粉账号矩阵月收入达2万元人民币,单条千万播放TikTok视频可分账1200-2000元[12] - 广告植入成为主流:如"LT小狗日记"在短剧中植入宠物用品和食品广告,部分头部创作者开始收费提供制作流程教学[12][13] - 出现投机行为:包括批量生产低质内容骗取流量,以及借热度发行猫主题Meme币等加密货币[13] 技术驱动因素 - 工具门槛大幅降低:Midjourney、Stable Diffusion等绘图工具配合Pika等视频平台,使完整制作流程成本可控制在数十元,新手1小时可掌握[19] - 物理模拟能力突破:AI开始准确模拟水花飞溅、身体翻转等物理现象,技术公司如快手通过可灵平台主动打造"打工人猫"等模板示范[19] - 企业借势营销:MiniMax等公司因"猫咪跳水"视频获得TechRadar等媒体关注,被建议作为行业技术标杆[20] 文化心理基础 - 猫科动物具备先天优势:幼态持续特征触发人类保护欲,表情神秘性成为情感投射载体,有效规避AI人脸生成的恐怖谷效应[23] - 数据积累深厚:互联网数十年的猫内容沉淀为AI训练提供丰富素材库[23] - 情感共鸣机制:无论是逆袭剧情还是生活挫折,观众通过AI猫共情自身经历,形成情感宣泄出口[24] 行业意义 - 技术普及路径示范:显示尖端技术需通过贴近大众情感的方式实现规模化应用[24] - 用户习惯培养:以无害形式帮助用户适应AIGC内容,为更广泛的AI生成场景铺路[24] - 内容创作范式转变:验证"荒谬感+真实感"的内容公式在算法推荐时代的传播效力[16][19]
AI改变了一切,除了猫咪
虎嗅· 2025-06-30 11:25
AI猫咪内容行业现状 - AI猫咪视频在抖音、小红书和TikTok等平台广泛传播,主要分为拟人化剧情类和技术展示类两种形式[7][8] - 拟人化剧情类以"大橘剧场"为代表,通过连续剧情的"宠物短剧"吸引观众,例如"Chubby"胖橘猫系列获得全球网友关注[7] - 技术展示类以挑战物理定律为特点,如三花猫完成专业跳水动作的视频在Instagram获得近2亿播放量[8] 行业数据表现 - YouTube频道Batysyr通过20个AI猫咪视频实现单月77万粉丝增长和1亿播放量[11] - Cat channel 91转型AI猫咪内容后月新增200万订阅者,视频播放量从几万跃升至千万级[11] - AiCat7频道30天内粉丝增长达127万,国内平台同类账号内容点赞量普遍达到数千至上万[11] 商业模式与变现 - 创作者通过平台分成获得收益,单条千万播放量TikTok视频可分得1200-2000元人民币[14] - "AI宠物短剧"植入广告成为变现方式之一,如"LT小狗日记"为宠物用品和食品品牌推广[15] - 部分头部创作者通过收费教程变现,例如@orange.cat899博主对制作流程咨询进行收费[15] 技术驱动因素 - Midjourney、Stable Diffusion等AI绘图工具和可灵、Pika等视频平台大幅降低创作门槛[23] - 典型制作流程包括ChatGPT生成剧本、AI绘图工具创作主角、一键生成视频并后期加工,新手一小时可掌握[23] - AI技术突破实现物理规律模拟,如水花飞溅效果和空中翻转动作,增强内容真实感[23] 平台与公司布局 - 快手通过可灵平台主动打造猫咪内容生态,发布"打工人猫"等模板视频引导用户创作[23] - MiniMax等AI公司借助"猫咪跳水"等爆款内容实现病毒式营销,获得科技媒体关注[24] - 行业存在利用AI猫咪热度发行加密货币现象,如"Book of Meow"猫主题Meme币营销案例[17] 用户心理与文化基础 - 猫类内容成功利用"幼态持续"心理学效应触发用户情感共鸣[26] - 猫脸生成有效规避"恐怖谷效应",相比人脸更易被观众接受[26] - 互联网积累数十年的猫类内容数据库为AI训练提供充足素材[26]
让多模态大模型「想明白再画」!港大等开源GoT-R1:强化学习解锁视觉生成推理新范式
机器之心· 2025-06-25 14:50
多模态大模型技术进展 - 当前多模态大模型在复杂文本提示生成高保真图像方面取得进展,但在处理精确空间关系、多对象属性及复杂组合指令时仍面临挑战[1] - 香港大学MMLab、香港中文大学MMLab和商汤科技团队推出GoT-R1框架,通过强化学习增强语义-空间推理能力,超越预定义模板限制[2][3] - GoT框架通过显式语言推理过程规划语义内容和空间布局,提升图像生成准确性和可控性,但依赖人工定义模板限制了自主推理潜力[4] GoT-R1技术创新 - GoT-R1创新性应用强化学习于视觉生成,赋予模型自主学习和优化推理路径能力[5] - 构建双阶段多维度奖励框架:推理过程评估奖励(RPR)、推理至图像对齐奖励(RRI)、语义对齐奖励(Rsem)、空间对齐奖励(Rspa)、文本提示至图像对齐奖励(RPI)[14][15][16][17] - 采用组相对策略优化(GRPO)强化学习算法,使模型主动探索更优质推理策略,突破训练数据固定模式限制[18] 性能评估与行业对比 - GoT-R1-7B在T2I-CompBench六个评估类别中五个(色彩、形状、纹理、非空间属性、复杂组合)取得最高分,确立新SOTA性能[22][23] - 相比监督微调基线模型(Janus-Pro-7B-GoT),GoT-R1-7B指标提升达15%,纹理和形状保真度显著进步[24] - GPT-4o评估显示GoT-R1在空间关系理解类别以84:16压倒性优势胜出,证明其从根本上优化了模型推理能力[25] 技术实现细节 - GoT依赖840万图像生成样本和92万图像编辑样本构建的大规模推理链图文对数据集,结合Qwen2.5-VL等多模态大模型[10] - 独创语义-空间指导模块(SSGM)增强扩散模型遵循推理链能力[10] - 空间对齐奖励创新性将文本坐标转换为可视化布局供MLLM评估,显著提升空间关系判断准确性[16]
放弃国企工作,创办一人企业:我一定能用AI挣到钱!丨AI转型访谈录
腾讯研究院· 2025-06-20 15:33
核心观点 - AI工具虽然降低了影视制作行业的门槛,但要实现商业变现仍需结合影视基础、绘画基础、审美能力和创意思路等核心能力 [4][22][45] - AI在影视制作中主要起到提升效率的作用,可提速约80%,但创作思路短期内无法被替代 [4][70][76] - 成功转型AI的关键在于持续学习、客户服务质量和作品质量,而非单纯依赖工具 [25][45][72] - AI影视制作行业已实现商业化落地,从业者月收入可达4-5万元,主要客户包括企业、媒体和机构 [24][20][26] 行业现状 - AI影视制作已形成完整产业链,从业者通过社群、平台和转介绍获取订单 [26][29][31] - 主流工具包括Midjourney、Stable Diffusion、DALL-E 3等生图工具,Pika等视频工具,每月工具成本达数千元 [44] - 行业存在分层现象:基础图片制作单价低至10元,商业广告片可达数千元 [12][14][38] - AI短剧被视为潜在风口,但当前技术尚无法与真人剧集抗衡 [66][68] 商业模式 - 典型项目周期从半天到两个月不等,紧急商业广告可在6小时内交付 [38][41] - 主要收入来源包括企业宣传片、商业广告、媒体合作等,头部从业者月均收入4-5万元 [24][20] - 获客渠道多元化:平台接单占比约30%,转介绍和社群渠道占比70% [26][29][31] - 团队采用灵活协作模式,核心成员1-2人,项目制招募临时成员 [27][28] 核心能力 - 需要掌握至少3-5种AI工具的深度应用,并能组合使用解决复杂需求 [44][45] - 影视行业基础技能(剪辑、运镜、脚本)仍是核心竞争力 [22][45][46] - 客户需求转化能力至关重要,需将模糊需求转化为可执行方案 [33][45] - 持续学习能力是关键,需每天跟踪行业新技术和新工具 [72][78] 发展趋势 - 工具迭代速度加快,从业者需保持每月20%以上的学习时间投入 [58][72] - 行业呈现专业化分工趋势,开始出现文案、生图、视频等细分领域 [44][68] - 内容质量要求持续提升,市场开始淘汰低质量批量生产内容 [68][77] - 三四线城市从业者通过远程协作实现业务突破 [20][64]