Stable Diffusion

搜索文档
AI抢饭碗还是送外挂?好莱坞大咖们吵翻了
36氪· 2025-09-10 17:53
AI是潘多拉之盒?还是普罗米修斯的火种? 在刚刚落幕不久的威尼斯电影节上,导演吉尔莫·德尔·托罗带来了他的最新作品《弗兰肯斯坦》。记者们都很关⼼⼀个"赛博朋克"的问题:这部关于⼈造 ⽣命失控的电影,是否在隐喻AI? 记者们之所以有此一问,是因为吉尔莫·德尔·托罗此前曾公开表态:他在制作《弗兰肯斯坦》时拒绝使用过多数字特效和绿幕。 我想要真实的场景。我不想要数字的。我不想要人工智能的。我不想要模拟的。我想要传统的工艺。我想要人来绘画、搭建、锤造、抹灰。 即使"陀螺"是奥斯卡最佳导演,也并非所有电影人都同意他的观点。就在今年的威尼斯电影节上,力挺AI介入电影创作的观点也大有市场。 威尼斯电影节甚至下设了一个Reply AI电影节,AI电影与"陀螺"的手工电影共聚一堂,共同接受观众的品评。 △ 今年的Reply AI电影节获奖者合影 在AI横扫全球各行各业的大背景下,电影行业内部却正分裂成"支持AI"和"反对AI"的两大阵营。说这种分裂即将酝酿出一场"内战"也不过分。 分裂的一个重要原因显然是利益相关。在这波AI浪潮中,有些电影人正在或即将获益,他们自然支持AI;有些电影人担心被AI抢了饭碗,或更严重一 点,AI会 ...
Diffusion 一定比自回归更有机会实现大一统吗?
机器之心· 2025-08-31 09:30
Diffusion架构与自回归架构在多模态大一统模型中的对比 - 多模态能力被视为实现人类级别智能的必要条件 构建大一统模型成为关键目标 旨在用单一架构统一处理文本 图像 音频 视频 3D模型及机器人动作信号等异构数据类型[8] - 自回归架构长期主导多模态领域 Transformer系列LLM从NLP扩展至多模态 催生LLaVa Qwen-VL InternVL Ovis和GPT4等模型[8] - 扩散架构原主要应用于视觉生成领域 如Stable Diffusion和DiT 但近期扩散语言模型在NLP任务突破 重新引发对其实现多模态大一统潜力的关注[8] Diffusion架构的理论优势与潜力 - 扩散范式天然支持并行生成 精细化控制和动态感知 这些是自回归模型难以实现的能力[9] - 离散扩散架构被强调为替代自回归实现多模态统一处理的潜在方案[9] - 扩散语言模型通过并行生成和迭代式去噪解决自回归模型推理速度瓶颈 具有扩展至其他模态的潜力[9] 生成式建模的信息论基础 - 自回归模型本质是预测下一个token 通过最小化序列描述长度实现无损压缩 尤其适应NLP任务[9] - 多模态自回归模型需将输入转换为一维序列 早期使用双编码器架构分别处理图像文本 后转向仅解码器架构并通过连接器转换图像嵌入[10] - 扩散架构本质是纠错机制 正向加噪和反向去噪过程同样构成强大压缩框架 且支持两种压缩模式[11]
最新综述!扩散语言模型全面盘点~
自动驾驶之心· 2025-08-20 07:32
扩散语言模型(DLMs)与自回归模型(AR)的范式对比 - 扩散模型在图像生成领域表现突出,代表模型包括Stable Diffusion和DALL·E,通过"从噪声中迭代重建"的生成逻辑刷新视觉创作边界 [2] - 自回归模型主导文本生成领域,代表模型包括GPT、LLaMA、Qwen、DeepSeek系列,采用"逐词预测序列"框架但存在效率瓶颈 [2] - 扩散语言模型(DLMs)通过"并行生成+迭代优化"机制实现数倍推理加速,性能已比肩同等规模AR模型 [2] DLM的核心技术优势 - **并行生成能力**:工业界模型如Mercury系列、Gemini Diffusion实现每秒数千token的推理速度,较AR模型提升10倍以上 [11] - **双向上下文理解**:支持双向注意力机制,在文本补全、风格迁移等任务中表现更优,且能实现细粒度控制如情感倾向调整 [12] - **迭代优化机制**:类似人类写作修改过程,可动态修正低置信度token,LLaDA-8B在GSM8K数学基准测试中准确率超过LLaMA3-8B 5% [13] - **多模态适配性**:统一框架支持文本与视觉联合生成,MMaDA模型在图像生成质量上超越SDXL,同时保持语言理解能力 [14] DLM的三大技术范式 - **连续空间DLMs**:将文本token映射到连续嵌入空间完成扩散过程,可直接使用DDPM等成熟框架但存在语义偏差问题 [19] - **离散空间DLMs**:直接在token词汇表上定义扩散过程,主流路线代表包括8B规模的LLaDA、Dream-7B,支持8192 tokens长序列处理 [20][21] - **混合AR-DLMs**:结合AR长程依赖建模与DLM并行生成能力,Diffusion-LM等模型在指令跟随任务上达到GPT-3.5水平 [22][23] 训练与推理优化技术 - **训练策略**:采用迁移学习降低门槛,Dream-7B基于Qwen2.5-7B初始化,训练数据量减少50%但推理速度提升7倍 [30] - **推理加速技术**:包括置信度感知解码(速度提升27.6倍)、辅助模型引导解码、缓存机制(速度提升9倍)等 [38][40] - **质量保障技术**:ReMDM模型的动态修正机制、LaViDa的互补掩码策略使多模态训练效率提升40% [39] 多模态与产业落地应用 - **多模态模型**:LLaDA-V在MME基准超越LLaVA-1.5-7B 12%,D-DiT在文本生成图像任务人类偏好率达85% [44] - **代码生成领域**:DiffuCoder在HumanEval基准pass@1达68%且推理速度快8倍,Mercury Coder语法错误率仅2.3% [46] - **计算生物学**:MeMDLM设计的膜蛋白表达成功率达68%,DPLM2在蛋白质折叠任务RMSD达1.8Å [47] 未来发展方向与挑战 - **核心挑战**:包括并行性-性能权衡(去噪步数减少导致GSM8K准确率从78%降至45%)、工具链不完善、长序列处理复杂度高等 [51][52][53] - **研究方向**:语义关联建模、专用工具链建设、稀疏扩散架构创新、跨模态协同推理等 [54][56]
ICCV 2025|训练太复杂?对图片语义、布局要求太高?图像morphing终于一步到位
机器之心· 2025-07-18 08:38
核心观点 - FreeMorph是一种无需训练、一步到位的图像变形方法,能够在不同语义与布局的图像之间生成流畅自然的过渡效果 [5] - 该方法通过改进扩散模型的自注意力机制,解决了传统方法中训练成本高、适应性差的问题 [5][11] - FreeMorph在30秒内即可为两张输入图像生成高质量平滑过渡,显著优于现有技术 [32] 技术背景 - 传统图像变形技术依赖复杂的图像对齐算法和颜色插值,难以处理复杂纹理和多样语义的图像 [4] - 现有深度学习方法如GAN、VAE存在训练成本高、数据依赖强、反演不稳定等问题 [4] - 基于Stable Diffusion和CLIP等大模型的方法仍面临训练时间长(约30分钟/案例)和语义处理能力不足的挑战 [9] 技术方案 - 引导感知的球面插值:通过修改预训练扩散模型的自注意力模块,融入输入图像的显式引导来增强模型 [11] - 球面特征聚合融合自注意力模块的Key和Value特征,确保过渡一致性 [16] - 先验引导的自注意力机制保留输入图像的独特身份特征 [18] - 步骤导向的变化趋势:融合两个输入图像的自注意力模块,实现受控且一致的过渡 [21] - 改进的反向去噪和正向扩散过程:将创新组件集成到原始DDIM框架中 [22][25] 技术优势 - 无需训练或调参,仅需两张输入图像即可完成变形 [5] - 处理时间仅需30秒,显著快于现有方法(如IMPUS需要30分钟) [32] - 能够处理语义多样、布局复杂的图像对,保持身份特征和平滑过渡 [27][30] - 在四组不同类别的评估数据集上表现优异 [12] 应用前景 - 可应用于动画、电影特效或照片编辑等领域 [3] - 能够捕捉细微变化,如不同颜色的蛋糕或人物表情的微妙差异 [27] - 为training-free图像变形打开了新的可能性 [5] 技术局限 - 处理语义或布局差异较大的图像时,过渡可能不够平滑 [34] - 继承了Stable Diffusion的固有偏差,在人体四肢等结构处理上准确性受影响 [34]
ICML 2025|多模态理解与生成最新进展:港科联合SnapResearch发布ThinkDiff,为扩散模型装上大脑
机器之心· 2025-07-16 12:21
多模态理解与生成技术进展 - 当前文本到图像生成技术如Stable Diffusion和Flux缺乏真正的多模态推理能力,难以理解图像与文本的复杂逻辑关系[1] - OpenAI的GPT-4o和Google的Gemini Pro展示了强大能力,但依赖超大规模参数和算力资源[2] - 香港科技大学与Snap Research提出的ThinkDiff方法,仅需少量数据和数小时训练即可实现多模态推理式生成[3] ThinkDiff核心技术 - 核心创新在于将视觉语言模型(VLM)的推理能力迁移至扩散模型,结合两者优势实现高质量生成[7] - 利用LLM与Diffusion共享特征空间的特性,通过代理任务将VLM与LLM解码器对齐[9][11] - 采用掩码训练策略强制对齐网络深度理解多模态信息,避免特征对齐走捷径[15] 模型架构与变体 - ThinkDiff-LVLM版本继承大型视觉语言模型的多模态理解能力[16] - ThinkDiff-CLIP版本强化文本图像组合能力,可扩展至视频生成领域[16][34] - 网络设计关键:对齐VLM自回归生成的tokens特征而非输入tokens,实现真正的推理能力传递[15] 性能表现 - 在CoBSAT基准测试中全面领先:Color-I准确率0.638(较SEED-LLaMA提升32.4%),Action-II准确率0.664(提升220.8%)[19] - 训练效率显著:仅用4块A100训练5小时即达0.463平均准确率,远优于需64块A100训练216小时的SEED-LLaMA[21] - 定性测试显示其生成质量与商业模型Gemini相当,且具备视频生成扩展能力[25][34] 行业影响 - 突破性解决低资源环境下的多模态推理难题,为学术研究和工业应用提供新路径[3][36] - 开创扩散模型理解复杂图文组合的新范式,显著提升生成式AI的语义理解深度[7][15] - 技术方案具备高度可扩展性,可适配不同VLM架构并延伸至视频生成领域[16][34]
马斯克疯狂点赞,Lovart凭什么是世界上第一个设计智能体?
搜狐财经· 2025-07-12 13:18
Lovart的核心定位与市场表现 - 产品在海外科技圈迅速引爆 官方视频播放近百万 推特引发5000条讨论 马斯克点赞 24小时内超2万名用户申请试用邀请码 [3] - 区别于现有AIGC工具 定位为"创意团队"而非单一工具 重构AI时代创意工作生产关系 [3][8] - 创始人陈冕提出"SaaS本质是服务由人提供 而AI成为服务主体" 商业价值在于提升甚至替代特定职业生产效率 [8] 产品创新与交互设计 - 采用"画布+对话框"交互范式 左边无限大画布(桌子) 右边对话框 支持自然语言指令修改作品 [9][10] - 交互设计复刻"甲方站在设计师旁指点"场景 将复杂工作流封装为自然沟通方式 [9][11] - 不同垂直领域AI需要不同交互界面 设计领域需共享视觉空间 纯对话交互不足 [11] 竞争策略与行业洞察 - 避开与Adobe、Midjourney等巨头正面对抗 聚焦创意个体户和Prosumer群体 [14] - 选择"价值链条最长、最痛苦、最依赖人工协作"领域 用AI Agent端到端打通 [13] - 判断Midjourney代表1.0时代已成熟 ComfyUI的2.0时代门槛过高 果断下注Agent代表的3.0时代 [15][16] 行业变革与未来展望 - 从取代单一工具到取代个体职业 最终可能取代具有协作能力的团队 重构生产关系 [19] - 让顶尖设计能力突破价格壁垒 向所有人平权开放 [19] - 创始人经历互联网行业大战后 认为AI浪潮是创业者的救赎机会 [19]
WPP's dire profit warning is the last thing the ad business needs as it grapples with the impact of AI
Business Insider· 2025-07-09 22:24
广告行业现状 - WPP发布意外盈利预警 股价单日暴跌18% 同行Omnicom、Publicis、IPG和Havas股价同步下跌[1] - WPP预计2025年全年收入将下降3%至5% 主因客户流失、新业务放缓及经济不确定性导致的市场谨慎[2] - 行业新业务量同比锐减三分之二 反映广告主信心低迷 且新业务规模普遍小于往年[4] AI对行业的影响 - AI技术既带来业务机会 也威胁传统服务模式 可能颠覆按小时计费的传统商业模式[3] - 企业客户可能用内部AI解决方案替代部分代理服务 导致新业务量骤降[5][9] - AI搜索兴起减少出版商和品牌网站流量 对在线广告传播构成挑战[13] 主要公司动态 - WPP计划每年投入3亿英镑(约4.07亿美元)发展AI技术 已投资Stability AI并重点开发AI平台WPP Open[14] - Publicis和Omnicom承诺未来数年投入数亿美元布局AI 其中Publicis因业绩强劲未被巴克莱降级[11][17] - Omnicom与IPG即将合并 将成全球最大广告集团 导致WPP行业地位下滑[18] WPP面临的挑战 - 近期失去辉瑞和可口可乐北美等关键客户 业务重组伴随裁员造成运营干扰[16] - 任职30余年的CEO马克·里德宣布离职 继任者未定 管理层变动增加不确定性[17] - 分析师认为WPP需加速转型才可能重夺行业龙头地位 但短期内难以实现[18]
在湍流中寻找航向
华夏时报· 2025-07-07 21:26
人工智能对全球经济的影响 - 人工智能的迅猛发展正在以前所未有的速度重塑全球经济格局,技术奇点的加速临近催生了新一轮的"脉动速度",象征着技术迭代的指数级增长和数字经济时代竞争逻辑的根本性转变 [2] - 人工智能时代加速了行业和企业的"大洗牌"效应,曾经的"百年老店"可能一夜陨落,而新兴企业也可能在短短数年内成为行业霸主 [2] - AI技术的崛起重构了变化的本质,ChatGPT的用户在两个月内突破1亿,Stable Diffusion让艺术创作门槛归零,自动驾驶算法的迭代周期从"年"压缩至"周" [7] 脉动速度理论 - "脉动速度"定义为产业演进的节奏,拆解为三个维度:流程更新速度、产品迭代速度和组织变革速度,例如英特尔微处理器的生命周期以"月"计,而波音747客机的技术框架却横跨数十年 [4] - 脉动速度的差异决定了企业战略的优先级,在快节奏领域,灵活性和预见性胜于规模,微软通过捆绑策略快速响应网景的挑战 [4] - 当技术脉动速度突破临界点,竞争优势的半衰期将以指数级坍缩,算法重构规则、数据重塑权力 [7] 竞争优势的暂时性 - 所有竞争优势都是暂时的,传统企业追求"护城河"的思维在数字技术冲击下已显落伍 [3] - 柯达固守胶片技术而忽视数码相机趋势,其垂直整合的基因和对短期利润的执着使其在行业脉动速度骤增时无力转身,核心优势变为核心惰性 [3] - 在AI时代,OpenAI凭借GPT-3一度独占鳌头,但短短一年内,Meta的Llama、谷歌的Gemini、Anthropic的Claude已形成围攻之势,开源社区让技术壁垒加速瓦解 [8] 供应链设计的战略价值 - 供应链设计被视为企业的终极核心实力,从"成本中心"到"战略资产"的跃迁逻辑,戴尔的"零库存"模式是对PC行业极快脉动速度的精准适配 [5] - 三维并行工程(3-DCE)突破了传统线性思维,强调产品设计、制造优化和技术路线必须紧密缠绕、协同进化 [5] - 惠普病人监护系统通过三维并行工程将硬件设计、云端数据分析与医院工作流程无缝衔接,技术的价值在于其与业务架构、供应链能力的同频共振 [6] 商业双螺旋理论 - 产业结构的演变遵循"垂直一体化→水平模块化→再垂直一体化"的循环,如同DNA双螺旋的旋转 [6] - 企业拥抱工业互联网、人工智能时需警惕"为数字化而数字化"的陷阱,技术的价值不在于孤立的前沿性,而在于与业务架构的适配 [6] - 在AI时代,真正的竞争优势或许只能以"天"为单位存在,算法可以被复制、数据能够被迁移、算力逐渐商品化 [8]
物理学家靠生物揭开AI创造力来源:起因竟是“技术缺陷”
量子位· 2025-07-04 12:40
核心观点 - AI的"创造力"本质上是扩散模型架构的确定性产物,而非高级智能表现[1][19] - 扩散模型的局部性和等变性限制(技术缺陷)反而成为其创造力的来源[13][16][19] - 该机制与生物形态发生学中的图灵模式高度相似,解释了AI生成图像常见缺陷(如多余手指)的成因[9][12][19] 研究背景 - 扩散模型(DALL·E/Stable Diffusion核心)设计初衷是精确复制训练数据,但实际表现出"即兴创作"能力[3][5] - 去噪过程中像素块的局部重组导致信息丢失,类似拼图丢失说明书后的创造性重组[6][8] - 物理学家团队(跨学科背景)从生物自组装过程获得启发,建立ELS数学模型验证假设[9][16] 关键发现 - ELS模型仅基于局部性+等变性规则,即能以90%准确率复现扩散模型输出[18][19] - 创造力源于系统动态:模型过度关注局部像素块而缺乏全局协调(类似生物发育中的多指畸形)[12][15][19] - 该机制可数学形式化,证明创造力是去噪过程的必然副产品[16][19] 未解问题 - 非扩散模型(如LLM)的创造力机制尚未被该理论覆盖[21] - 人类与AI创造力可能共享"不完整认知→填补空白"的底层逻辑[21][22] 行业意义 - 首次将AI创造力归因于底层技术架构而非抽象能力[1][19] - 为理解人类创造性思维提供新视角(神经科学类比)[19][21] - 可能推动新一代生成模型的设计范式转变[16][19]
AI改变了一切,除了猫咪
虎嗅APP· 2025-06-30 18:22
AI猫咪视频的流行现象 - AI猫咪视频分为两种类型:拟人化剧情类和技术展示类,前者如"大橘剧场"讲述连续故事,后者如奥运会跳水猫展示AI技术突破[6] - 数据表现亮眼:YouTube频道Batysyr通过20个AI猫咪视频月增77万粉丝获1亿播放量,Cat channel 91转型后月增200万订阅者且单视频播放量从数万跃至千万级[8] - 国内平台同步爆发:抖音、小红书等平台出现大量AI猫咪账号,单个视频点赞量普遍达数千至上万[8] 商业化变现模式 - 平台分成收益显著:创作者安胜运营的百万粉账号矩阵月收入达2万元人民币,单条千万播放TikTok视频可分账1200-2000元[12] - 广告植入成为主流:如"LT小狗日记"在短剧中植入宠物用品和食品广告,部分头部创作者开始收费提供制作流程教学[12][13] - 出现投机行为:包括批量生产低质内容骗取流量,以及借热度发行猫主题Meme币等加密货币[13] 技术驱动因素 - 工具门槛大幅降低:Midjourney、Stable Diffusion等绘图工具配合Pika等视频平台,使完整制作流程成本可控制在数十元,新手1小时可掌握[19] - 物理模拟能力突破:AI开始准确模拟水花飞溅、身体翻转等物理现象,技术公司如快手通过可灵平台主动打造"打工人猫"等模板示范[19] - 企业借势营销:MiniMax等公司因"猫咪跳水"视频获得TechRadar等媒体关注,被建议作为行业技术标杆[20] 文化心理基础 - 猫科动物具备先天优势:幼态持续特征触发人类保护欲,表情神秘性成为情感投射载体,有效规避AI人脸生成的恐怖谷效应[23] - 数据积累深厚:互联网数十年的猫内容沉淀为AI训练提供丰富素材库[23] - 情感共鸣机制:无论是逆袭剧情还是生活挫折,观众通过AI猫共情自身经历,形成情感宣泄出口[24] 行业意义 - 技术普及路径示范:显示尖端技术需通过贴近大众情感的方式实现规模化应用[24] - 用户习惯培养:以无害形式帮助用户适应AIGC内容,为更广泛的AI生成场景铺路[24] - 内容创作范式转变:验证"荒谬感+真实感"的内容公式在算法推荐时代的传播效力[16][19]