Stable Diffusion
搜索文档
天下苦VAE久矣:阿里高德提出像素空间生成模型训练范式, 彻底告别VAE依赖
量子位· 2025-10-29 10:39
允中 发自 凹非寺 量子位 | 公众号 QbitAI 近年来,基于扩散模型的图像生成技术发展迅猛,催生了Stable Diffusion、Midjourney等一系列强大的文生图应用。然而,当前主流的训练 范式普遍依赖一个核心组件——变分自编码器(VAE),这也带来了长久以来困扰研究者们的几个问题: 为了从根本上解决VAE带来的诸多限制,EPG中提出通过 自监督预训练(SSL Pre-training)与端到端微调(End-to-End Fine-tuning) 相结合 的方式,彻底去除了生成模型对VAE的依赖。 其核心优势在于: 训练效率与生成效果双重突破:在ImageNet-256和512数据集上,EPG在训练效率远超基于VAE的主流模型DiT/SiT的同时,仅仅通过75次 模型前向计算就取得了更优的生成质量,FID分别达到了2.04和2.35。 首次实现像素空间的一致性模型训练:在不依赖VAE及 预训练的扩散模型权重 的前提下,EPG首次成功在像素空间中端到端地训练了一致性 模型(Consistency Model),在ImageNet-256上仅需单步即可取得8.82的FID。 训练复杂性:VAE旨在 ...
“当了13年CEO,内向的自己每天要假装外向、身心俱疲”,前Facebook联创谈“非自愿”CEO生涯
猿大侠· 2025-10-28 12:27
Facebook联合创始人Dustin Moskovitz的职业生涯 - Dustin Moskovitz是Facebook联合创始人,曾担任首席技术官和工程副总裁,负责技术架构和工程团队建设[3][6] - 2004年2月,Moskovitz与扎克伯格等人在哈佛大学宿舍共同创立Facebook,最初名为thefacebook.com,仅限哈佛学生使用[3][4] - 2004年6月,Moskovitz与扎克伯格等人从哈佛休学,前往加州全职运营Facebook,并雇佣了首批八名员工[5] - 离开Facebook时,Moskovitz保留约8%股份,身价超过120亿美元,成为当时全球最年轻的亿万富翁之一[7] Asana公司的创立与Moskovitz的CEO角色 - 离开Facebook后,Moskovitz联合创办了专注于工作效率和协作的软件公司Asana[7] - 2020年Asana通过直接上市方式进入资本市场,市值约为55亿美元[7] - Moskovitz本打算专注于工程和产品设计,却阴差阳错担任了Asana CEO长达13年[8] - 2024年早些时候,Moskovitz正式卸任Asana CEO,转任董事长,继续持有53%的股份(包括A类与B类股票)[10][11] 科技公司CEO角色的挑战与个人感受 - Moskovitz坦言自己性格内向,不擅长管理团队,担任CEO需要每天戴上外向的面具,令人筋疲力尽[9] - 领导高速成长的科技公司像在混乱世界里不停灭火,CEO工作更像一连串的被动反应,远离建设公司的本质[9] - Steve Kaufer表示不怀念担任TripAdvisor CEO的日子,对3000名员工的责任感非常重[12] - Emad Mostaque在辞去Stability AI CEO后直言当CEO真糟糕[12] - 马斯克表示从来不想当CEO,只想专注于产品和技术,经营公司让他心力交瘁[13]
不到 3 个月估值破 40 亿,Fal.ai CEO:模型越多,我们越值钱
36氪· 2025-10-24 08:55
2025 年 10 月 22 日,AI 基础设施公司 Fal.ai宣布完成新一轮 2.5 亿美元融资。据悉,凯鹏华盈与红杉资本领投此轮,公司估值超40亿美元。 距离上一轮 15 亿美元估值的 C 轮融资,还不到 3 个月。 这家不足 50 人的初创公司,没有训练任何自研大模型,也不追逐最强参数。 它只做一件事:让模型能调用、可商用。 Fal.ai 联合创始人兼 CEO Gorkem Yurtseven 在随后的专访中这样定义自己: 不再比拼模型能力,而是让任何模型都能被开发者用起来。模型越多,我们的平台就越有价值。 18个月前,他们还在做数据基础设施工具,为大公司处理数据清洗与转换。 直到Stable Diffusion爆火,他们看到底层逻辑变了:过去是训练模型难,现在是模型太多,反而没人能用好。他们砍掉付费产品,把模型当原料,把推理 变成流水线。 (来源TechCrunch :Fal.ai完成新一轮融资,估值超40亿美元) 今天,Fal平台托管 600 多个模型,服务超过 200 万开发者。 Adobe、Canva、Shopify、Perplexity 已将它作为生成式媒体的基础设施。 这家公司不讲"AGI ...
2025中国设计师AI应用现状及趋势洞察|附下载
腾讯研究院· 2025-10-21 17:03
AI应用普及率与增长趋势 - 2025年AI在设计行业整体使用率达到85.8%,较2024年提升23.7个百分点 [3] - 将AI投入实际项目生产的比例从2024年的25.7%跃升至2025年的43.8% [19] - 未使用任何AI工具的设计师比例从2024年的37.9%断崖式下降至2025年的14.2% [19] - 海外设计师AI应用情况与国内基本一致,82.8%的海外设计师正在应用或探索AI,仅17.1%未使用任何AI工具 [23] AI易用性提升与工具演进 - 因"操作复杂"而不使用AI工具的设计师比例从2024年的31.9%下降至2025年的25.2% [22] - 45.7%的设计师最明显感受到"学习成本降低,操作更加友好" [25] - 通用型AI如腾讯元宝、豆包、Deepseek成为设计师低成本接触AI的窗口 [4] - 专业垂直AI工具如Stable Diffusion、D5 AI、Midjourney更受深度使用者青睐 [31] - AI精准解决垂直设计问题的能力显著提升,此前"AI不能理解设计意图"的痛点(34.8%)正在持续优化 [34] 使用障碍转变与经济性考量 - 阻碍设计师使用AI的原因从技术性壁垒转向经济性壁垒 [5] - 因"AI需要付费"而放弃使用的国内设计师比例从2024年的21.8%跃升至2025年的37.8% [40] - "硬件配置不够"的比例从14.9%提升至23.5% [40] - 海外设计师中36.8%因"工具需要付费"直接放弃使用,成为首要原因 [40] 企业规模与AI渗透率差异 - 100人以上规模设计企业中66.2%将AI应用于实际项目,100人以下企业中该比例仅为33.5% [6][42] - 大型企业在AI技术采用率和整合深度上显著领先中小型事务所 [42] - 中小型企业仅在"软件/平台费用"支出占比上领先大型企业,更倾向于采用灵活、低成本的SaaS工具 [44] 企业AI能力建设投入重点 - "软件和平台费用"以47.2%位居AI相关支出首位 [7] - "人才和培训"以37.3%的比例位居第二,重要性超过"硬件升级"(30.8%)和"日常运维与技术支持"(26.4%) [7][47] - 企业对人的投资与对工具的投资同步进行,显示行业成熟认知 [49] 设计师态度与职能转变 - 认为AI不会威胁设计师岗位的比例从2024年50%提升至2025年58.2% [8][50] - AI工具使用频率与威胁感知呈负相关:频繁使用者中仅29.8%视AI为威胁,很少使用者中该比例达56.2% [52] - 64.3%的设计师感受到个人工作职能延伸,其中17.4%认为显著扩大,46.9%认为有一定程度扩大 [9][54] - 77.2%的受访者表示AI应用增强了对设计方案的掌控能力 [9] - 设计师核心价值从动手执行转向"问题定义"和"价值判断" [55] AI应用深度与行业挑战 - 仅约10%的设计师在绝大多数项目中应用AI,AI应用高度集中在"初步方案设计阶段" [10] - AI面临深度融入流程、获取垂直数据集、工作流碎片化等多重挑战 [10]
别被骗了,好莱坞抵制AI只是烟雾弹,背后金主竟是他们自己
36氪· 2025-10-14 21:32
行业对AI技术的矛盾立场 - 好莱坞行业公开发起对OpenAI Sora 2视频生成模型的抵制活动,主要经纪公司WME、UTA和CAA均表示反对,认为其剥削创作者并威胁知识产权 [1][3][5] - 行业内部存在显著矛盾,抵制AI的同时,关键人物如CAA联合创始人迈克尔·奥维茨通过其风险投资公司Crossbeam Venture Partners投资了AI娱乐工作室Promise [6][8] - 多位好莱坞知名人士,包括导演和演员,私下积极投资AI公司,覆盖内容生成、数据分析和平台生态等多个领域,显示出对AI技术潜力的认可 [12][13] AI技术的最新进展与行业冲击 - OpenAI推出的Sora 2多模态AI视频生成模型在物理精准度、真实感和可控性上达到新高度,允许用户扫描面部并生成带有明星脸或知名IP的短片,对版权和肖像权体系构成挑战 [1][3] - AI技术已扩展到音频生成领域,例如Stability AI的Stable Audio可生成商业级音乐和音效,为影视配乐提供新工具 [17][31] 好莱坞明星的AI投资版图 - 詹姆斯·卡梅隆加入AI巨头Stability AI董事会,旨在将AI整合到视觉特效工作流程中,以降低大制作电影成本并提高效率 [15][17][45] - 阿什顿·库彻的风险投资公司Sound Ventures在五周内筹集2.43亿美元,专门投资AI创业公司,包括OpenAI、Anthropic和Stability AI等头部企业 [19][41] - 莱昂纳多·迪卡普里奥投资AI公司Qloo,该公司作为文化品味推荐引擎,通过数据分析预测消费者偏好,客户包括Netflix和环球音乐等行业巨头 [20][22][35] - 杰瑞德·莱托投资AI视频创业公司Pika和Captions,前者估值在半年内翻10倍,显示出AI赛道的高回报潜力 [24][26][43] - 西尔维斯特·史泰龙投资Largo.ai,这家公司提供AI驱动分析解决方案,帮助制片方评估项目和预测市场表现,降低投资风险 [28][30][33] - 罗素兄弟计划投入4亿美元打造AI工具,旨在降低大制作门槛,而娜塔莎·雷昂参与开发AI视频工具Moonvalley,强调使用授权数据的“干净”模式 [31][47] AI投资的驱动因素与战略考量 - AI行业的高速增长是吸引投资的关键动力,全球AI市场规模预计到2025年底突破1.3万亿美元,到2033年达到3.49万亿美元 [39] - 投资者寻求高回报,早期布局可分享技术红利,例如Pika的快速估值增长和Sound Ventures通过私募股权估值差获取收益 [41][43] - 内容创作者相信AI能服务创作,例如卡梅隆旨在提高工作效率,达伦·阿伦诺夫斯基认为技术突破能推动故事讲述方式的创新 [45] - 投资平台型AI公司(如OpenAI)是一种战略布局,旨在从技术使用者转变为规则制定者,影响未来技术方向、伦理和商业模式 [38][45][47] AI应用引发的行业争议 - AI技术的替代性引发职业替代担忧,例如阿什顿·库彻曾言论称可用AI低成本生成镜头,虽后道歉但触动行业敏感神经 [49] - 伦理争议持续,如用AI“复活”已故演员罗宾·威廉姆斯的行为遭到其女儿塞尔达·威廉姆斯的强烈抨击 [51]
The timestamp defense: Why publication dates are now journalism’s most critical metadata
Medium· 2025-10-14 02:40
AI生成内容对信息真实性的挑战 - 2023年5月AI生成的五角大楼爆炸图像导致标普500指数在几分钟内下跌0.3% [1] - 2024年10月飓风Helene相关的虚假AI图像获得数百万浏览量并被现任参议员分享 [1] - 2024年1月泰勒·斯威夫特的AI生成不雅图像在24小时内获得4700万次浏览 [9] - 截至2025年5月,NewsGuard已识别1271个不可靠的AI生成新闻网站 [7] - 2023年AI生成错误信息增加了十倍,与图像生成技术变得逼真时间点吻合 [7] AI图像生成技术的发展历程 - Stable Diffusion于2022年8月22日公开发布,DALL-E 2于2022年9月28日取消等待名单,Midjourney于2022年7月推出公开测试版 [2] - 2023年3月教皇方济各穿白色Balenciaga羽绒服的AI图像标志着AI内容达到关键里程碑,能够欺骗数百万人 [2] - 2023年中期Runway Gen-2成为首个广泛可用的文本到视频生成工具 [3] - 2024年2月Sora预览,2024年12月向公众发布 [3] - 2025年Kling 2.5和Sora 2生成具有"物理精确动作"和"同步音频"的视频 [5] 时间戳作为真实性验证的关键指标 - 媒体发布的时间越早,其真实性概率越高,2019年的媒体具有近乎完全的真实性推定 [5] - 2023年9月斯洛伐克议会选举前出现的深度伪造音频尽管内容复杂,但因在互联网上无早期存在记录而被识破 [6] - 任何声称显示2023年中期之前事件的视频都具有表面真实性,因为商业文本到视频生成工具当时尚不存在 [3] 当前时间戳系统的脆弱性 - EXIF数据和IPTC元数据可通过免费工具在几秒钟内被修改,文件创建日期可通过更改系统时钟进行回溯 [11] - 社交媒体平台在内容传播过程中通常会剥离元数据,导致溯源链断裂 [12] - 即使高级系统如C2PA也存在漏洞, manipulated元数据可携带较早时间戳创建看似合法的溯源链 [13] 媒体组织需要采取的技术解决方案 - 内容管理系统应使用可信时间服务器而非用户控制的系统时钟进行时间戳记录 [15] - 区块链时间戳可将内容哈希嵌入分布式账本,创建永久性存在证明 [17] - Leica、Nikon和Sony正在芯片级别嵌入内容凭证,认证从捕获时刻开始 [18] - Adobe Photoshop和Lightroom自动在加密清单中跟踪编辑历史 [18] - OpenAI在DALL-E生成的图像中嵌入C2PA元数据,明确标记为AI创建 [18] 行业标准采用现状与挑战 - 内容真实性倡议已有超过5000个组织加入部署相关工具 [17] - 截至2025年,C2PA采用率仍然极低,存在鸡与蛋问题 [19] - 2025年1月美国国家安全局发布指南认可内容凭证,表明确保信息生态系统安全需采用标准实践 [20] - 纽约时报2019-2020年试验区块链溯源跟踪,构建从相机到发布的原型系统 [18] 媒体组织的具体实施责任 - 纽约时报2020年10月对一年前故事实施自动标签,防止新闻被武器化用于错误信息 [16] - 卫报在社交媒体分享时对超过六个月新闻应用亮黄色标签 [16] - Adobe研究发现90%受访者希望在线内容附带归属详情,特别是在重大新闻事件期间 [16] - 意大利ANSA新闻机构实施区块链水印应对COVID-19错误信息,创建可点击图标显示创作者ID和时间戳 [17] 验证范式从检测到溯源的转变 - 传统验证问题"这看起来真实吗"已失去效力,应转向"能否证明这是真实的" [23] - 认证应是肯定性的而非调查性的,可验证的溯源创建正面凭证,缺乏溯源成为危险信号 [23] - 区块链时间戳的2019年照片不仅存在于2019年,而且可证明当时存在,具有加密证据 [24]
今天,好像见证了属于SD时代的消亡
虎嗅· 2025-10-13 10:37
公司战略转型 - Liblib宣布升级至2.0版本,推出新品牌、新标识、新界面和新功能 [2] - 公司转型为集成多种AI模型的一站式创作平台,集成AI绘图模型如Seedream、Midjourney、Qwen以及AI视频模型 [61][62][64] - 平台新增特效模板功能,支持一键复刻效果,类似于海外Higgsfield的模式 [66] - 此次战略转型旨在降低用户门槛,拥抱更广泛的用户群体,预计升级后用户规模可能扩大10倍,并提升公司收入和用户留存 [68][69] 行业生态演变 - Stable Diffusion开源生态在2023年初达到鼎盛,极大地推动了AI绘图技术的普及 [10][12] - 当时的技术生态具有高度自由度和创造性,但也伴随着较高的使用门槛,如复杂的参数设置和节点连接 [23][51] - 行业趋势向低门槛、易用性发展,GPT-4o、NanoBanana、Seedream等“用嘴改图”的模型更受大众市场欢迎 [53][54] - 技术迭代速度极快,两年多时间行业发生巨大变化,旧技术被新技术取代是必然趋势 [55][56][71] 历史地位与影响 - Liblib曾是中国最著名的模型开源社区和最大的Stable Diffusion生态社区 [4][31] - 在SD生态发展过程中,涌现出众多有影响力的开发者,如Dynamic Wang、Nenly同学等 [33] - 关键技术创新如ControlNet插件使AI绘画从随机生成变为可控的创作工具,EbSynth、AnimateDiff和Deforum则推动了早期AI视频技术的发展 [34][36][38] - 尽管SD时代已过去,但社区进化为新形态,优秀创作者的品味和创造力将继续驱动行业发展 [73][75][77]
今天,好像见证了属于SD时代的消亡。
数字生命卡兹克· 2025-10-13 09:33
公司战略转型 - liblib宣布升级至2.0版本,推出新品牌、新logo、新界面和新功能[3] - 公司从专注于Stable Diffusion的开源社区转型为一站式AI创作平台[59][65] - 平台集成了多种AI绘图模型,如Seedream、Midjourney、Qwen等,以及几乎所有的AI视频模型[60] - 新增特效模板功能,用户可一键复刻效果,类似于海外平台Higgsfield[62] - 此次商业转型旨在降低使用门槛,扩大用户群,预计用户规模将增长10倍[64][67] 行业生态演变 - Stable Diffusion在2023年初处于鼎盛时期,其开源、免费、可本地运行的特点让普通人首次体验到AI绘图[11][19] - 当时生态呈现爆炸式成长,涌现出WebUI、ComfyUI等工具以及ControlNet等关键插件[28][34][36] - 社区活跃度极高,用户需要学习Prompt编写、CFG scale、Seed值、采样步骤等复杂参数[22][23][50] - 行业标志性人物包括Dynamic Wang、Nenly同学、zho、海辛、阿文、青龙圣者等[33] - 伴随技术迭代,行业向简单易用方向发展,出现了GPT-4o、NanoBanana、Seedream等更易用的模型[53][54] - 商业演进导致以SD为代表的高门槛开源生态遇冷,用户因复杂性和学习成本高而流失[50][51][55]
Bug变奖励:AI的小失误,揭开创造力真相
36氪· 2025-10-13 08:31
你一定见过那些奇怪的AI画:人物手上多出几根手指、脸部细节怪异,却又带着某种说不出的新鲜感。 这让人产生一个疑问:扩散模型明明只「复刻」,为什么还能画出前所未见的作品? 最新一项研究给出了答案: 其实,AI的创造力并非「神来之笔」,而是模型架构的副作用。 扩散模型的任务很简单:把数字噪声还原成训练过的图像。 就像把一幅画放入碎纸机,直到只剩下一堆细小的灰尘,然后将碎片重新拼凑到一起。 照理说,它应该只会生成「复制品」。 可现实却让研究者大跌眼镜。 DALL·E、Imagen、Stable Diffusion这些模型,画出的不是「翻版」,而是全新的图像: 不同元素被组合在一起,构成前所未见的场景。 更令人意外的是,这些拼贴并不是毫无意义的杂乱色块,而是带着语义的完整作品。 明明只会复制,AI为何还能创作? DALL·E 2制作了这些「金鱼在海滩上啜饮可口可乐」的图像。这个由 OpenAI创建的程序可能从未遇到过类似的图像,但它仍然可以自行生成这样的图 像。 还记得那些在社交平台疯传的「AI多手指人像」吗? 有些图看上去像是超现实主义的画——人物手上莫名其妙多出几根手指,但整体仍旧保持了清晰的结构感。 这类怪异产 ...
这篇文章,是AI写的吗?
混沌学园· 2025-10-08 19:58
文 \一只呀 混沌商业研究团队 这篇文章,是 AI写的吗? 这也许是最近很多人心中最常见的疑问。打开公众号、短视频、小红书,几乎每一条推送都像是为我们量身定 制的。这些内容不仅标题勾人、配图精致、文字流畅,甚至连语气都恰到好处。 在 AI时代,内容的生产线几乎被彻底重构。AI让自媒体的门槛坍塌,也让竞争空前激烈。有人用AI批量做 号、月入百万;有人被淹没在算法洪流里,辛苦写作却无人问津。 2025年的自媒体人已 不再需要精通每一项技能,核心工作不再是亲手写作或绘画,而是向 ChatGPT、Claude等 大模型精准地下达生产任务,向Midjourney、Stable Diffusion描述视觉需 求,再指令 Sora等视频生成工具或AI 剪辑软件完成动态呈现。 总的来说,现在的内容生产,变成了 "AI调度"。不过这绝不意味着创作变得毫无门槛。恰恰相反,旧的门槛降 低,新的壁垒随之竖起,它虽然隐蔽,却在AI时代至关重要。这一门槛意味着, AI降低了劳动门槛,却抬高 了认知门槛 。 虽然 AI参与创作不意味着作品质量低下,但对于每天被自媒体容包围的我们来说,或该去追问: 当 AI生成的 内容大量充斥于自媒体行业 ...