Workflow
ControlNet
icon
搜索文档
今天,好像见证了属于SD时代的消亡。
数字生命卡兹克· 2025-10-13 09:33
公司战略转型 - liblib宣布升级至2.0版本,推出新品牌、新logo、新界面和新功能[3] - 公司从专注于Stable Diffusion的开源社区转型为一站式AI创作平台[59][65] - 平台集成了多种AI绘图模型,如Seedream、Midjourney、Qwen等,以及几乎所有的AI视频模型[60] - 新增特效模板功能,用户可一键复刻效果,类似于海外平台Higgsfield[62] - 此次商业转型旨在降低使用门槛,扩大用户群,预计用户规模将增长10倍[64][67] 行业生态演变 - Stable Diffusion在2023年初处于鼎盛时期,其开源、免费、可本地运行的特点让普通人首次体验到AI绘图[11][19] - 当时生态呈现爆炸式成长,涌现出WebUI、ComfyUI等工具以及ControlNet等关键插件[28][34][36] - 社区活跃度极高,用户需要学习Prompt编写、CFG scale、Seed值、采样步骤等复杂参数[22][23][50] - 行业标志性人物包括Dynamic Wang、Nenly同学、zho、海辛、阿文、青龙圣者等[33] - 伴随技术迭代,行业向简单易用方向发展,出现了GPT-4o、NanoBanana、Seedream等更易用的模型[53][54] - 商业演进导致以SD为代表的高门槛开源生态遇冷,用户因复杂性和学习成本高而流失[50][51][55]
世界上第一张照片,被AI“修复”成了科幻片
虎嗅· 2025-10-04 12:22
世界上第一张照片的背景 - 被学界普遍认可的世界上第一张照片是《勒格哈的窗外景色》,其创作方式为暴晒、沥青和锡板,尽管具体年份有争议但即将度过200岁生日 [1] - 照片作者尼埃普斯在自家二楼工作室窗边,通过连续曝光几天,在一块抛光锡板上捕捉到影像 [3] - 尼埃普斯使用的感光材料是将沥青混合薰衣草油涂在锡板上,靠太阳灼印出图像,只有阳光最强的部分才会在板上留下痕迹 [22] - 该照片是一次成像的倒置影像,需要手动翻转才能正立过来,没有“拍底片—翻印正片”的流程 [27][28] AI修复照片的尝试与结果 - Reddit网友使用GPT-4o等生成式AI工具尝试“复原”这张历史影像,产生了多个意想不到的版本 [4][6] - AI修复版本包括将原图变成《星球大战》科幻风格、动画风格、霓虹迷雾高楼风格,以及被处理成历史遗址,均与实际建筑结构相差甚远 [7][9][10][14][23] - 在OpenAI o3模型修复的版本中,斜屋顶、塔楼等元素与尼埃普斯原作勉强相关 [16] - AI修复集体翻车的一个典型细节是照片中央的三角形高亮区域,实际是庭院地面在长时间曝光下被阳光照射留下的亮斑,而非建筑结构 [17][19] 历史复原与实地考证 - 这张照片的复原版本早在1952年由伦敦柯达实验室在历史学者指导下用底片修饰后公开发布,让大众首次清晰看见原貌 [18] - 1999年法国摄影学院Spéos的创始人皮埃尔-伊夫·马黑团队租下尼埃普斯的实验室房间进行实地考证,发现窗户在19世纪末翻修中被左移约70厘米,并还原了屋内陈设 [25][26] - 尼埃普斯故居已被改造成博物馆,每年7月到8月开放,游客可透过窗口眺望庭院景观 [29] AI图像修复的技术机制 - 当前图像修复底层大多基于扩散模型,基本机制是先加入高斯噪声破坏图像,再通过反向过程学习将噪声复原生成“无损”图像 [32][33] - 在实际修复任务中,AI只对损坏区域采样重建,不修改已知区域,以确保修复内容风格统一且兼顾效率与质量 [34] - 一些模型如SPIRE通过提示词锁定修复方向,ControlNet等模块负责保持语义一致性和修图边界感,避免过度发挥 [35] - 模型会引入重采样机制,如果AI修出的内容偏题或风格不符,会将结果退回上一步重新修,回溯跳跃长度越长越可能纠正“幻觉” [36][37] AI修复的准确性与社会影响 - 北京理工大学与澳大利亚国立大学的实验显示,GPT-4o生成的修复图片视觉冲击力强,在CLIP-IQA等主观指标上得分高,但像素级对比PSNR得分甚至低于原图,准确度不足 [39][40][41] - AI修复可能将图像修得“更假”,但修错后没人觉得有问题,例如Facebook上流传的亨利·福特假照片和莱特兄弟假照片均被广泛传播而不易察觉 [42][45][46][48] - 生成式AI泛滥下,人们往往不会质疑一张看起来合理的历史照片,尤其是配着权威文案被大量转发后,可能让AI图像替代真图 [43][49] - 哲学家让·鲍德里亚的“拟像”理论指出,图像、广告、媒体和AI制造传播看似真实的东西,让人们失去对现实的判断能力,AI修复可能让高仿作品被误认为真 [50][51][52][53]
CVPR 2025 | SketchVideo让手绘动起来,视频生成进入线稿时代
机器之心· 2025-05-17 14:00
生成式AI视频技术发展 - 生成式AI在文本和图像领域已成熟,视频生成成为AIGC重要研究方向,应用于影视制作、短视频合成等领域[1] - 现有商用/开源模型(如Sora、可灵、CogVideo)依赖文本/图像输入,但存在几何细节控制不足、运动信息难以精确调节等局限性[7][9] - 视频局部二次编辑需解决空间与时序一致性难题,当前方法多聚焦整体风格变化而非局部几何编辑[9][11] SketchVideo技术创新 - 提出基于线稿的可控视频生成/编辑方法,仅需1-2帧关键帧线稿即可生成时序一致的动态视频,支持局部区域修改[1][12] - 采用跳跃式残差控制结构:将条件模块以固定间隔嵌入预训练模型(CogVideo-2B),参数开销减少50%以上[11][12] - 引入帧间注意力机制,通过稀疏传播关键帧控制特征实现全视频一致性[12] - 视频编辑新增视频嵌入模块,结合局部融合策略保留非编辑区域内容[12] 应用效果展示 - 单帧线稿+文本输入可生成高质量视频,指定时间点与线稿匹配度达90%以上[15][17] - 双帧线稿输入可控制物体运动轨迹,实现定制化生成[17][19] - 真实视频编辑支持局部区域修改(如树枝移动、头部旋转),新内容与原始视频运动同步[19][21] 行业影响 - 突破专业视频制作门槛,用户通过简单线稿即可创作动态内容,效率提升约70%[23] - 技术已被CVPR 2025收录,相关代码及Demo在GitHub和YouTube开源[8][23] - 相比传统文本驱动方法,几何控制精度提升40%,填补了视频生成领域可控性空白[9][12]
“计算机视觉被GPT-4o终结了”(狗头)
量子位· 2025-03-29 15:46
GPT-4o多模态图像生成技术突破 - GPT-4o原生多模态图像生成能力被开发出多种新玩法,包括将表情包转化为语义分割图和深度图[2][3][4] - 该技术对传统AI画图工具、设计师和计算机视觉研究领域产生颠覆性影响[6] - 在自动驾驶领域展现潜力,能识别特斯拉自动驾驶系统无法识别的伪装"隐形墙"[8] 技术实现路径争议 - 应用研究主管提出自动驾驶领域只需训练强大基础模型后微调即可实现[10] - 反对观点认为Stable Diffusion+ControlNet已具备同等能力[11] - 技术突破关键在于通过扩大基础模型规模实现意想不到的效果[12] 模型架构技术细节 - GPT-4o图像生成采用原生嵌入ChatGPT的自回归模型,与DALL·E的扩散模型不同[13][15] - 推测采用多尺度自回归组合技术,首先生成粗略图像再逐步填充细节[17] - 存在争议观点认为解码阶段可能仍使用扩散模型,参考Meta 24年8月论文提出的多模态模型同时预测token和扩散图像的方法[20][24] 行业活动信息 - 中国AIGC产业峰会将于4月16日在北京举行,汇聚百度、无问芯穹等AI领域企业[26]