Workflow
AI绘画
icon
搜索文档
腾讯混元开源AI绘画新框架:24维度对齐人类意图,让AI读懂复杂指令
量子位· 2025-09-17 09:42
核心观点 - 腾讯混元团队开源PromptEnhancer框架 通过思维链提示重写技术显著提升AI绘画的文本-图像对齐精度 在复杂场景中准确率最高提升17%以上 同时开源高质量人类偏好基准测试数据集以支持研究 [2][4][5][7] 技术架构 - 框架包含CoT-based重写器与AlignEvaluator奖励模型两大模块 通过两阶段训练实现提示优化 无需修改预训练T2I模型权重 [12][14] - CoT-based重写器模拟人类设计思维 将简洁指令拆解为核心元素-潜在歧义-细节补充三步骤 通过48.5万组数据监督微调初始化 [15][19] - AlignEvaluator构建6大类别24维度的评价体系 覆盖语言理解、视觉属性、复杂关系等关键维度 精准定位生成图像错误 [21][22][23] 性能表现 - 在HunyuanImage 2.1模型测试中整体准确率提升5.1% 20个维度实现正提升 [29] - 复杂场景突破显著:相似关系准确率提升17.3% 反事实推理提升17.2% 数量计数提升15.0% [29] - 风格与细节优化明显:面部表情和跨对象属性绑定维度准确率提升超10% 油画等风格还原度大幅提高 [29] 跨模型适配 - 在HunyuanImage 2.1、Flux dev、Qwen-Img等主流T2I模型上均实现图文对齐、真实感及美感提升 验证即插即用特性 [31][44] - 通过提示重写通用逻辑提升不同架构生成模型的复杂指令理解能力 无需针对特定模型定制修改 [44] 基准数据集 - 开源6000条Prompt的高质量基准测试集 覆盖属性绑定、复杂关系、否定指令等核心痛点场景 [45][46] - 指令长度集中于80-120字符区间 峰值约100字符 体现中等复杂度指令为核心 长尾区间覆盖极复杂指令 [49] - 维度共现分析揭示创作规律:风格与实体接触交互共现676次 属性表情与角色全身动作共现332次 [53] 行业影响 - 技术突破AI绘画理解人类意图的精准度 从娱乐工具向工业设计、广告创作等专业领域渗透 [54][55] - 通过优化指令而非修改模型的思路降低优化成本 实现所想即所得的创作体验 [55][56] - 生态补全通过开源高质量数据集推动提示优化技术的可解释性与可复现性研究 [7][45]
腾讯混元升级AI绘画微调范式,在整个扩散轨迹上优化,人工评估分数提升300%
量子位· 2025-09-15 11:59
技术突破 - 腾讯混元团队提出Direct-Align和SRPO两项创新方法 显著提升AI图像生成质量 人工评估真实感评分从8.2%提升至38.9% 美学评分从9.8%提升至40.5% [2][5][17] - Direct-Align通过预定义噪声先验实现任意时间步图像恢复 在仅5%去噪进度阶段即可恢复图像粗略结构 解决传统方法梯度爆炸问题 [9][10][11] - SRPO将奖励定义为文本条件信号 通过正负面提示词计算相对奖励差值 实现无需额外数据的在线偏好调整 [5][14][16] 性能表现 - SRPO在HPDv2基准测试中全面领先 自动评估指标Aesthetic Score达6.194 PickScore达23.040 显著优于ReFL DRaFT等方法 [17][18] - 仅需10分钟训练即在32块H20上收敛 训练效率远超DanceGRPO(480 GPU小时)和ReFL(16 GPU小时) [1][18][19] - 通过添加"Realistic photo"控制词 模型生成图像真实感提升3.7倍 美学质量提升3.1倍 [16] 技术优势 - 全扩散轨迹优化突破现有方法局限 避免仅在后25%时间步训练导致的奖励黑客问题(如HPSv2偏好红色调 PickScore偏好紫色图像) [8][13] - 控制词效果与训练集频率相关 高频词如"painting"效果最佳 低频词需组合使用 [16] - 相比DanceGRPO方法 SRPO在保持高美学质量的同时避免产生过度光泽感和边缘高光等不良伪影 [18] 行业影响 - 开发者评价SRPO为下一代RLHF(人类反馈强化学习)技术 展现其在对齐人类偏好方面的突破性潜力 [6] - 该方法在FLUX1.dev模型上实现突破 表现超越最新开源版本FLUX.1.Krea [19]
AI绘画、组队攀岩…“退休俱乐部”重新定义退休生活
搜狐财经· 2025-08-27 17:19
行业概况 - 银发经济市场规模庞大 预计到2035年将达到30万亿元 [13] - 类似退休俱乐部正在全国各地涌现 会员年龄主要集中在50岁至65岁之间 [13] 商业模式 - 俱乐部以刚退休人群为主 定期组织AI绘画 打碟 攀岩 咖啡拉花等丰富多彩的文体活动 [7] - 通过社群运营模式吸引老年用户 单条帖子吸引上万名老年粉丝 [11] - 创始人为90后年轻人 初衷是为父母寻找社交伙伴 [11] 用户需求 - 提供社交平台满足退休人员休闲娱乐需求 包括学习新技能和结交朋友 [5] - 活动内容打破传统养老刻板印象 包含非洲鼓演奏 AI绘画 卡丁车等时尚项目 [1][3][9] - 用户反馈显示参与活动既能锻炼身心 又能获得知识学习和社交愉悦感 [5]
藏师傅教你做即将爆火的AI玄学祈福壁纸,不止提示词还有创作思路
歸藏的AI工具箱· 2025-08-04 14:42
AI许愿祈福壁纸教程 核心观点 - 教程展示了如何利用AI生成融合传统神仙与现代元素的许愿祈福壁纸 通过结构化提示词实现创意发散 [4][9][17] - 创作核心在于三部分提示词组合:画面结构 人物描述 排版内容 各部分可独立修改产生新变体 [9][10][12] - 模态扩展(静态图转动态壁纸)与文化跨界(游戏 影视IP)能显著提升内容表现力与传播性 [17][19][20] 提示词结构分析 **画面主要结构** - 基础模板采用复古票据原型 米黄底色配繁复绿纹边框 可替换为符纸等传统载体 [5][9] - 关键视觉元素包含粗糙纸张纹理 红色篆刻印章 以及中英文混合排版(如"小人退散"粗体居中) [5][10] **人物描述** - 神仙角色需结合现代道具(钟馗持电话 财神用吸尘器)消解宗教严肃性 避免AI绘制误差争议 [12] - 通过特征强化辨识度(月老配桃花红线)弥补AI对冷门神仙的识别不足 [12][20] **排版内容** - 文字层级优先保证核心大字准确(如"GOOD LUCK") 装饰性小字容错率较高 [10] - 英文内容可采用谐音双关(大展宏兔→兔子关羽)增强趣味性 [20] 创意发散路径 - 文化符号跨界:结合热门影视IP(哪吒2鹿童)或游戏元素(战锤40K机械神甫) [20] - 模态创新:静态壁纸升级为解锁播放的动态视频 提升视觉冲击力 [3][17] - 细分场景定制:针对电子设备祈福 电竞场景等垂直需求设计专属形象 [20]
赛道Hyper | Black Forest开源新模型:文本P图党福音
华尔街见闻· 2025-07-03 13:50
行业动态 - 开源平台Black Forest推出文生图模型FLUX 1-Kontext开发者版本 凭借自然语言指令实现图像编辑功能成为行业焦点 [1] - 该模型在人类偏好评估、指令编辑等多项关键指标优于OpenAI最新发布的GPT-image-1 标志着开源模型在高精度图像编辑领域取得新进展 [1] - 开源与闭源模型的博弈持续深化 开源属性显著降低企业应用门槛 [5] 技术架构 - FLUX 1-Kontext由自然语言解析、图像生成和多模态融合三个关键模块构成 [2] - 自然语言解析层采用改进型Transformer架构 配置8层自注意力机制 能对用户指令做深度语义拆分 [3] - 图像生成引擎基于改进版扩散模型(DPM-Solver++)构建 创新引入动态噪声调度机制 依据指令复杂程度自动调整去噪迭代次数 [4] - 多模态融合层借助预训练的CLIP模型与视觉Transformer 将768维文本特征向量与1024维图像特征向量进行动态匹配 [4] 竞争优势 - 支持本地化部署 以50人团队年生成10万张图像的场景测算 可节省60%以上服务器成本 [5] - 针对Stable Diffusion系列长文本解析能力弱的问题 支持最长512 tokens连续指令输入 对包含5个以上操作步骤指令的完成率超过50% [5] - 在艺术风格迁移方面 通过风格向量池机制预编码100种主流风格 用户只需输入风格名称即可快速调用对应参数 [5] 应用场景 - 在广告领域 伦敦数字营销公司BrandLab使用该模型后 产品图修改时间从2小时缩短至5分钟 人力成本降低约40% [6] - 设计教育领域变革 罗德岛设计学院2025年春季学期开设"AI指令设计"课程 学生可快速将创意转化为设计初稿 [6][7] - 未来有望在医疗、教育、娱乐等领域发挥作用 如生成医学影像、教学插图、游戏影视图像等 [10] 发展挑战 - 训练数据包含约1.2亿张互联网图像 存在侵权风险 [9] - 技术层面 模型在处理透明材质、复杂反光等物理效果时仍有不足 对中文指令的理解准确率比英文低15% [9] - 伦理风险显现 6月出现利用该模型制作虚假新闻图片的事件 现有水印嵌入防护技术易被破解 [9] 未来规划 - 下一版本将引入实时交互编辑功能 支持语音指令实时调整图像 同时将模型体积压缩至当前的20% [9] - 与多家博物馆合作训练艺术风格迁移专项模型 有望实现对达芬奇、毕加索等艺术家风格的精准复刻 [9] - 开源文生图模型"深耕垂直场景"策略 可能推动AI绘画市场从通用工具向行业解决方案转型 [9]
黄建南:在视象与心象之间重构东方美学
经济观察报· 2025-05-23 16:01
艺术创作理念 - 艺术家通过长达10年的行走累计三万八千公里,将自然景观转化为心灵图式,完成从"目视"到"心观"的蜕变 [1] - 艺术创作哲学强调艺术不是对自然的模仿,而是生命意志的显影,融合东西方文化精髓形成独特风格 [1][2] - 作品突破传统程式,尝试将水墨技法融入油彩,重构文化意象,如《大漠孤魂》结合敦煌壁画与梵高风格 [1] 作品风格与技法 - 作品在具象与抽象之间找到平衡,如《璀璨星河》系列融合天体物理与《周易》哲思,《生命之树》用268种过渡色描绘年轮 [2] - 打破媒材与技法疆界,用油画刀模仿宋代山水"斧劈皴",以钛白颜料营造宣纸"屋漏痕"效果 [4] - 水墨表现拜占庭镶嵌画的金色光辉,如《敦煌遗韵》系列让飞天在生宣上呈现抽象之舞 [4] 市场表现与价值 - 2024年香港苏富比春拍中,《宇宙密码·创世纪》以1380万港元成交,反映市场对其作品的认可 [4] - 早期写生作品如1978年《天山雪线》年均增值率达27%,远超同期艺术品市场12%的均值 [5] - 跨界作品如与NASA合作的《星际穿越》系列三年内价格翻涨4倍,纯抽象作品在西方拍场溢价35% [5] 文化影响与全球化 - 作品被大英博物馆举办"心象自然"特展,策展人评价其解答了后机械复制时代绘画如何保持灵晕的问题 [6] - 艺术发展对应中国艺术全球化三阶段:技术突围、语言重构、价值输出,如《人类命运共同体》装置在威尼斯双年展确立话语权 [6] - 艺术家通过虚实相生的价值体系,如NFT平台同步发售实体画作的数字孪生,构建新的艺术生态 [5][6] 代表作品系列 - 大地系列:如《大地的乐章》《大地密码》《大地情怀》等,展现自然与心灵的融合 [1][8] - 星空与宇宙系列:如《璀璨星河》《宇宙密码·创世纪》等,融合科学与哲学思考 [2][4][6] - 跨界合作系列:如《星际穿越》与NASA合作,结合科学影像与禅宗美学 [5]
方寸藏书票 水印意趣浓
人民日报· 2025-05-18 05:52
藏书票行业概述 - 藏书票是15世纪欧洲诞生的微型版画,兼具艺术与实用价值,被誉为"版画珍珠"和"书海之帆"[3] - 20世纪初传入中国后与传统水印木刻融合,形成独特风格[3] - 近期多地举办藏书票展览,中国美术学院开展推广活动,通过讲座和体验展示水印木刻藏书票魅力[3] 中西藏书票艺术特点 - 西方藏书票强调纹章符号与创意,中国水印木刻注重水墨意境韵味[3] - 中华美学理念如"气韵生动""虚实相生"赋予作品温润、淡雅、灵动的风格[3] - 创作技法包括洇化、渐变、拱花、即版即印等,面貌不断丰富[3] 藏书票创作题材与价值 - 题材涵盖神话传说、十二生肖、诗词典故、自然风景、人生感悟等[4] - 既是书籍装饰,也是藏书人与书籍情感连接的纽带[4] - 创作过程从构思到印刷体现文化敬畏与工匠精神,具有深度文化体验价值[4] 行业发展趋势 - 数字阅读与AI绘画兴起带来挑战与机遇[5] - 加强研究、创作和展示有助于推动藏书票成为文化传承载体[5]
GPT4o生成的烂自拍,反而比我们更真实
虎嗅· 2025-05-01 07:05
文章核心观点 GPT4o用特定Prompt生成的图片引发长久热度,其以“不完美”呈现出真实感,精准命中人们潜意识里对“真实”的感知模型,让人们找回差点丢掉的真实[1][2][73] 分组1:GPT4o生成图片情况 - GPT4o用Prompt生成的图片热度持久且不断涌现创意,如京东外卖与美团外卖相关、明星自拍、中土世界自拍等图片,其中《45岁,离职北大》获近12万赞 [1][2][12] - 这些图片过于真实,像路人随手拍的,甚至有人将真实拍摄的照片也误认为是AI画的 [18][20][23] 分组2:生成图片的Prompt及方式 - 生成自拍效果图片的Prompt描述为画一张平凡无奇、无主体构图感、有运动模糊和曝光过度等特点的iPhone自拍照,将其写上主角和背景,在Sora上复制生成即可 [27][29][46] - Sora生图体验更好,可一次生成多张且有比例预设,网址为https://sora.chatgpt.com/ [30] 分组3:Prompt爆火源头 - 该Prompt爆火源于Reddit上的ChatGPTJailbreak论坛,约两周前一哥们为越狱在GPT4o上搞NSFW意外得到具有“真实感”的AI照片,随后Prompt传遍世界 [35][37][44] 分组4:图片真实感的原因及意义 - Prompt关键词强调普普通通,这种普普通通带来无与伦比的真实感,因人们生活中充满无意义的平凡时刻,这些平凡照片才是真实的生命切片 [47][50][62] - 当照片展现“不完美”时,大脑会认定其为真实,这些粗糙的AI自拍精准命中人们对“真实”的感知模型,因其“差”且有灵魂 [66][68][73] - 在被美化的世界里,未经表演的存在成了稀缺品,如911事件中的《The Falling Man》照片,以其无法修饰的绝望展现真实世界 [83][85][90] - GPT4o生成的歪扭模糊自拍让人们觉得真实,因为太像自己,AI帮人们找回差点丢掉的真实 [95][96][108]
GPT4o生成的烂自拍,反而比我们更真实。
数字生命卡兹克· 2025-04-30 03:27
GPT4o生成图片的热度浪潮 - GPT4o通过一段简单的Prompt生成高度真实的图片,引发持续热度,各种创意不断涌现[1] - 生成的图片包括京东外卖与美团外卖的竞争场景、周杰伦等明星的自拍、中土世界角色在清华的场景等[1][2] - 小红书上一篇《45岁,离职北大》的帖子获得近12万赞,显示此类内容的爆款潜力[5] Prompt的核心特点 - 生成图片的Prompt强调"平凡无奇",包括运动模糊、曝光过度、构图混乱等元素,刻意追求不完美[12][13][23] - 这种"不完美"反而增强了真实感,因为更接近人类日常随手拍摄的照片[23][24][26] - Prompt最初来源于Reddit的ChatGPTJailbreak论坛,用户原本目的是突破OpenAI限制生成NSFW内容,但意外发现这种真实感效果[15][17][19] 真实感的本质 - 真实感来源于对生活平凡瞬间的还原,如地铁拥挤、夜市撸串、朋友聚会的模糊照片[27][28][29] - 社交媒体过度美化的内容导致用户对"未经表演的存在"产生稀缺感,而AI生成的"差劲"图片反而引发共鸣[44][45][51] - 911事件中《The Falling Man》照片的冲击力同样源于其未经修饰的真实性,与AI生成图片的原理类似[52][54] 技术应用与传播 - 使用Sora平台生成图片体验更佳,支持一次生成多张并预设比例[13] - Prompt的传播范围极广,从Reddit扩散至全球,因其生成的图片效果过于真实[22] - AI通过不完美的表现帮助用户重新认识真实的价值,找回被社交媒体滤镜掩盖的生活本质[41][43][55]
当画法遇上算法
人民日报· 2025-04-27 05:58
AI技术对美术创作的影响 - AI技术正在开启图像视觉智能时代,成为人类思想的显像仪,通过文字口令捕捉逻辑轨迹和情感暗流 [1] - 生成式AI技术的快速发展使AI艺术创作进入新阶段,创作者每天可利用AI完成一幅作品 [1] - AI绘画的高效高产特质初期带来震撼,但缺乏传统绘画的情绪释放和现场创作的神圣感 [1] AI绘画的独特优势与拓展空间 - 脑机接口技术突破生物认知边界,渐冻症患者通过神经信号作画的情感浓度是常人的3倍 [2] - AI可成为认知的望远镜,展现思维未开发的光谱波段,激发社交媒体语料中的集体潜意识创造力 [2] - AI绘画的幻觉特性形成思维碰撞,带来充满惊喜的创作可能性 [2] 创作者与AI的协同关系 - AI作为工具无法替代人类创造主体,创作者需具备发现问题、知识结构、跨界经验及艺术底蕴等能力 [2] - 创作需深入生活把握时代脉搏,将日常转化为异常以避免作品平庸 [2] - 中国传统水墨画"留白"智慧提示需守护无法被AI捕捉的认知暗区,如直觉和灵光 [3] 技术与艺术的融合前景 - 算法将《清明上河图》转化为数字编码时需避免技术对思想本质的损伤 [3] - 人类感性与AI理性的融合将使AI绘画焕发新光彩 [3] - 清华大学科学博物馆举办"人机共生:未来艺术的共创"画展,展示AI艺术实践成果 [4]