Workflow
告别AI“乱画图表”!港中文团队发布首个结构化图像生成编辑系统
量子位·2025-10-11 17:01

行业现状与核心问题 - AI视觉生成模型在自然图像上表现卓越,但在生成柱状图、函数图等结构化图像时频繁出错,存在逻辑混乱、数据错误和标签错位等问题 [1] - 视觉生成领域长期偏向追求自然图像的美学效果,忽视了结构化图像对事实准确性的核心需求 [2] - 现有视觉理解模型已能精准解析图表数值和公式逻辑,但生成/编辑模型难以匹配这种理解能力,形成显著的能力鸿沟,阻碍了统一多模态模型的发展 [2] 结构化图像的刚性需求与发展瓶颈 - 结构化非自然图像是教育、科研和办公领域的核心工具,其生成与编辑需满足三大刚性要求:精准文本渲染、复杂布局规划和多模态推理 [6][8][9] - 现有方案无法满足需求,数据端缺乏代码-图像严格对齐的结构化样本,模型端缺乏对细粒度结构化语义的理解,评估端无法衡量数值正确性等细粒度准确性 [10] - 视觉理解与生成的能力鸿沟持续扩大,模型能看懂图表数值却画不出数值准确的同类图表,成为统一多模态模型发展的关键卡点 [10] 全链条解决方案:数据层 - 构建了130万代码对齐的结构化样本库,采用代码驱动思路,覆盖数学函数、图表、表格等6类场景 [11][14] - 利用GPT-5生成双指令,确保编辑前后的图像与代码严格对齐,并为每个样本添加思维链标注以解决指令模糊问题 [14] - 最终筛选出130万高质量样本,为模型训练提供坚实基础 [14] 全链条解决方案:模型层 - 基于FLUX.1 Kontext设计轻量级VLM整合方案,引入Qwen-VL增强对结构化图像输入的理解能力 [13] - 通过轻量MLP连接器将Qwen-VL提取的高层语义对齐到FLUX.1的特征空间,仅训练少量参数即可实现能力迁移 [13] - 采用三阶段渐进训练策略,先对齐特征,再混合数据训练,最后用带思维链的样本提升推理能力,确保不丢失自然图像生成能力 [15] 全链条解决方案:基准层 - 提出StructBench基准,包含1714个分层抽样样本,覆盖6类任务,每个样本附带细粒度Q&A对以验证事实准确性 [17] - 提出StructScore指标,通过原子化Q&A加开放回答评分评估图像属性,该指标与人类偏好的皮尔逊相关系数超0.9,远优于传统指标 [19] - 评估编辑任务时采用0.1×视觉一致性+0.9×指令遵循的加权方式,优先保证编辑有效性 [19] 实验结果与行业影响 - 方案在15个主流开源闭源模型对比中展现出明显优势,在生成任务上总体准确率达到55.98%,在编辑任务上达到28.80% [21] - 实验表明数据比架构更关键,高质量、严格对齐、含推理标注的数据是决定性因素,推理能力在复杂任务上尤为关键 [21] - 该研究旨在推动多模态AI向精准理解和可靠生成迈进,为教育、科研和办公领域提供准确可靠的AI工具,推动AI从美化工具走向生产力工具 [23][24][25]