图像生成技术路线 - 自回归模型与扩散模型在图像生成领域存在技术路线之争,自回归模型在文本生成领域表现优异但在视觉领域面临细节失真和语义理解偏差等瓶颈[2] - 目前主流研究采用扩散模型进行图像生成,导致视觉理解和生成任务耦合松散[2] - 腾讯混元团队开发的X-Omni模型通过强化学习显著提升自回归方法的图像生成质量,实现高质量美学输出和复杂指令跟随能力[2][4] X-Omni模型技术突破 - 采用SigLIP2-VQ方法构建tokenizer,结合扩散解码器生成图像,实现离散自回归框架下的视觉理解与生成统一[6] - 应用GRPO强化学习方法优化图像生成,通过200步训练后生成质量显著提升[5][8] - 构建多维度奖励模型系统,涵盖人类美学偏好(HPSv2评分)、文本-图像对齐(Qwen2.5-VL-32B)和OCR准确性(GOT-OCR 2.0/PaddleOCR)等评估维度[9][12] 性能基准测试表现 - 文本渲染能力:在OneIG-Bench英文任务中得分0.901,中文0.895;LongText-Bench英文0.900,中文0.814,超越GPT-4o等竞品[13] - 指令跟随能力:在DPG-Bench总体得分87.65,实体识别(92.59)和关系处理(94.75)表现突出[14] - 复杂场景处理:在GenEval测试中综合得分0.83,单对象识别达0.98,但计数能力(0.75)和色彩属性处理(0.68)仍有提升空间[15] 技术范式创新 - 实现无分类器引导(CFG)的高质量图像生成,证明视觉与语言生成机制的内在统一性[17] - 强化学习在图像生成中的优化效果超越传统监督微调+N选1策略,尤其擅长处理高维空间依赖数据[19] - 开源模型包含完整技术栈(GitHub/Hugging Face),提供论文、代码和演示空间等多维度资源[2]
联合理解生成的关键拼图?腾讯发布X-Omini:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像