Workflow
WISE测试基准
icon
搜索文档
告别直接生成,文生图进入Agent时代:港中文联合伯克利开源Gen-Searcher
机器之心· 2026-04-09 14:57
行业趋势:从直接生成到智能体生成 - 当前图像生成模型在质感和审美上进步显著,但仍普遍采用“输入提示词,直接出图”的范式 [2] - 当提示词涉及真实世界知识、最新信息、冷门事实或需要跨多来源核对细节时,传统文生图模型容易出错,因其缺乏主动搜索、验证和整合外部信息的能力 [3][4] - 行业需求正从“直接生成”向“智能体生成”演进,模型需要具备判断信息需求、搜索参考、整合证据的能力,以解决“画得像,却画不对”的核心问题 [7] 技术创新:Gen-Searcher模型架构 - Gen-Searcher是首个为图像生成任务训练的“深度搜索”智能体,使模型能像智能体一样进行搜索、推理、找图和浏览网页,以输出可靠结果 [4] - 模型核心是将生成前的信息获取过程构建为可训练智能体,配备文本搜索、图像搜索和网页浏览三类工具,通过多轮交互决定搜索内容与时机,最终输出准确提示词和参考图 [14] - 训练分为两个阶段:首先通过监督微调学会使用工具,再通过智能体强化学习优化搜索策略和长程决策 [15] - 训练中采用了双奖励反馈机制,结合评估最终图像效果的图像奖励和评估输出提示词信息是否足够、正确的文本奖励,确保模型既“画得好”也“搜得对” [15] 数据与基准:KnowGen基准构建 - 为训练模型能力,研究团队构建了覆盖名人、动漫、物理、化学、艺术、建筑、新闻等约20个类别的生成数据,这些任务需要搜索才能完成 [8] - 通过强模型配合搜索工具生成多轮轨迹,收集文本知识和视觉证据,再用Nano Banana Pro合成目标图像,得到约3万条原始样本,经筛选后最终保留约1.7万条高质量数据,整理为Gen-Searcher-SFT-10k和Gen-Searcher-RL-6k两个数据集 [11] - 团队提出了新的评测基准KnowGen,包含630条人工验证样本,专门用于评估图像生成智能体的性能 [12] 性能表现:模型效果显著提升 - 在KnowGen基准上,原始Qwen-Image的K-Score为14.98,接入Gen-Searcher-8B后提升至31.52,提高了16.54分 [21] - Gen-Searcher的能力可迁移至其他图像生成器:使Seedream 4.5的K-Score从31.01提升至47.29;使Nano Banana Pro的K-Score从50.38提升至53.30 [21] - 在WISE测试基准上,Gen-Searcher-8B与Qwen-Image结合后,整体得分从0.62提升至0.77,在文化、时间、空间、生物、物理、化学等子类别上均有显著提升 [23] - 可视化分析表明,Gen-Searcher能够有效提高模型生成图像的准确性和质量 [23] 行业影响与未来方向 - Gen-Searcher展示了智能体生成在知识密集型图像生成任务上的潜力,为构建连接搜索、推理与生成的一体化系统提供了清晰路径 [26] - 该技术使模型不仅能“画”,还能“查”,能在生成前主动搜索信息、核对事实、整合证据,展现出面向真实世界复杂任务的生成能力 [26] - 在大模型走向多模态、强推理与智能体化的趋势下,该工作验证的方向是生成系统迈向智能体时代的重要一步 [26]