WISE测试基准 - 财报，业绩电话会，研报，新闻

WISE测试基准

搜索文档

告别直接生成，文生图进入Agent时代：港中文联合伯克利开源Gen-Searcher

机器之心· 2026-04-09 14:57

行业趋势：从直接生成到智能体生成 - 当前图像生成模型在质感和审美上进步显著，但仍普遍采用“输入提示词，直接出图”的范式 [2] - 当提示词涉及真实世界知识、最新信息、冷门事实或需要跨多来源核对细节时，传统文生图模型容易出错，因其缺乏主动搜索、验证和整合外部信息的能力 [3][4] - 行业需求正从“直接生成”向“智能体生成”演进，模型需要具备判断信息需求、搜索参考、整合证据的能力，以解决“画得像，却画不对”的核心问题 [7] 技术创新：Gen-Searcher模型架构 - Gen-Searcher是首个为图像生成任务训练的“深度搜索”智能体，使模型能像智能体一样进行搜索、推理、找图和浏览网页，以输出可靠结果 [4] - 模型核心是将生成前的信息获取过程构建为可训练智能体，配备文本搜索、图像搜索和网页浏览三类工具，通过多轮交互决定搜索内容与时机，最终输出准确提示词和参考图 [14] - 训练分为两个阶段：首先通过监督微调学会使用工具，再通过智能体强化学习优化搜索策略和长程决策 [15] - 训练中采用了双奖励反馈机制，结合评估最终图像效果的图像奖励和评估输出提示词信息是否足够、正确的文本奖励，确保模型既“画得好”也“搜得对” [15] 数据与基准：KnowGen基准构建 - 为训练模型能力，研究团队构建了覆盖名人、动漫、物理、化学、艺术、建筑、新闻等约20个类别的生成数据，这些任务需要搜索才能完成 [8] - 通过强模型配合搜索工具生成多轮轨迹，收集文本知识和视觉证据，再用Nano Banana Pro合成目标图像，得到约3万条原始样本，经筛选后最终保留约1.7万条高质量数据，整理为Gen-Searcher-SFT-10k和Gen-Searcher-RL-6k两个数据集 [11] - 团队提出了新的评测基准KnowGen，包含630条人工验证样本，专门用于评估图像生成智能体的性能 [12] 性能表现：模型效果显著提升 - 在KnowGen基准上，原始Qwen-Image的K-Score为14.98，接入Gen-Searcher-8B后提升至31.52，提高了16.54分 [21] - Gen-Searcher的能力可迁移至其他图像生成器：使Seedream 4.5的K-Score从31.01提升至47.29；使Nano Banana Pro的K-Score从50.38提升至53.30 [21] - 在WISE测试基准上，Gen-Searcher-8B与Qwen-Image结合后，整体得分从0.62提升至0.77，在文化、时间、空间、生物、物理、化学等子类别上均有显著提升 [23] - 可视化分析表明，Gen-Searcher能够有效提高模型生成图像的准确性和质量 [23] 行业影响与未来方向 - Gen-Searcher展示了智能体生成在知识密集型图像生成任务上的潜力，为构建连接搜索、推理与生成的一体化系统提供了清晰路径 [26] - 该技术使模型不仅能“画”，还能“查”，能在生成前主动搜索信息、核对事实、整合证据，展现出面向真实世界复杂任务的生成能力 [26] - 在大模型走向多模态、强推理与智能体化的趋势下，该工作验证的方向是生成系统迈向智能体时代的重要一步 [26]