Workflow
生成式写作
icon
搜索文档
OpenAI加码写作赛道?阿里最新大模型通用写作能力基准WritingBench,揭秘深度思考能否增进文学表达
量子位· 2025-03-20 18:56
大模型写作评估基准 - 阿里研究团队联合中国人民大学和上海交通大学开源WritingBench评估基准,覆盖6大领域、100个细分场景,包含1000+条评测数据,旨在全面评估生成式写作能力 [3] - 该基准解决了行业两大难题:1) 现有评估局限于单一领域和短文本,商业文书、法律文书等成为盲区 [4][5];2) 传统评估方法与人类判断一致性不足65%,无法适应创意写作等复杂场景 [7][8] - WritingBench采用四阶段人机协同构建流程,耗时三个月完成评测集,支持风格、格式、长度等多维度能力评测 [11][12][16] 动态评估体系创新 - 设计基于写作意图的动态评估方法,模型可针对每个输入自动生成五个评测指标,实现87%的人类一致性得分 [19][20] - 配套训练评分模型,能自适应给出1-10分评分及理由,例如对OpenAI示例从元小说技巧等五个维度评估 [21][25][26] - 对比其他基准,WritingBench数据量达1239条,输入token平均1546,最大19361,覆盖领域和素材来源更广 [17] 模型性能表现 - 基于Qwen开发的32B创作模型在创意型任务上接近顶尖模型R1表现,思维链技术显著提升效果 [3][29] - 实验显示带思维链的32B模型在创意写作中得分8.66,超越同系列Qwen-Max(8.39)和R1(8.55) [30] - 但在效率型写作任务中,深度思考可能引发过度推理和幻觉问题,提升效果有限 [32][33][34] 技术瓶颈与挑战 - 模型存在3000 token长度生成瓶颈,超过该阈值后质量显著下降,小模型易重复,大模型易提前终止 [35][36][37] - 短文本输出仍难以严格遵循长度要求,如Gemini-1.5-Pro在复杂分块需求中失败 [39][40] - 当前先进模型在文学与艺术领域表现不佳,仅OpenAI的o1和Deepseek的R1等少数模型表现突出 [27][28]