因果语言模型
搜索文档
一个被忽视的Prompt技巧,居然是复制+粘贴。
数字生命卡兹克· 2026-01-22 11:09
文章核心观点 - 一种名为“提示词重复”的简单技巧能显著提升非推理类大语言模型的回答准确率 该方法仅需将用户问题原样复制粘贴一遍 无需添加任何额外指令或解释 根据谷歌论文的实验结果 在70个基准模型组合测试中 该方法在47个组合中胜出 其余23个打平 无一失败 部分任务准确率可从21%飙升至97% [1][5][7][25] - 该技巧主要适用于非推理模型 对已具备思维链能力的推理模型效果有限 其原理在于大模型是因果语言模型 重复问题为模型提供了“回头看”的机会 使其在第二次处理问题时能结合第一次的全部信息进行更准确的表征和判断 [14][28][30][31] - 这一发现挑战了人们对提示词工程复杂化、玄学化的普遍认知 表明对于许多纯粹的问答场景 最简单直接的重复操作可能是最有效的优化手段 其思想可类比人类社会的复述、强调等行为 并可能影响未来模型的训练与推理优化方向 [45][46][48][51][52] 实验设计与方法 - 谷歌的研究测试了七个主流非推理大模型 包括Gemini 2.0 Flash、Flash Lite、GPT-4o、GPT-4o-mini、Claude 3 Haiku、Claude 3.7 Sonnet以及DeepSeek V3 均通过官方API进行测试 [13] - 测试任务涵盖多个常见基准数据集 如ARC、OpenBookQA、GSM8K、MMLU-Pro、MATH等 并包含两个自定义任务:NameIndex和MiddleMatch 用于测试模型在列表索引和中间匹配场景下的表现 [18][19][20] - 实验方法极为简单 仅将原始查询模板从“<查询>”改为“<查询><查询>” 即在原问题后不加任何修饰地直接重复一遍问题本身 然后对比两种方式下模型的回答准确率 [22][23] 实验结果与数据 - 提示词重复方法在70个基准模型组合测试中赢得了47次 其余23次打平 没有一次失败 所有测试模型的性能均得到了改善 [7][25] - 性能提升显著且广泛 在某些任务上 模型的准确率从21.33%大幅提高至97.33% [1][7] - 衍生实验表明 将提示词重复三遍也能带来类似的性能提升效果 [27] 技术原理阐释 - 大语言模型通常采用因果语言模型架构 在生成下一个词时只能看到之前的文本 无法前瞻后续内容 [28][29] - 当问题被重复时 例如从“Q”变为“Q1Q2” 模型在处理第二个问题“Q2”的每个词时 其注意力机制可以“看到”第一个问题“Q1”的全部内容 这相当于为模型提供了一次回顾和重新思考整个问题的机会 [30][31] - 通过一个选择题的例子进行类比说明:第一次阅读选项时 模型缺乏后续的场景信息作为判断依据 而当问题重复后 模型在第二次处理选项时 已经携带了第一次获得的完整场景信息 从而能做出更准确的判断 [34][36][37] 适用性与影响 - 该技巧主要对非推理模型有效 例如DeepSeek V3 而对于像DeepSeek R1这类具备深度思考能力的推理模型效果不明显 因为推理模型在思考过程中已经自发地学会了复述问题这一技巧 [14][40][41] - 非推理模型与推理模型的核心区别在于速度与准确性的权衡 非推理模型响应速度快但准确性相对较低 推理模型准确性高但速度慢 提示词重复技巧可以在不牺牲非推理模型速度的前提下 大幅提升其准确性 因此在许多实际应用场景中具有重要价值 [15][17][18] - 这一发现促使人们重新思考提示词工程的价值 对于许多短问题问答场景 复杂的提示词结构可能并非必要 最简单的重复操作可能带来最显著的收益 [45][50][51] 未来展望与引申思考 - 论文提出了未来的研究方向 包括将提示词重复结构融入模型的预训练或微调流程 优化推理阶段的键值缓存以提升效率 尝试只重复提示词的关键部分 以及探索在多模态输入上的应用等 [52] - 文章将这一技术原理引申至人类行为与社会现象 指出重复是人类社会中普遍存在的强化认知和情感的手段 如复述、强调、朗诵、宣誓等 人工智能世界的规律在某种程度上是高度压缩后的人类世界规律的反映 [55][62][65] - 最终 文章建议在面对复杂问题或混乱情境时 无论是与AI交互还是处理个人事务 重复核心信息以聚焦重点可能是一种简单而有效的策略 [66][67][68]
赛道Hyper | 阿里开源编程模型Qwen3-Coder-Flash
华尔街见闻· 2025-08-04 10:09
模型概述 - 阿里云通义千问推出开源编程模型Qwen3-Coder-Flash,属于因果语言模型(CLMs),专注于编程领域,具备代码生成、理解和优化能力 [1][3] - 该模型全称为Qwen3-Coder-30B-A3B-Instruct,参数量30B,激活量3B,采用48层结构,含128个专家,每次运算调用8个专家协同工作 [4][9] - 模型以Agent能力为核心,在代理式编程、浏览器使用、工具调用等场景表现突出,但性能略逊于GPT-4.1和Claude Sonnet-4等领先闭源模型 [1][8] 技术特点 - 支持256K上下文,最高可扩展至1M,适用于仓库级代码理解,通过强化学习技术实现多轮交互与自主决策 [2] - 采用MoE架构,动态调度专家模块,在10万行级代码库分析中内存占用比同规模单一模型明显减少 [9][10] - 原生支持262144 tokens上下文长度,经YaRN技术可扩展至100万tokens,提升代码分析和生成准确性 [10] 应用场景 - 代理式编程能力突破:能理解多步骤业务逻辑,自主拆解任务并生成可串联代码模块,如电商支付系统全流程 [5] - 浏览器交互场景:识别DOM结构变化规律,自动生成带延迟判断的抓取脚本,适用于实时价格监控和动态评论爬取 [6] - 工具调用环节:实现流程闭环,如Git与Jenkins联动中自动定位冲突文件并生成解决脚本 [7] 开源生态 - 提供完整工具链,包括Qwen Code命令行工具、Claude Code集成、VS Code插件及阿里云平台API支持 [2] - 采用Apache 2.0协议,允许商业使用,与Llama系列非商业许可相比降低企业应用门槛 [11] - 在魔搭社区及Hugging Face开源,提供PyTorch和TensorFlow版本,满足不同使用需求 [10] 行业定位 - 作为开源阵营对闭源模型的补充,聚焦开发者实际痛点:工具链整合、长上下文支持、商业友好协议 [11] - 在Agentic Coding、Agentic Browser-Use及Foundational Coding Tasks中刷新SOTA纪录 [2] - 与闭源模型的差距主要体现在行业知识深度编码能力,如金融风控规则和验证码语义识别方面 [9]