CoT)

搜索文档
在WAIC耳朵听出茧子的「智能体」,是时候系统学一下了
机器之心· 2025-08-04 15:05
文章核心观点 - 智能体成为AI大模型应用的重要方向,从单纯的聊天机器人转向具备主动思考、制定计划和使用工具的能力 [1] - 智能体系统通过整合工具使用、推理能力和自主规划,显著提升LLM解决复杂问题的能力 [6][38][112] - ReAct框架通过结合推理与行动,为智能体系统提供了通用的问题解决范式 [40][41][47] - 智能体发展分为多个层级,从标准LLM逐步演进到具备高度自主性的系统 [101][105][107][111] - 当前智能体系统仍处于早期阶段,可靠性是制约其发展的关键因素 [114][115] LLM及其能力 - 标准LLM采用文本到文本的结构,通用性是其核心优势 [5] - 现代智能体的高级能力建立在LLM基础功能之上 [6] - 推理风格的LLM通过生成思维链(CoT)显著提升推理能力 [24][25] - 专用推理模型(如DeepSeek)通过RLVR训练实现更复杂的推理行为 [29][31] 工具使用 - LLM可集成计算器、日历、搜索引擎等外部工具作为问题解决环节 [7] - LLM充当"大脑/指挥官"角色,协调不同专业工具协同工作 [8] - 工具使用方式包括:针对性微调、基于提示的方法和MCP协议 [9][11][16] - 基于提示的工具使用方法可支持LLM与数千个API集成 [15] 推理模型 - CoT提示通过引导LLM展示逐步推理过程提升表现 [24][25] - 推理模型采用不定量"思考"时间,思维链可达数千token [30] - RLVR训练使模型通过自我进化发展推理能力 [31][33] - 推理轨迹长度可控制模型思考深度,如OpenAI的o系列提供低中高三级 [34][35] ReAct框架 - 首个通用框架,通过LLM智能体自主分解并解决复杂问题 [40][41] - 关键创新:允许语言作为行动形式,智能体可输出"思考" [46][47] - 思维模式包括:任务分解、计划制定、进度跟踪等 [53][55] - 在知识密集型推理和决策制定任务中表现优异 [63][64][77] - 与CoT结合可进一步提升性能,支持两种模式切换 [78][80] 智能体系统演进 - 从标准LLM(Level 0)到具备完全自主性的系统(Level 3) [101][111] - Level 1: 集成工具使用,克服知识截止和幻觉问题 [104][105] - Level 2: 引入问题分解框架,如ReAct [107][109] - Level 3: 增加自主行动能力,如自动提交PR的Codex [111] - 理想系统整合推理LLM、标准LLM、工具和行动能力 [112] 行业现状与未来 - 当前智能体系统仍脆弱,单步错误可能导致整体失败 [114] - 可靠性是制约因素,需提升LLM稳健性 [114] - 研究重点:多智能体系统、领域微调、评估方法 [114] - 预计短期内能力和通用性将显著提升 [115]
10% KV Cache实现无损数学推理!这个开源方法解决推理大模型「记忆过载」难题
量子位· 2025-06-16 12:50
大模型推理优化技术R-KV 核心观点 - 推出R-KV技术解决大模型推理冗余问题 通过实时token排序和动态压缩 实现显存降低90% 吞吐提升6.6倍 准确率保持100% [1][2][3] - 技术突破在于边生成边压缩 结合重要性评分和冗余过滤 保留关键信息同时去除重复内容 [9][15] - 在数学基准测试中表现优异 如R1-Llama-8B模型在MATH-500准确率达34% 超过完整KV缓存效果 [17][19] 技术原理 - 采用三步走策略:冗余识别+重要性评估+动态淘汰 解决链式思考导致的推理长度膨胀问题 [5] - 通过多头注意力评估token贡献度 计算key向量余弦相似度识别冗余 按优先级调度KV配额 [9] - 可视化对比显示 R-KV保留跨段落关键信息如题目数值和最终答案 SnapKV则误删关键步骤 [13][14][15] 性能表现 - 显存节省显著:固定1024预算时节省87.5% 比例10%预算时节省90% [20] - 吞吐量提升:8K序列下最大批处理479时达3809 tok/s 16K序列下最大批处理402时达3188 tok/s [20] - 计算开销可控 注意力成本降低抵消评分消耗 长序列场景优势更明显 [20][21] 应用场景 - 边端设备长链推理 使消费级GPU和手机NPU可运行大模型 [22] - 支持多轮Agent复杂流程 如反思-重写-自评 突破显存限制 [22] - 即插即用特性 可加速强化学习采样过程 无需额外训练 [22] 基准测试数据 - DeepSeek-R1-Llama-8B处理AIME数学题时 原生生成3.2万token 显存占用达4.1GB [6] - R1-Qwen-14B在AIME24测试准确率25% 较基线提升显著 [19] - 16K序列下采用10%比例预算 实现90%显存节省同时维持271最大批处理量 [20]
谷歌DeepMind:大模型也很任性,知道最优路径偏要撞南墙
机器之心· 2025-05-05 11:40
核心观点 - 研究系统分析了LLM在决策场景中的三种常见失败模式:贪婪性、频率偏差和知-行差距 [2][4] - 提出通过强化学习微调(RLFT)自动生成的思维链(CoT)推理过程,实验证明该方法能有效提升LLM决策能力 [2][8] - RLFT通过环境交互奖励优化CoT推理,使模型倾向于选择高奖励动作,显著改善探索行为和知-行差距 [8][22] 失败模式分析 - **贪婪性**:LLM过早锁定局部最优动作,在10臂老虎机实验中27B模型仅覆盖45%动作空间 [15][17] - **频率偏差**:2B模型机械复制高频动作(熵值降低50%),27B模型虽减弱此现象但仍保持贪婪 [5][18] - **知-行差距**:87%推理正确但58%情况仍选择贪婪动作,与最优动作选择率(21%)形成显著落差 [20] 模型规模差异 - 小模型(2B)受频率偏差影响严重,重复动作选择率随上下文出现次数线性增长 [5][18] - 大模型(27B)能减弱频率偏差但维持贪婪策略,在20臂老虎机中动作覆盖率停滞在55% [6][15] RLFT方法细节 - 采用裁剪目标函数和KL约束进行微调,数学表达式见公式(2) [11] - 输入包含指令文本和最近C步的状态-动作-奖励轨迹 [10] - 测试环境包括多臂老虎机(MAB)和井字棋游戏 [13] 实验结果 - RLFT使2B/9B模型遗憾值降低30%,优于随机基线 [22] - 微调后模型探索率提升,10步后动作覆盖率突破60% [17][22] - 知-行差距缩小,正确推理对应最优动作执行率从21%提升至40% [20][22]