Workflow
思维链(Chain of Thought
icon
搜索文档
在WAIC耳朵听出茧子的「智能体」,是时候系统学一下了
机器之心· 2025-08-04 15:05
文章核心观点 - 智能体成为AI大模型应用的重要方向,从单纯的聊天机器人转向具备主动思考、制定计划和使用工具的能力 [1] - 智能体系统通过整合工具使用、推理能力和自主规划,显著提升LLM解决复杂问题的能力 [6][38][112] - ReAct框架通过结合推理与行动,为智能体系统提供了通用的问题解决范式 [40][41][47] - 智能体发展分为多个层级,从标准LLM逐步演进到具备高度自主性的系统 [101][105][107][111] - 当前智能体系统仍处于早期阶段,可靠性是制约其发展的关键因素 [114][115] LLM及其能力 - 标准LLM采用文本到文本的结构,通用性是其核心优势 [5] - 现代智能体的高级能力建立在LLM基础功能之上 [6] - 推理风格的LLM通过生成思维链(CoT)显著提升推理能力 [24][25] - 专用推理模型(如DeepSeek)通过RLVR训练实现更复杂的推理行为 [29][31] 工具使用 - LLM可集成计算器、日历、搜索引擎等外部工具作为问题解决环节 [7] - LLM充当"大脑/指挥官"角色,协调不同专业工具协同工作 [8] - 工具使用方式包括:针对性微调、基于提示的方法和MCP协议 [9][11][16] - 基于提示的工具使用方法可支持LLM与数千个API集成 [15] 推理模型 - CoT提示通过引导LLM展示逐步推理过程提升表现 [24][25] - 推理模型采用不定量"思考"时间,思维链可达数千token [30] - RLVR训练使模型通过自我进化发展推理能力 [31][33] - 推理轨迹长度可控制模型思考深度,如OpenAI的o系列提供低中高三级 [34][35] ReAct框架 - 首个通用框架,通过LLM智能体自主分解并解决复杂问题 [40][41] - 关键创新:允许语言作为行动形式,智能体可输出"思考" [46][47] - 思维模式包括:任务分解、计划制定、进度跟踪等 [53][55] - 在知识密集型推理和决策制定任务中表现优异 [63][64][77] - 与CoT结合可进一步提升性能,支持两种模式切换 [78][80] 智能体系统演进 - 从标准LLM(Level 0)到具备完全自主性的系统(Level 3) [101][111] - Level 1: 集成工具使用,克服知识截止和幻觉问题 [104][105] - Level 2: 引入问题分解框架,如ReAct [107][109] - Level 3: 增加自主行动能力,如自动提交PR的Codex [111] - 理想系统整合推理LLM、标准LLM、工具和行动能力 [112] 行业现状与未来 - 当前智能体系统仍脆弱,单步错误可能导致整体失败 [114] - 可靠性是制约因素,需提升LLM稳健性 [114] - 研究重点:多智能体系统、领域微调、评估方法 [114] - 预计短期内能力和通用性将显著提升 [115]
细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈
量子位· 2025-06-16 18:30
多模态数学推理的挑战与突破 传统方法的局限性 - 传统思维链推理方法在视觉与数学结合场景下表现不佳,易忽略视觉输入中的数学细节导致推理错误[2] - 现有视觉CoT方法存在三大瓶颈:粗粒度图像区域选择破坏数学元素关联性[4]、通用视觉编码器对数学图像感知力不足[5]、过度依赖外部工具导致高成本低通用性[6] MINT-CoT的创新设计 - 提出动态Interleave Token机制,通过计算隐藏层相似度实时选取最相关视觉token,实现文本与数学图像元素的细粒度融合[9] - 突破传统矩形区域限制,可灵活捕捉几何图形、坐标轴等结构化数学元素,支持任意形状视觉区域选择[9] - 采用轻量化架构设计,无需依赖外部工具即可完成端到端训练与推理[9] 数据与训练体系 - 构建5.4万条视觉交错推理样本数据集,通过四步流程实现token级图文对齐标注:网格划分→OCR文本映射→关键词提取→MLLM关联匹配[11] - 设计三阶段渐进训练策略:文本CoT微调→双损失监督的交错模态微调→强化学习优化视觉选择策略[13] 性能表现 - 在Qwen-VL-7B模型上应用MINT-CoT框架后,MathVista/GeoQA/MMStar三大基准分别提升32.59%/26.92%/23.2%[16] - 可视化结果显示模型能自主选择相关视觉token并与文本推理链动态交互,推理逻辑显著优于基线[15] 行业影响 - 该技术首次实现数学场景下视觉与思维链的深度融合,为结构化视觉推理建立新范式[17] - 方法论具备扩展性,未来可迁移至科学图表解析、工程图纸理解等专业领域[17]