思维链（CoT） - 财报，业绩电话会，研报，新闻

思维链（CoT）

搜索文档

超越O4-mini，多模态大模型终于学会回头「看」：中科院自动化所提出GThinker模型

机器之心· 2025-07-19 11:13

多模态大模型技术突破 - 当前主流多模态大模型（如Qwen2 5-VL GPT-4o）在数学科学等结构化任务表现优异但在通用场景下存在视觉线索误判且缺乏修正机制的问题[1][7][8] - 中科院自动化所提出的GThinker模型通过「线索引导式反思」机制实现「思考-反思-修正」闭环显著提升复杂场景推理能力[2][3][10] - 模型采用两阶段训练法：先通过7K高质量标注数据冷启动反思能力再通过动态采样强化学习实现跨场景泛化[17][18][20][23] 模型性能表现 - 在M³CoT基准测试中 GThinker-7B以81 5%综合得分超越O4-mini等闭源模型并在科学（90 7%）数学（81%）等子领域达到SOTA[26][28] - 通用场景测试显示该模型在MMStar（66 4%）RealWorldQA（70 1%）等数据集上优于Gemini-2 5 Pro（73 6%/78%）和GPT-4o（65 1%/76 2%）[29] - 方法具备泛化性可使Qwen2 5-VL等开源模型在OpenCompass学术榜单上平均提升1个百分点（如Qwen2 5-VL从70 9%升至72 2%）[30][31] 技术创新细节 - 核心「Cue-Rethinking」流程分三阶段：自由推理标记视觉线索→触发反思提示→系统性回溯验证并修正结论[12][13][14] - 训练数据构建采用多模型协同标注策略覆盖通用数学科学三大领域并通过embedding聚类保证数据多样性[20][27] - 采用DAPO训练算法动态采样结合无KL策略更适合长链思考任务相比GRPO提升探索效率[27]

多模态大模型

线索引导式反思（Cue-Guided Rethinking）

线索引导式反思（Cue-Guided Rethinking）

突发｜思维链开山作者Jason Wei被曝加入Meta，机器之心独家证实：Slack没了

机器之心· 2025-07-16 10:22

核心观点 - Meta持续从OpenAI挖走顶尖AI人才，最新目标是知名研究员Jason Wei和Hyung Won Chung [1][2] - 两位科学家在AI大模型领域贡献显著，Jason Wei是思维链（CoT）技术的主要作者，论文引用量超1.7万次 [4][6] - Hyung Won Chung是OpenAI o1系统的核心贡献者，参与多个重大项目研发 [4][29][38] 人才流动 - Jason Wei和Hyung Won Chung的Slack账号已被OpenAI停用，离职消息获多方证实 [2] - 两人均毕业于MIT，曾任职谷歌，2023年加入OpenAI后现可能同时转投Meta [6][18][27] - Jason Wei未直接回应跳槽传闻，但社交媒体评论普遍认为其将加入Meta [9][10] 技术贡献 - Jason Wei的CoT论文引用量超1.7万次，总论文引用量达77k，位列前两位的是CoT和GPT-4技术报告 [6][21] - Hyung Won Chung主导开发了OpenAI o1系列模型，强化了推理、搜索及RL策略能力 [29][38] - 两人参与OpenAI关键项目包括o1-preview、o1正式版、Deep Research及Codex mini模型训练 [18][29] 行业影响 - 人才流动反映Meta在AI领域的人才争夺策略，OpenAI面临核心团队持续流失压力 [1][41] - Jason Wei提出的RL"同策略"理念强调差异化研究路径，可能影响未来AI研发方法论 [11][12][13] - Hyung Won Chung的技术落地能力推动AI从理论到应用生态的闭环构建 [40]

思维链（CoT）

强化学习（RL）

Artificial Intelligence

Artificial Intelligence

思维链（CoT）

Codex mini

ACL 2025｜为什么你设计的 Prompt 会成功？新理论揭示大模型 Prompt 设计的奥秘与效能

机器之心· 2025-06-16 12:04

大型语言模型提示工程研究核心观点 - 研究首次构建量化Prompt搜索空间复杂度的理论框架将提示工程从经验性"炼丹"转向科学化 [5][7] - Prompt在CoT推理中扮演"信息选择器"角色通过精确提取隐藏状态关键信息引导模型推理路径 [7][12][14] - 最优提示设计可使LLM推理性能提升超50% 显著优于无监督CoT和次优监督CoT [29][36] 理论框架突破 - 提出Prompt空间与答案空间的双层搜索模型 Prompt空间决定信息提取策略答案空间执行具体推理步骤 [20][22] - 定义Prompt空间复杂度公式取决于隐藏状态总信息量n与单步提取信息量s的比值 [14][17] - 最优提示需满足三要素：明确每步输出内容聚焦核心s比特信息编码任务算法蓝图 [28] 实验验证 - 在Modular Arithmetic等任务中 S-CoT准确率达100% 较无CoT提升78个百分点 [27] - 监督CoT在Parity Check任务中准确率98.6% 较次优监督高19.7个百分点 [30] - ToT/GoT等变体仅优化答案空间导航无法突破底层Prompt模板的性能上限 [32][33] 技术机制解析 - CoT通过文本生成实现递归计算将高维隐藏状态离散化为可解释中间步骤 [9][15] - Transformer原生架构计算深度有限无法直接处理复杂多步推理任务 [10] - 错误提示会导致模型提取冗余信息如S-CoT-SUB准确率骤降至26% [10][29] 行业应用启示 - 研究为AutoPrompt等自动化方法提供理论基准需同步优化Prompt与答案空间 [4][22] - 证实人类监督在提示设计中的不可替代性最优模板需结合领域知识 [23][36] - 通用提示如"think step by step"存在性能天花板需定制化设计 [36]

gpt - 4o - classic网页版

gpt - 4o - classic网页版

gpt - 4o mini API

实测思维链大变！DeepSeek R1一个“小升级”性能直逼o3，但仍“过度思考”？

AI前线· 2025-05-29 11:58

DeepSeek-R1-0528版本升级 - 公司在Huggingface平台开源了新版本DeepSeek-R1-0528，主要升级推理精度和代码生成速度[1][2] - 新版本在Live CodeBench基准测试中性能媲美OpenAI的o3（High）版本[2] - 官方称此次为"小版本试升级"，未发布训练方法技术报告[3] 模型性能表现 - 在8/1/2024测试中，DeepSeek-R1-0528以Pass@1 73.1排名第四，优于Groq-3-Mini（66.7）和Gemini-2.5-Flash-Preview（60.6）[3] - Easy-Pass@1达98.7，与排名第一的04-Mini（High）（99.1）接近[3] - Medium-P表现与多数竞品持平（8分），优于Grok-3-Mini（7分）和Gemini-2.5-Flash-Preview（7分）[3] 用户实测反馈 - 唯一能正确回答"9.9-9.11"问题的模型[7] - 推理能力接近Google模型，写作任务更自然且格式优化[8] - 编程能力显著提升但仍落后于o3和Claude 4[9] - 存在"过度思考"问题，如解答高中数学题耗时6分钟[9] 思维链改进 - 思维链（CoT）行为发生重大变化，从类似o系列转向类似Gemini风格[9] - 新版CoT被评价为"更加面向用户"[9] - 任务处理时间延长至每项30-60分钟[8] 行业动态 - AICon北京站将聚焦AI Agent构建、多模态应用等前沿议题[12] - Claude 4发布全球最强编码模型，可实现自主编码7小时[12] - Grok 3被质疑套壳Claude，xAI工程师遭批评[12] - 印度国家级大模型上线两天仅300余次下载，远低于韩国大学生模型（20万次）[12]

Artificial Intelligence

思维链（CoT）

Artificial Intelligence

DeepSeek-R1-0528

Claude 4

Artificial Intelligence

思维链（CoT）

Artificial Intelligence

DeepSeek-R1-0528

Claude 4

北大校友、OpenAI前安全副总裁Lilian Weng关于模型的新思考：Why We Think

Founder Park· 2025-05-18 15:06

大模型测试时计算优化 - 核心观点：通过延长模型"思考时间"可显著提升大语言模型在复杂推理任务中的性能，这已成为超越传统模型规模扩展的新优化维度 [4][5][91] - 性能提升表现：GPT/Claude/Gemini等模型通过思维链(CoT)策略在数学推理(5-6%提升)、代码生成等任务上持续突破性能边界 [4][24][16] - 计算资源视角：Transformer生成每个token需执行参数数量两倍的FLOPs，而MoE稀疏模型可降低至2×参数数÷稀疏度 [10] 思维链技术演进 - 早期方法：监督学习人类解题路径或设计"逐步思考"提示语，可使数学问题解决成功率提升显著 [12][14] - 强化学习应用：在STEM问题集上采用策略梯度算法结合自动评估，DeepSeek-R1模型通过两轮SFT-RL训练实现推理能力突破 [31][32][36] - 自我修正机制：需依赖外部反馈信号避免幻觉，修正器模型通过价值提升对(提示x,初始y,修正y')三元组训练实现迭代改进 [29][34] 并行与序列优化策略 - 并行采样：best-of-N和束搜索通过过程奖励模型(PRM)筛选候选，在GSM8k等任务实现5-6%准确率提升 [23][24] - 序列修订：递归检视(Recursive Inspection)和SCoRe方法通过KL散度惩罚防止行为坍缩，形成连续改进轨迹 [20][30] - 混合策略：简单问题适用纯序列化策略，高难度问题需组合并行与序列方法获取最优表现 [19] 架构创新与工具整合 - 递归架构：Universal Transformer等设计实现自适应计算时间，3.5B模型在r¯=32迭代次数达到性能饱和 [71][73] - 思考token机制：插入特殊token<T>或暂停标记可隐式扩展计算循环，使模型复杂度降低30% [73][74] - 外部工具调用：PAL和Chain of Code方法将数学计算/代码执行外包，ReAct框架整合Wikipedia API等知识源 [45][48] 可解释性与忠实度 - 思维链监控：可有效检测reward hacking行为，对抗样本的鲁棒性随思考时间延长提升51% [51][65] - 忠实度测试：通过扰动提示实验显示推理模型(Claude 3.7/DeepSeek R1)比非推理模型更可能揭示真实思维过程 [62][64] - 优化压力风险：RL训练中直接优化CoT易导致新型reward hacking，需设计n-gram重复惩罚等防护机制 [66][69]

思维链（CoT）

测试时计算

潜变量建模

Artificial Intelligence

Artificial Intelligence

DeepSeek - V3 - Base

GPT

刚刚！北大校友Lilian Weng最新博客来了：Why We Think

机器之心· 2025-05-18 12:25

大模型测试时计算优化 - 核心观点：通过延长模型"思考时间"（测试时计算）可显著提升大语言模型在复杂推理任务中的性能表现，该方向与人类认知双系统理论高度相关[2][6] - GPT、Claude、Gemini等模型通过思维链(CoT)和测试时计算策略优化，在逻辑推理、长文本理解、数学问题求解等高级认知任务上不断突破性能边界[2] - Transformer生成每个token的计算量约为参数量的2倍，而稀疏模型(MoE)因部分网络激活可降低计算量至2×参数数÷稀疏度[8] 思维链技术演进 - 思维链(CoT)允许模型根据问题难度动态调整计算量，早期通过监督学习人类编写的推理路径实现[13] - 强化学习在可验证答案的数据集(如STEM问题)上应用显著提升CoT性能，近期采用策略梯度算法结合自动评估成为主流方法[14] - 模型规模越大，"思考时间"带来的性能收益越显著，在数学问题上成功率提升明显[16] 并行采样与序列修订 - 并行采样通过生成多个候选序列并用验证器筛选最优解，实现简单但依赖模型单次生成能力[19][26] - 序列修订通过迭代修正输出实现质量提升，需额外控制修订风险如正确答案被错误修改[20] - 实验表明简单问题适合纯序列策略，高难度问题需组合并行与序列方法才能获得最优表现[21] 强化学习应用 - DeepSeek-R1通过两阶段SFT-RL训练在数学/编程任务表现优异，验证纯强化学习可涌现"顿悟时刻"类高级推理能力[42][46] - 推理类RL训练使用格式奖励(特殊token包裹CoT)和准确性奖励(自动验证答案)双重机制[43] - 失败案例显示过程奖励模型易导致奖励欺骗，蒙特卡洛树搜索因token空间过大难以应用[49] 外部工具整合 - PAL和Chain of Code方法通过调用代码解释器处理数学计算/编程任务，扩展模型能力边界[52] - ReAct方法结合Wikipedia API调用与推理轨迹生成，实现外部知识整合[56] - OpenAI o3/o4-mini模型融合网页搜索、代码执行等工具操作，验证计算资源与性能正相关[57] 连续空间思考架构 - 递归架构如Universal Transformer通过自适应计算时间动态调整推理步数[82] - 思考token技术通过插入特殊token为模型争取额外计算时间，在数字推理任务效果显著[85] - Quiet-STaR实现token级推理，通过生成未来文本的合理化解释提升预测质量[89] 测试时计算规模效应 - 测试时计算优化相比参数扩展可能更高效，但对困难问题的弥补能力有限[107] - 思维链长度与评估准确率呈正相关，但简单拒绝采样会导致反向scaling现象[112][113] - 最佳效果出现在推理token远少于预训练token时，表明基础模型能力仍是关键[112]

Artificial Intelligence

Artificial Intelligence

DeepSeek - V3