Workflow
贝叶斯框架
icon
搜索文档
知行合一,大概率是个伪概念
虎嗅APP· 2026-04-07 23:03
文章核心观点 - 文章核心观点认为,在世俗世界中,将“知行合一”作为要求个人完美同步认知与行动的概念是一个伪概念,它基于对人类心理和行为机制的误解[18][19]。真正的出路在于承认“知行常不合一”是人类出厂设置,并利用“元认知”和“工程学”方法(如助推、系统设计、习惯养成)来构建外部结构,以弥合意向与行为之间的鸿沟,实现一种更高级的“知不合而合之”的二阶境界[21][28][30][31]。 一、 对“知行合一”概念的批判与再定义 - 从哲学和逻辑上指出,“知行合一”是一个不可证伪的、永远正确的概念,类似于“心诚则灵”,无法提供有效的实践指导[9][10] - 现代成功学对王阳明“知行合一”的解读是一种误用和鸡汤化,其原意是关于道德良知的本体论命题,而非指导日常执行力的方法论[16][17] - 在世俗实践层面,“知行合一”作为一个要求知与行完美同步的概念,大概率是一个伪概念[18] 二、 “知行不合一”的神经科学与行为经济学基础 - **神经科学证据**:Libet实验表明,大脑的运动指令先于有意识的“决定”发出,行动发生在意识认知之前,挑战了“先知后行”的因果链[35][42] - **行为经济学框架**:塞勒等人的研究指出,人并非理性经济人(Econ),而是充满认知偏差的Human,整个行为经济学可被视为一部“知行不合一”的病理学报告[15][54] - **进化心理学视角**:人类大脑是为远古稀缺环境优化的操作系统,倾向于即时满足,执行长期计划相当于要求过时的硬件运行现代软件,导致“不合一”成为演化遗产而非道德缺陷[97][100][102] 三、 实现有效行动的工程学与系统化方法 - **助推(Nudge)**:放弃说服,通过设计环境(如默认选项、摆放位置)来引导行为,使人在不需要强大意志力的情况下做出更好选择,例如美国的401(k)默认加入制度和中国的住房公积金[61][66] - **自我约束与承诺装置**:借鉴奥德修斯将自己绑在桅杆上的智慧,通过预先设定的、具有约束力的机制(如StickK网站、自动定投、公开承诺)来约束未来可能冲动的自己[79][82][84] - **习惯与系统设计**:将行动转化为习惯或自动化系统(如清单、投资纪律),使其绕过需要消耗意志力的“知”的环节,由基底神经节或外部系统直接执行,这是最稳定的“合一”[90][204][206][209] 四、 投资与商业领域的应用洞见 - **利用认知偏差**:巴菲特、索罗斯等投资者通过利用市场参与者普遍的“知行不合一”行为(如非理性恐慌或贪婪)来获取超额收益[54] - **管理哲学**:优秀的管理不依赖于员工的“知行合一”,而是通过制度化的助推(如KPI、OKR)或更根本的“选拔”,找到与岗位天性匹配、无需刻意“合一”的人才[68][70][73][76][77] - **投资纪律**:成功的基金经理普遍严格遵守投资纪律(如止损、仓位管理),其核心是建立不依赖临场判断的量化与系统化方法,本质是“别信你自己”[204][208] - **决策框架**:采用贝叶斯式的概率化认知(如“70%认为该投资黄金”),将行动视为更新认知的采样器,通过持续的行动-反馈循环来迭代认知,而非追求一次性的完美“知行合一”[126][130][135][141] 五、 对个体实践的指导原则 - **发展元认知(二阶的知)**:不仅要知晓道理,更要认知自身的认知偏差、情绪触发器和行为模式,并据此设计反脆弱的人生系统[24][49][113] - **身份驱动而非意志力驱动**:将目标从“我要做某事”转变为“我是做某事的人”,通过身份认同来降低行动的内部阻力,实现更自发的行为[196][198] - **诚实面对自我局限**:承认“意向-行为鸿沟”的存在,停止因无法做到完美同步而自责,这是运用工程学方法解决问题的起点[26][28][218] - **追求“知行分治”**:不追求知与行的直接合一,而是将“知”作为参谋部,“行”作为执行层,中间通过制度、流程和自动化工具来连接,实现系统层面的有效协同[222]
砍掉99%采样成本!腾讯AI Lab提出大模型无监督训练新技术
量子位· 2025-03-12 11:59
核心观点 - 腾讯AI Lab与香港中文大学(深圳)合作,提出了一种名为“无监督前缀微调”(UPFT)的新方法,该方法通过仅微调大语言模型生成内容的前8-32个词(token),就能使其推理能力达到与传统监督训练相当的水平 [1][3] - UPFT方法的核心原理基于“推理前序自一致性”的发现,即模型正确推理的关键信号集中在生成内容的最初部分,后续的“发散”更多是表象 [2][6][8][12] - 该方法能显著降低大模型训练的数据生产成本和算力消耗,将训练时间缩短约75%,并将采样成本降低约99%,同时训练序列长度缩减了82.6-94.7% [1][4][45] 技术原理与发现 - **推理前序自一致性**:研究发现,无论模型针对同一问题生成多少条不同的推理路径,其路径的开端(前8-32个词)内容几乎完全相同,这表明关键的正确推理信号隐藏在模型的“前几步”里 [2][7][11][15] - **贝叶斯框架下的平衡策略**:从贝叶斯视角看,模型表现取决于推理路径的“覆盖范围”(先验分布)和“准确性”(条件概率)。传统“拒绝微调”策略只关注最终答案正确的路径,牺牲了覆盖范围。UPFT通过仅训练模型生成解题路径的前半部分(前缀),在保证准确性的同时探索了更多解题思路,找到了效率与效果的平衡点 [23][24][26][27][30][32] - **关键临界长度**:实验发现,只有当前序长度超过某个临界点时,正确与错误的推理路径才能被有效区分,这为优化训练策略提供了重要参考 [19][20] 性能与效率优势 - **提升无监督训练上限**:在无监督场景下,UPFT相比传统监督微调(SFT)在多个推理基准测试上表现更优。例如,在U-Hard数据集上,Qwen2.5-Math-7B-Instruct模型的UPFT准确率达54.5%,高于SFT的51.3%;DeepSeek-R1-Distill-Qwen-7B模型的UPFT准确率达61.6%,高于SFT的56.4% [41][42] - **在复杂任务中表现突出**:在更具挑战性的AIME2024数学竞赛题上,Qwen2.5-Math-7B-Instruct的UPFT准确率为26.6%,远高于SFT的16.7%;DeepSeek-R1模型的UPFT准确率达50.0%,高于SFT的36.7% [43] - **显著降低资源消耗**: - **采样成本**:在Qwen2.5-Math-7B-Instruct上,UPFT达到与需要大量采样的RFT方法相同的准确率(52.6%),但采样token消耗仅为RFT的1.2%(0.6M vs 51.7M)。在DeepSeek-R1模型上,UPFT准确率(58.7%)比RFT高1.5个百分点,但采样token花费仅为RFT的1%,训练token花费仅为RFT的25% [47] - **训练序列长度与内存**:UPFT显著减少了训练序列长度,缩减幅度达82.6-94.7%。例如在U-Hard数据集上,UPFT平均仅需68.2个token,而SFT需要393.3个token,内存消耗大幅降低 [4][45] 方法实施细节 - **训练数据策略**:对于每道题目,UPFT仅生成一条推理路径(传统方法需生成多达16条)。其中,对10%的题目生成完整解题路径,对剩余90%的题目只生成解题路径的前半部分(前缀) [35] - **对前缀长度的鲁棒性**:实验表明,UPFT方法对不同前缀长度表现鲁棒。例如,Llama-3.1-8B-Instruct模型在包含8个token的前缀处性能达到峰值(52.0%),而Qwen2.5-Math-7B-Instruct模型的性能在前32个token内均缓慢提升 [50] - **与现有方法的兼容性**:UPFT可与标签过滤等现有方法结合,进一步提升性能。例如,在Llama-3.1-8B-Instruct模型上,结合标签过滤的UPFT性能超过RFT,得分达38.8% [47] 实验与验证 - **测试模型与基准**:研究使用了通用模型(Llama-3.1-8B-Instruct)、数学专用模型(Qwen2.5-Math-7B-Instruct)和长思维链模型(DeepSeek-R1-Distill-Qwen-7B),并在GSM8K、Math500、AIME2024、GPQA等多个推理基准上进行了测试 [37] - **对比方法**:研究将UPFT与传统监督微调(SFT)以及需要大量采样的方法(如RFT、V-STaR)进行了全面对比,证明了其在性能和效率上的双重优势 [42][48]