置信度
搜索文档
人生,就是活在两个悬崖之间
虎嗅· 2025-09-24 08:01
投资哲学与决策框架 - 顶级投资者不追求精确的年化回报率预测,而是寻找未来五到十年有数倍涨幅可能性的公司,具体时间和幅度存在不确定性[1] - 应避免陷入试图精确预测市场热点、板块轮动和最佳买卖点的思维陷阱,这类行为基于可预测一切的错觉[1] - 成功的决策需在谨慎与过度大胆两个悬崖之间找到平衡,这并非一个固定点,而是一个动态区间[2][3] 区间思维模型 - 最优决策区间由中点c和半径r定义,c代表策略核心或目标均值,r代表可容忍的波动或风险范围[4][5][6][7] - 半径r越大,尝试空间越大,但也更接近风险悬崖;过度追逐高c而忽略r是常见错误[8][9][10] - 当约束条件苛刻导致可行区间极窄甚至无解时,就会陷入“左右为难”的决策困境[13][15][16] 预测的本质:模糊正确优于精确错误 - 预测未来本质是“网鱼”而非“射靶子”,目标是确保结果落在预测范围内,而非无限接近某个精确点[30][31][32] - 行为经济学实验表明,人们常因过度自信而给出过窄的置信区间,在要求90%置信度的任务中,实际包含真值的比例往往只有60%或更低[36][37] - 为追求“看起来专业”的精确感,人们会系统性低估不确定性,导致计划脆弱,易被现实击穿[38][39][42] 从期望值思维到置信区间思维 - 期望值是一个“点估计”,告知平均结果但未揭示波动范围,而重大决策往往只有一次机会,理解可能的结果分布范围更为关键[49][50][51][54] - 置信区间是预估结果最可能落入的范围[a, b],它承认不确定性并划定“安全走廊”[56][57][58] - 置信度是对该范围有效性的信心程度,例如95%置信度意味着用同样方法进行100次预测,预计有95次能成功框住真实结果[59][60][61] - 成熟的投资规划应基于对企业基本面的深度分析,估算“内在价值区间”并留足安全边际,而非预测精确股价点位[64][65] 巴菲特决策体系的双重置信度 - 初始边界设定:公司估值不超过15倍市盈率(以税前利润计算),作为防止过度大胆的第一道护栏[67] - 定性高置信度(90%):要求对公司“五年后比现在更好”有高确定性,这关乎对生意本质、能力圈和护城河的理解[68][74][80][81][82] - 定量低置信度(50%):对公司未来五年实现7%无杠杆复合增长率的预测仅保持50%置信度,这体现了对具体数字预测的谦卑[68][84][86][87] - 该体系精髓在于:在定性理解上追求极致确定性,在定量预测上保持极致谦卑,通过安全边际构建“安全走廊”[93][94][95][97] 杠杆、风险与持久耐力 - 加杠杆、高负债和赌博行为会灾难性压缩人生区间的半径r(容错空间)[135][136] - 波动是世界的固有不确定性,而杠杆是主动将半径r压缩至零甚至负值,其组合犹如“炸药”[137][138] - 投资大师如巴菲特和芒格刻意发挥低于全部的潜力,放弃对短期回报c的最大化,以守护半径r和追求持久耐力[142][143] - 长期成功的核心是“最优化”(长期生存并做得很好),而非“最大化”(短期收益最高),守护半径r是留在牌桌上继续游戏的基础[145][149][150] 构建稳健的人生与投资系统 - 真正的目标不是预测未来,而是构建一个在不确定的未来中依然能赢的系统[169] - 自由度由容错空间r决定,而非目标c;没有r,c一文不值[163] - 应为整个波动范围做准备,而非为平均值做规划,因为现实从不落在平均值上[165] - “左右不难”的本质是拥有选择权,这来源于预留的缓冲地带,需放弃“点状”脆弱,拥抱“区间”坚韧[168]
OpenAI的新论文,为什么被业内嘲讽是营销?
虎嗅· 2025-09-12 17:16
文章核心观点 - OpenAI发布论文指出大模型幻觉的主要根源并非模型架构问题,而是当前技术社区的评估机制倾向于奖励猜测并惩罚承认不确定的行为,迫使模型在不确定时也进行猜测[1][3] - 论文主张改变主流评估基准,应对高自信错误施以惩罚并为恰当的不确定表达给出分数,使激励从“大胆猜”转向“知之为知之”[3][4] - 该研究将“幻觉”从工程缺陷转化为技术社区的“激励设计”问题,若发展方向改变,未来关注点将从准确率小幅上涨转向模型在不确定时自然说“我不知道”[4][5] - 技术社区对论文存在争议,有观点认为其内容不新颖、水平不高,更像是一场营销而非研究[6][7][8] - 幻觉的本质可能源于机器学习中模型拟合度与泛化性的内在权衡,任何在训练数据外进行泛化的模型要么产生幻觉,要么遭遇模式崩溃[14][15] - 低幻觉大模型可能演变为高效串联已知事实的自然语言搜索引擎,这对AI Agent和企业AI落地是利好,但对其泛化能力存疑[17][20][22] - OpenAI的倡议具备号召力,其背后可能旨在强调GPT-5等模型在AI Agent和企业应用领域的优势,并推动自身应用业务发展[33][35][36] 大模型幻觉的根源与OpenAI的解释 - 大模型出现幻觉的主要原因是训练与评测机制奖励猜测并惩罚承认不确定的行为,迫使模型在高度不确定时倾向猜测性作答以博取准确率分数[1] - 在预训练层面,大模型通常只接触正面示例,即给定提示词后输出完整回答,未接触拒绝回答的示例,因此学不会拒绝回答的行为[2] - OpenAI以自家模型为例,在SimpleQA基准中,旧模型o4-mini准确率22%,新模型GPT-5-thinking-mini准确率24%,但旧模型错误率75%远高于新模型的26%,因其更少“弃答”[3] 技术社区对论文的争议与批评 - 有观点认为该论文既不新颖水平也不高,相关研究早已出现,且论文技术水平像初级研究人员所写[7] - 纽约大学数据中心助理教授Ravid Shwartz Ziv直言论文更像是一场营销而不是研究[8] - 批评指出幻觉概念至今未被严格定义,现有研究多是对幻觉的分类,如模型过度自信、解码随机性等[10] 幻觉的本质与机器学习视角 - 幻觉本质可用曲线拟合类比,不同模型具备不同拟合度和泛化性,任何模型生成的不同于训练数据的新数据都可能是幻觉[14] - 机器学习或大语言模型不擅长分布外泛化,其泛化能力更多是在已有观测点范围内估计未知值[15] - 理论研究指出模型在训练数据外泛化时,会产生幻觉或遭遇模式崩溃,这是一致性和广度之间的内在权衡[15] 低幻觉模型的影响与潜在形态 - 若保证训练数据和测试数据分布大致相同且模型过拟合,能保证很低错误率或幻觉率,低幻觉大模型可能演变为高效串联已知事实的自然语言搜索引擎[16][17] - 这种模型对拼写、标点等细节响应灵活,对多次引用的事实基本准确,但对单次出现的事实可能出错并选择拒绝回答,这对AI Agent和企业AI落地是利好底座[20] - 企业数据通常领域独立、长尾、稀疏,训练出的大模型潜在幻觉点多,增加拒答率可帮助企业优化模型[21] 幻觉检测与置信度方法 - 当前没有很好的自动化检测幻觉方法,复杂检测方法效果甚至与分析响应长度方法相当[24] - 简单方法让LLM生成多个独立答案比较一致性,但计算成本高昂,后续研究利用答案间重复部分缓存节省成本[25][26] - 高效方法是在推理过程中计算模型内部置信度信号,动态过滤低质量推理路径,如论文方法在AIME 2025达到99.9%的“@512准确率”,生成文本长度减少84.7%[26] - 置信度可定义为生成下一个token时候选词概率分布越不均匀、越集中在少量词则置信度越大,也可直接让模型输出不确定性词语表达置信度[28][30] OpenAI的倡议与潜在战略意图 - 论文创新之处不在方法,而像是面向技术社区的倡议,若社区认同,大模型将向不鼓励猜测答案方向发展[31] - OpenAI指出惩罚不确定答案的“流行病”只能通过社会技术缓解措施解决,作为大模型时代奠基者具备号召力[32][33] - 结合GPT-5低幻觉招牌、低幻觉对AI Agent和企业AI的重要性,以及公司近期收购io Products、成立“应用”板块等举措,推测OpenAI希望社区认可GPT-5成就并强调其在企业应用优势[34][35] - 公司自身也要认真发展应用业务[36]