Workflow
流体智力
icon
搜索文档
别「对齐颗粒度」了,最新研究:越爱说企业黑话,脑子越不好使
36氪· 2026-03-19 08:48
研究核心发现 - 一项发表于《个性与个体差异》期刊的研究表明,越喜欢使用空洞企业黑话(如“赋能”、“抓手”、“闭环”)的白领,其认知与决策能力可能越差 [7][10][11] - 研究通过对**1000多名**白领进行测试,发现对企业黑话的热情程度是预测其决策表现的**唯一显著负向指标** [11][12][30] 企业黑话的定义与特征 - 研究区分了专业术语与企业黑话,前者是精确高效的概念工具(如“心肌梗死”),后者是听起来高大上但空洞无物的抽象流行词(如“生态化反”、“价值对齐”) [13] - 企业黑话被精确定义为:一种用令人困惑的抽象流行词,以功能性误导的方式进行沟通的特定风格 [13] - 这类话语的核心意义**不是传递信息,而是制造幻觉** [4][14] 实验设计与评估方法 - 研究人员通过随机组合企业流行词生成伪造的“商业洞见”(例如“通过战略协同实现范式转移”),并让志愿者评估其“商业智慧”程度,以此构建了“企业黑话接受度量表”来量化个人对黑话的迷恋程度 [16][17][18] - 参与者随后完成了两项核心能力测试:**流体智力测试**(评估在陌生情境下发现规律、处理新问题的能力)和**情境判断测试**(评估在具体工作场景中的现实判断力) [20][21][25][26] - 研究还测量了“**积极开放思维**”指标,即面对新事实与旧看法冲突时,是否愿意重新审视自己 [30] 黑话爱好者的能力表现 - 测试结果显示,黑话爱好者在**流体智力**、**情境判断**和**积极开放思维**三项指标上全面溃败 [30] - 他们解决新问题的能力更差,思维更僵化,做决策时表现更糟 [30] - 在控制所有变量后,“企业黑话接受度量表”的得分是预测决策失误的**唯一显著因子** [30] 黑话在组织中的传播与影响 - 研究揭示了职场中一种可怕的自我复制现象:决策能力平庸、易被黑话打动的管理者,更可能提拔同样喜欢使用黑话的下属,而这些下属的决策能力同样存疑 [32][33] - 这导致“**堵塞的马桶效应**”:黑话大师上台后,团队的黑话浓度升高,吸引更多缺乏判断力的人加入,使得清晰表达和扎实判断变得不占便宜,重要信息被套话埋没 [33][34] 现象背后的认知根源与研究局限 - 人类大脑存在固有认知弱点,天生容易将“听起来复杂”与“内容深刻”画等号,这并非单纯的智商问题 [39] - 企业黑话的威力在于依靠气势、节奏和场面感让人先接受,放弃深入追问 [40] - 研究样本依赖于自愿参与,可能遗漏部分人群;同时,情境判断测试对不同社会经济背景受试者的公平性在学术界存在讨论 [38] - 因此,该研究更适合被视为一个强烈的警报,而非最终判决书 [39]
CL-Bench的故事没有结束,生成式CL-Bench:GENIUS来了
机器之心· 2026-03-02 17:03
GENIUS基准与生成式流体智力 - 文章核心观点:当前生成式多模态大模型在基于海量数据拟合的“晶体智力”上表现强大,但在需要根据新颖、动态上下文进行即时推理和创造的“流体智力”上存在显著短板。GENIUS基准的提出,旨在评估和推动模型从“模仿者”向具备真正通用推理能力的“思考者”进化[7][26][27] - 从“晶体”到“流体”智力:晶体智力指运用过去学习获得知识的能力,模型通过海量数据拟合掌握了这种能力,例如生成逼真的猫。流体智力指根据当前独特、新奇情境进行“随机应变”推理的能力,这是模型迈向高价值应用和真正通用智能的关键[7] - GENIUS基准解构生成式流体智力:基准包含510个专家级样本,涵盖20个子任务,每个样本由多模态交织上下文组成,确保任务必须通过整合所有上下文线索才能解决。它从三个维度评估流体智力:1) 隐式模式归纳:考察模型从稀疏观察中捕捉潜在规律并泛化的能力[11];2) 执行即时约束:考察模型理解并执行临时、非训练分布内复杂逻辑的能力[12];3) 适应上下文知识:考察模型克服预训练“认知惯性”,适应反直觉上下文设定的能力[13] 实验结果与模型表现分析 - 晶体智力与流体智力的割裂:在12个最先进的模型上评测,量化结果显示即便最强模型(如Nano Banana Pro)在GENIUS上的平均表现也远未达到及格线,表明模型习得的知识储备(晶体智力)不能直接迁移为解决新颖问题的推理能力(流体智力)[15][17] - 预训练知识的阻力:在三大评估维度中,“适应上下文知识”的准确率普遍最低,证实模型存在严重的预训练知识阻力。例如在“反重力”任务中,模型常忽略上下文,顽固生成符合现实物理规律的图像,显示其思维僵化,缺乏在现实与想象模式间灵活切换的可塑性[18] - 故障诊断与失效原因:1) 常规推理增强策略(如思维链、测试时扩展)带来的性能提升非常有限,现有推理范式难以迁移到多模态即时生成任务[20];2) 上下文理解是核心瓶颈,引入人工编写的显式提示可提升生成质量,但部分模型在多模态交错输入下甚至出现性能回退[20];3) 生成失败主因是执行能力不足而非理解缺陷。模型在转换为视觉问答任务时成功率较高,但交错上下文的高数据密度使细粒度视觉差异难以被捕获,且模型结构设计导致理解侧的语义信息无法有效传导至生成侧[21] 方法论与改进方向 - 基于注意力的免训练增强:通过可视化分析发现,模型(如Bagel)在处理图像时注意力分布异常杂乱,包含大量噪声和随机激增,这干扰了其对上下文的理解。基于“上下文学习是隐式梯度更新过程”的理论,提出一种免训练的注意力校准机制,强制引导模型将注意力收敛于关键的视觉与语义区域。该方法能有效纠正模型的优化轨迹并带来显著的性能增益[23][24] - 总结与行业展望:GENIUS基准的提出回应了生成式AI发展的核心命题。行业需要推动模型从“晶体智能的拟合”走向“流体智能的推理”,这是生成式多模态大模型下一阶段发展的必经之路。该基准旨在为社区提供严谨的测试平台,推动模型进化为具备真正通用推理能力的“思考者”[26][27]
中门对狙!Claude Opus 4.6和GPT-5.3 Codex同时发布,这下真的AI春晚了。
数字生命卡兹克· 2026-02-06 07:58
文章核心观点 - 行业两大领先公司Anthropic与OpenAI在同一天发布重磅模型更新,标志着AI行业竞争进入白热化阶段,模型能力快速进步且差距缩小 [129][130][132] - 两家公司均将发展重点押注于智能体(Agent)方向,但产品侧重点有所不同,Claude更侧重于B端生产力工具集成,而GPT Codex系列更专注于编程与开发场景 [133][66][108] - 模型能力的提升正驱动软件行业经历一场根本性的范式转变,传统SaaS公司面临压力,现在是需要密切关注和积极学习的关键时期 [134][136][137] Claude Opus 4.6 模型性能分析 - 在多项基准测试中表现卓越,综合能力被视为当前最先进的模型(SOTA)[23] - **终端编程能力**:在Terminal-Bench 2.0测试中得分65.4%,高于GPT-5.2的64.7%和Gemini 3 Pro的56.2% [9][10] - **计算机操作能力**:在OSWorld测试中得分72.7%,较其前代Opus 4.5的66.3%有显著提升,表明其向全面智能体化发展 [11] - **网络搜索能力**:在BrowseComp测试中得分84.0%,大幅领先于GPT-5.2 Pro的77.9% [12][13] - **真实工作任务表现**:在GDPval-AA评估中获得1606的Elo评分,比GPT-5.2高出144分,比其前代Opus 4.5高出190分 [14] - **新颖问题解决能力**:在ARC AGI 2测试中得分高达68.8%,远超其他模型,展现了强大的“流体智力” [15][21] Claude Opus 4.6 产品功能更新 - **上下文窗口大幅扩展**:支持100万token的上下文窗口,是之前200K容量的5倍,并在MRCR v2测试中,于100万token中准确找到隐藏信息的成功率达76% [28][34] - **输出上限提升**:最大输出从64K token翻倍至128K token [37] - **上下文压缩功能**:模型可自动将旧对话内容压缩为摘要,以支持更长时间的连续任务执行 [41][43] - **自适应思考与努力控制**:新增Adaptive Thinking功能,让模型自主判断思考深度;用户可手动设置思考努力程度(low, medium, high, max),以平衡速度、成本与质量 [49][51] - **智能体团队协作**:推出Agent Teams功能,允许一个会话作为协调者,启动多个拥有独立上下文窗口的团队成员并行工作并直接相互通信,适用于需要讨论与协作的复杂任务 [53][55][57] Anthropic 的B端产品集成进展 - **Excel深度集成**:Claude in Excel插件已集成Opus 4.6,新增支持数据透视表编辑、图表修改、条件格式、排序筛选及金融级格式设置等功能 [58][59] - **PowerPoint集成**:新推出Claude in PowerPoint插件,Claude可读取现有演示文稿的布局与样式,并根据客户模板创建新内容或进行针对性编辑 [62][63][64] - 公司在B端和生产工具领域的产品体验被认为已形成显著优势 [66] Claude Opus 4.6 定价与可用性 - API基础价格保持为输入每百万token 5美元,输出每百万token 25美元 [68] - 当提示超过20万token时,定价调整为输入每百万token 10美元,输出每百万token 37.50美元 [69] - 模型已在Claude网页版及Claude Code中全面上线 [73] GPT-5.3 Codex 模型特性与意义 - **自我改进的里程碑**:该模型是首个在自身开发过程中发挥重要作用的模型,被用于调试训练过程、管理部署和诊断测试结果,这可能加速AI自身的进化速度 [80][86] - **终端编程能力领先**:在Terminal-Bench 2.0测试中得分77.3%,显著高于Claude Opus 4.6的65.4% [92][93] - **计算机操作能力**:在更严格、修复了300多个问题的OSWorld-Verified测试中得分64.7%,其测试基准被认为比Claude报告的原版OSWorld更难 [95][96] - **软件工程任务**:在更复杂、多语言、多仓库的SWE-bench Pro Public测试中得分56.8%,该基准被认为比Claude使用的SWE-bench Verified子集难度更高 [103][106][107] - **真实工作贡献评估**:在GDPval评估中,其产出被人类专家盲评为“与人类一样好或更好”的比例为70.9% [99] GPT-5.3 Codex 产品演示与更新 - **复杂游戏开发能力**:模型在数天内自主迭代数百万token,生成了包含多地图、道具系统的完整赛车游戏以及包含生态系统探索、氧气管理系统的潜水游戏 [110][114] - **实时交互功能**:用户可在模型工作过程中随时介入并调整方向,无需先停止任务 [117][118] - **性能与效率提升**:在Codex平台上运行速度显著加快,完成相同任务所需token数不到5.2-Codex的一半,且单token处理速度快25%以上 [121][124]
中年危机,也许是人生新起点
36氪· 2025-08-19 11:37
中年危机的本质 - 中年危机被重新定义为"中年觉醒" 是人生结构转型期而非真正的危机 表现为对过去价值观和生活方式的怀疑[4] - 全球人口平均在46岁达到人生幸福拐点 走出中年危机低谷[2] - 典型外部反应包括裸辞、离婚、整容等表面叛逆行为 但心理学研究认为这些并非根本解决方案[2] 觉醒的心理机制 - 中年觉醒源于个体开始有空间与自己对话 经历了足够社会角色后开始追问自我价值[4][5] - 从荣格理论看 前半生追求成就和社会认同 后半生转向寻找意义与真实自我[4] - 哈佛商学院教授提出警惕"职业身份成瘾" 即把自我价值与职位头衔绑定[5][7] 智力结构转型 - 流体智力(快速学习、创新能力)从三四十岁起逐步减退[8][9] - 结晶智力(经验、洞察力)随年龄增长而积累 成为中年后核心资产[8][10] - 成功案例如贝多芬在听力衰退后转向作曲 用结晶智力创作晚期杰作[11] 职业发展路径转变 - 建议从依赖流体智力的赛道转向发挥结晶智力的角色 如导师、顾问、战略家[12] - 工作意义从"证明自己"转向"传递价值"[12] - 埃里克松理论指出中年期核心冲突是传承性vs停滞性 成功解决将获得持久关怀感[14] 中欧学员案例研究 - 中欧学生平均年龄40-50岁 在课堂描述中普遍将人生理想状态比喻为参天大树[15][16] - 大树象征人格核心的自性 既扎根潜意识又向上生长 代表整合与觉醒[18] - 学员普遍不再被头衔和外界掌声驱动 而是追求扎根与连接 从成功转向意义[18]
影响推理能力的关键脑区确定
科技日报· 2025-04-21 07:51
研究背景与方法 - 英国伦敦大学学院研究人员通过损伤缺陷映射法定位人脑功能 对247名单侧局灶性脑损伤患者和81名健康个体进行对比研究[1] - 研究聚焦左或右额叶脑损伤患者 旨在确定对推理能力至关重要的大脑区域[1] - 该方法克服了功能成像技术的局限性 提供因果性证据而非相关性证据[1] 实验设计与测试内容 - 开发语言类比推理测试 要求参与者通过单词关系解决问题 例如比较A B C的智力水平[2] - 设计非语言演绎推理测试 要求通过图片形状或数字识别逻辑模式 例如数字序列匹配[2] - 测试评估能力包括理解结论推导和新问题处理[2] 关键研究发现 - 右前叶受损患者在两种测试中表现最差 错误率比其他组别高出约15%[2] - 右前脑网络同时关联推理能力和流体智力 即无经验状态下解决问题的能力[2] - 研究确认大脑中存在共同区域对推理和流体智力发挥关键作用[2]
大脑抗衰手册:如何让你的脑力保持巅峰
虎嗅· 2025-03-28 08:06
核心观点 - 传统观点认为流体智力在25岁后开始衰退,但新研究指出思维速度可维持到60岁左右,关键在于保养得当和保持开放心态 [6][10][13] - 通过增强认知储备、接受新鲜刺激、进行脑力锻炼、保持足够社交、维持健康习惯和训练大脑秩序等方法,可以有效帮助大脑抵抗衰老,维持脑力年轻和健康状态 [16][17][29][41][48][52][60] 智力研究新发现 - 传统研究认为流体智力巅峰在25岁前后,之后逐渐衰退,45岁后加剧 [6] - 2022年《自然》研究指出,智力下降速度可能比想象慢,思维速度可维持平稳水准至60岁左右 [10] - 思维速度看似下降可能源于年龄增长后决策更谨慎,而非大脑能力衰退 [11] - 晶体智力(经验)在一生中稳步提升,即使到60岁也能维持较高平稳水平 [14][15] 增强认知储备方法 - 认知储备指通过优化神经网络资源配置,用更少资源完成相同任务,以应对可能的神经元损伤 [20][21][22] - 学习外语是提高认知储备的有效方式,双语者颞叶和顶叶更不易受损,额叶与颞叶、顶叶连通性增强 [24] - 外语学习能提升执行控制能力和注意力,增加前额叶皮层神经元连接密度,对冲年龄增长损伤 [25] - 学习两门语言可减轻大脑老化,学习更多语言效果增幅递减 [26] - 2018年研究发现音乐相关活动能有效提升记忆力和执行控制能力,刺激大脑信息加工处理 [26] - 建议培养学习外语和音乐的习惯,演奏乐器、唱歌、跳舞或多听音乐均有助益 [27][28] 接受新鲜刺激 - 任何类型的学习都对大脑有益,可通过提供新鲜刺激发挥作用 [30] - “脑力下降”感可能源于长期缺乏多巴胺导致的慢性疲劳状态,使大脑失去动力和兴趣 [31][32] - 为大脑持续提供新鲜感是刺激多巴胺分泌的关键方式 [33] - 面对新信息应选择将其内化到预测框架中,而非拒绝接受,以维持脑力 [36][37] - 建议拨出15%可用时间接触新领域,为大脑持续提供新鲜刺激和多巴胺分泌 [39][40] 进行脑力锻炼 - 电子游戏是需要多脑区协作的娱乐形式,对维持大脑活力和年轻有帮助 [42] - 射击类游戏可锻炼识别方位、记忆路线、理解环境、制定策略等能力,提升手眼协调、空间和运动能力 [42][43] - 桌游、剧本杀可锻炼阅读、理解和推理能力 [45] - 下棋、猜谜、答题有助于注意力、记忆力和模式识别能力 [45] - 话剧、戏剧表演可锻炼理解力、记忆力、表达能力和感知能力 [45] - 手工、绘画等艺术形式对专注力、想象力、表达力和协调力有长足帮助 [46] - 球类等对抗合作活动因需快速判断决策,也有助于脑力锻炼 [46] 保持足够社交 - 良好社交能提高幸福感并降低阿尔兹海默病几率,是保持身心年轻的关键因素 [48] - 长期孤独会对大脑造成不可逆损害,影响认知能力,应避免长期不与他人接触 [48] - 社交包括维持朋友联系以及参与聚会、比赛、团队体育、兴趣活动等社会性活动 [48][50] - 创造内容、分享见解、艺术创作、专业咨询等产出性活动能充分调动各脑区,维持大脑最佳状态 [50][51] 维持健康习惯 - 久坐是对身心健康危害最大的日常不良习惯,会提高多种疾病几率 [52] - 2018年研究发现久坐会降低大脑认知能力,因其不利于心脑血管循环,从而降低思考与认知能力 [53] - 久坐可能导致大脑部分脑区缺氧,长期积累可能造成神经元凋亡或神经连接破坏等不可逆后果 [53] - 运动程度更高的人,其认知能力下降速度越慢 [54] - 建议避免长时间久坐,养成多活动习惯,通过分散运动对冲久坐影响 [54] - 可进行原地跑步、上下楼梯、冲刺短跑或简单拉伸等见缝插针的运动 [55] - 与朋友参与户外运动可同时锻炼身体、社交和脑力 [56] - 散步、晒太阳也是有效的锻炼方式,有助于提高睡眠质量,从而清除大脑代谢废物,降低阿尔兹海默病几率 [57][58] 训练大脑秩序 - 2019年研究发现每天步行5000~10000步能有效增加脑容量,降低大脑衰老程度 [59] - 2012年研究发现跑步时大脑血流量增加约15%,可提升运作效率 [59] - 大脑思维能力取决于神经元连接的效率和有序程度 [60] - 可通过经常对信息进行总结、归纳、提炼来锻炼大脑,砍掉无用连接,强化高维连接 [61] - 建议通过反思和复盘来优化大脑内部连接,例如思考新问题的归类、共同点与差异点,整合知识并建立联系,总结行动经验和方法论 [62][63]