Workflow
模型泛化能力
icon
搜索文档
“见人下菜”!AI大模型的“分裂难题”
华尔街见闻· 2025-12-04 13:43
文章核心观点 - 当前人工智能大模型存在“分裂大脑”问题 即模型对同一问题的不同表述方式会给出质量天差地别的答案 暴露了AI对提问方式过度敏感的根本局限[1] - 该问题揭示了AI模型并未真正理解世界运作方式 缺乏泛化能力 可能无法处理训练材料之外的任务 这与投资者投入数百亿美元期望其在专业领域取得突破的愿景存在差距[2][4] 技术困境与表现 - “分裂大脑”问题表现为 模型若判断用户提问为“高级”或“聪明”问题 会给出高质量答案 若判断为“简单”或“愚蠢”问题 答案质量会相应下降[1][4] - 问题具体场景包括 同样的数学问题用正式证明语言提问能正确作答 而用随意的口语化表达则可能牺牲准确性以换取格式美观或表情符号[1] - 即使是使用破折号还是冒号这类本应无关紧要的格式差异 也可能影响模型回答的质量[3] 问题成因与训练困境 - 该问题通常出现在模型训练的后期阶段 当模型为学习特定领域知识或改善对话风格而接受精选数据训练时[1][2] - 训练过程可能无意中教会模型根据它认为自己遇到的场景来区别对待提问 例如区分具体的数学问题还是更宽泛的一般性问题[2][3] - 修复模型对某些问题的错误答案 可能导致它对其他问题给出错误回答 开发过程类似“打地鼠”游戏[2] 行业影响与投入 - 投资者正向OpenAI和Anthropic等实验室投入数百亿美元 目标是训练出能在医学和数学等领域做出新发现的模型[2][4] - 为确保模型在专业领域表现可靠 AI开发商正在向数学、编程、法律等领域的专家支付数十亿美元以生成训练数据[4] - 当前AI的表现与人们期待其自动化各行业工作、克服人类缺陷的初衷存在落差[2]
算力悖论:理论对了所需算力是可控的,理论错了再多算力也白搭
36氪· 2025-12-01 08:25
文章核心观点 - 当前人工智能行业依赖堆算力、拼规模的Scaling发展模式已走到尽头,方向存在根本性错误 [1][3] - 行业竞争将回归“真正的研究”,理论突破比算力预算更重要,范式转变即将发生 [1][5][10] - 谷歌在大模型领域的进展印证了新理论,预示“软硬一体”公司竞争模型将成为人工智能公司的必由之路 [2] Scaling时代的终结 - Scaling战略的确定性吸引海量投资,但高质量训练数据已快见底,收益递减拐点已来临 [3] - 现有路径能再走一段但后劲不足,不会成为真正的智能,需要另一种方法 [3] - 理论正确时所需算力可控,理论错误时再多算力也无效,形成算力悖论 [5] 模型泛化能力的根本缺陷 - 当前模型在基准测试风光但真实场景频繁失败,暴露出泛化能力远逊人类的根本问题 [6] - 模型像偏执的专才,在狭窄领域过度优化却丧失广泛能力,与人类快速学习、广泛适应的智能模式不同 [7][8] - 理解可靠泛化机制是核心未解之谜,修复底层机制可解决许多表面问题包括AI对齐 [8] 研究优先的新算法与公司策略 - 前沿实验室开支被推理基础设施、产品工程等多方分散,真正留给研究的预算差距缩小 [9] - 历史范式突破如AlexNet、Transformer均不需要最大算力规模而依靠洞察力 [10] - SSI公司结构体现纯粹研究理念:无产品、无推理负载,30亿美元融资专注验证泛化理论 [10] 对AGI概念的重新思考与未来预测 - AGI概念被高估,人类本身也不是AGI,智能是通过经验学习具体技能而非一次性前置灌输 [12] - 具备类人泛化能力的学习系统将在5到20年内出现,行业行为将改变,安全合作与政府介入将加深 [13] - 对齐目标倾向关心所有感知生命,这比只关心人类更自然,基于大脑共情神经机制的效率原则 [13] 研究品味与行业范式回归 - 有希望的研究方向通常优美、简洁且从生物智能获得灵感,丑陋方法通常预示问题 [14] - 研究依赖对“某些路径必然有效”的强烈信念,这种信仰是任何规模算力都无法替代的 [14][15] - Scaling为研究信仰提供的替代品已消失,行业将回归由想法驱动、充满不确定性的研究本身 [15]
离开OpenAI后,苏茨克维1.5小时长谈:AGI最快5年实现
36氪· 2025-11-27 13:43
当前AI发展阶段的评估 - AI技术已实现但经济影响尚不显著,投资巨大但日常体验未发生根本改变[3] - 模型在评估测试中表现出色但实际应用效果和经济贡献存在明显滞后[4] - 模型能力存在"锯齿状"落差,常犯循环性低级错误,泛化能力差[5][6] AI模型训练与性能瓶颈 - 单纯堆数据与算力的"规模化"路径已见顶,预训练数据即将耗尽[5][17] - 强化学习训练使模型过于专注和狭隘,缺乏"意识"导致基础任务表现不佳[4] - 训练环境设计变量过多,可能无意中优化评估目标而忽视实际应用需求[6] - 模型像"应试专家",通过海量题目填鸭式训练成为答题高手但难以灵活应用知识[7] 价值函数与AI学习效率 - 价值函数被类比为AI的"情绪系统",可引导AI更高效、鲁棒地学习[5][14] - 价值函数能提供中间步骤反馈,加快学习过程,而非仅依赖最终结果评估[14] - 人类拥有内在价值感知,能快速自我纠正,而模型缺乏此类机制[25] - 情绪作为相对简单的价值函数机制,在进化中硬编码且至今有效服务人类[16] 行业发展阶段与范式转变 - 行业从2020-2025年的"规模化时代"回归到"研究时代",但拥有更强大计算资源[18] - 规模化"吸走了房间里的所有氧气",导致创新想法稀缺,公司数量远超新想法数量[28] - 强化学习正成为新的规模化目标,其计算投入可能已超过预训练[19] - 研究所需计算资源并非绝对最大规模,像Transformer最初仅在8-64个GPU上训练[29] SSI公司战略与差异化 - SSI已筹集30亿美元资金,专注于研究"直通超级智能"路径[5][30] - 公司不急于商业化,专注研究,与其他公司将资源用于推理和产品开发形成对比[30][32] - 采用不同的技术方法,主要区别在于技术路径,认为最终策略会逐渐收敛[52][53] - 计划可能调整,考虑渐进式部署,让AI在全球发挥作用并影响世界[33][34] 泛化能力与样本效率 - 模型泛化能力远差于人类,是当前最根本的问题之一[20][21] - 人类样本效率高可能与进化赋予的视觉、听觉和运动等先验知识有关[21][22] - 人类在语言、数学和编程领域的学习优势表明存在更高效的基础学习机制[23] - 人类学习更具无监督特性,所需数据样本少,过程更灵活和鲁棒[24][25] 超级智能发展路径与影响 - 人类级别AGI预计在5到20年内实现[5][55] - 超级智能可能表现为"超级智能的15岁少年",非常聪明但知识有限,通过部署持续学习[36] - 达到关键点后,广泛部署将引发快速经济增长,不同国家政策将导致增长差异[37][38] - 可能出现多个超级智能体,而非单一系统,形成专业化分工[58][59] AI对齐与安全策略 - 倡导构建"关心有情生命的AI",认为这比对仅关心人类更为稳健[41][45] - 随着AI能力提升,行业处理安全问题的方式将发生变化,公司会变得更加警觉[40][41] - 对齐策略最终会趋同,包括可靠沟通、确保最早超级智能是对齐的等目标[53][57] - 长期均衡可能通过人类与AI融合实现,例如通过改进版Neuralink成为半AI生物[47] 模型多样化与自我博弈 - 当前模型同质化严重,主要因预训练数据相似,强化学习是分化开始[61][62] - 自我博弈可通过计算而非数据创建模型,激励方法多样性[62][63] - 智能体间竞争自然促使差异化思考,是打破"模型同质化"的路径之一[5][63] - 完全复制相同思维收益递减,真正需要的是具有不同想法的智能体[60] 研究方法与理念 - 好研究应兼具简洁、优雅与对大脑机制的正确借鉴[5][64] - 研究需要"自上而下的信念",在实验结果与信念相悖时坚持方向[66] - AI应该具有特定"美学",思考人类本质但必须以正确方式理解[64] - 分布式表示、从经验中学习等概念受到大脑运作方式的启发[65]