RL (Reinforcement Learning)
搜索文档
Ilya 离开 OpenAI 后的首期播客,久违地被人类智慧安慰到了 | 42章经
42章经· 2025-11-26 13:14
行业时代划分 - 2012至2020年为研究时代,行业尝试各种AI想法[5] - 2020至2025年为规模扩展时代,GPT-3出现后规模扩展成为共识并吸收所有资源[5] - 2025年开始行业重新进入研究时代,预训练的规模扩展法则因数据有限而失效,竞争焦点从GPU数量转向新算法发现[5] SSI公司战略 - 公司采用“Straight shot”战略,不发布中间产品,直接研发超级智能以避免市场竞争带来的妥协[3] - 对超级智能的定义更倾向于“超级学习者”,发布时类似“天才少年”,随后在社会各岗位快速实习进步[4] - 公司融资30亿美元,资金将全部投入纯粹研究实验,相较于大厂资金需用于服务用户推理和庞大团队,在研究层面具备竞争力[4] 技术研究方向 - 预训练红利结束后,价值函数成为下一步重点,旨在让模型具备直觉性中途判断能力以提升学习效率[6] - 坚信深度学习能力,只要信号存在深度学习就能学到[7] - 强化学习可能使模型变笨,因其在撤销预训练阶段形成的广泛概念印记,经过重度对齐的模型往往更缺乏创造力[7][8] - 行业传闻显示强化学习算力消耗已超过预训练,因需进行长推演且每次获得的有效学习信号很少[8] 智能与对齐的终极挑战 - 情绪被视为人类高效的压缩算法和终极价值函数,能帮助快速决策,而AI缺乏此类内在罗盘[10][11] - 实现超级智能对齐的关键可能是硬编码对有感生命的关爱,同理心是理解世界的高效捷径可能自然涌现[13][14][17][18] - 基于计算效率,复用理解自身痛苦的代码来模拟他人痛苦是最省资源的建模方式[17] - 进化能将“社会地位”等高级价值观对齐给人类,为将“关爱生命”硬编码进AI提供了可能性[19] 市场格局与行业影响 - 未来市场不会由单一公司垄断超级智能,竞争催生专业化,特定领域的高壁垒将形成类似自然界的生态平衡[22][23] - 行业流行词如“AGI”和“Scaling”会反向塑造研究方向,需警惕其可能限制探索其他可能性[20][21]