Workflow
OpenAI两位首席最新采访信息量好大!终极目标是“自动化研究员”,招人并非寻找“最出圈”的人
量子位·2025-09-26 12:56

GPT-5的战略定位与能力演进 - 公司试图将推理能力带入主流,GPT-5是朝着默认提供推理和更多Agentic行为迈出的一步[7][8][9] - 公司策略重心是让用户无需在即时响应模型和推理模型之间选择,未来将聚焦于增加推理和Agents能力[8] - 相比o3等先前模型,GPT-5在多方面有改进,但其主要意义在于将推理模式带给更多用户[10] 模型评估体系的演变与未来方向 - 过去依赖大规模预训练的评估方法已非常接近饱和,早期通过评估测试模型泛化能力,如今针对严肃推理的强化学习使模型能在特定领域成为专家,但泛化性可能不足[12] - 未来将重点关注模型是否能够发现新事物,并在具有经济相关性的领域取得实际进展[13] - 对衡量模型自主运行时间长度的评估很感兴趣,当前推理水平达1~5小时,未来将专注于延长该时间跨度,提升长期规划与记忆能力[23][24][25] 强化学习(RL)的发展现状与前景 - 强化学习是一种通用且强大的方法,建立在深度学习的通用学习方法之上,其发展远未达到瓶颈[27][28] - 奖励模型的发展速度预计会非常快,未来会变得更简单,公司正逐步向更接近人类学习的方向迈进[29][30] - 理解强化学习的关键思维模式是不要将当下状态视为终局,需保持灵活,因工具和方法论将持续快速迭代[31] AI编程的进展与影响 - 新一代编程模型投入大量精力调整预设,以匹配程序员对解决方案等待时长的预期,解决了上一代模型在困难问题上耗时过少、简单问题上耗时过多的问题[33][34] - 编程竞赛提供了封装的测试环境,可衡量模型在受限环境和时间内提出新想法的能力[36] - 模型进步已改变编码默认方式,新一代认为“凭感觉编码”是常态,公司首要任务是使编码工具摆脱“恐怖谷”体验,达到如同事般好用的水平[37][41][42] 自动化研究员的长远目标与衡量标准 - 公司的一个宏大目标是培养自动化研究员,使其能自动发现新想法,计划先自动化内部研究工作,再扩展至其他科学领域[20][21] - 衡量该进展的“好方法”是观察模型可进行推理和取得进展的时间跨度[22] - 模型已能推动非常困难的前沿科学研究,自动化解决可能需要学生花费数月时间的工作,这被视为灵光一闪的时刻[15][16][17] 公司人才战略与研究文化 - 招聘并非寻找“最出圈”或社交媒体上最引人注目的人,而是青睐曾解决过难题、具备扎实技术功底并愿意迎难而上者,即使其原领域非深度学习[46][47] - 关键研究特质包括坚持不懈、对进展保持极度诚实、有清晰假设并知道何时调整方向,研究无捷径,需经验学会选择合适问题[44][45] - 团队文化强调保护基础研究,避免被短期产品竞争带偏,研究员需空间思考未来一两年的重大问题,公司优势在于专注基础研究而非模仿竞争对手[46][48] 资源分配与未来技术焦点 - 若有10%额外资源,将优先投入计算资源,因研究人员始终感觉算力不足,计算仍是决定性因素[49][50][51] - 研究路线基于长期信念而非短期市场反馈,需明确优先级以避免在所有方向都做第二名[51] - 除计算外,未来需考虑能源等物理约束,预测机器人技术将在不久的将来成为主要焦点[52]