Workflow
氛围研究
icon
搜索文档
OpenAI两位首席最新采访信息量好大,终极目标是“自动化研究员”,招人并非寻找“最出圈”的人
36氪· 2025-09-26 20:15
文章核心观点 - OpenAI高管阐述了公司未来战略,核心是将GPT-5作为推动推理能力和Agentic行为成为主流的关键一步,并致力于实现“自动化研究员”的长期目标 [6][13][25] - 公司认为现有模型评估指标正趋近饱和,未来将重点关注模型在科学发现和经济相关领域取得实际进展的能力 [8][13][15] - 强化学习被强调为远未达到瓶颈的关键技术,其与语言模型的结合是重要突破点,公司预计相关工具和方法论将持续快速迭代 [16][17] 技术发展路线图 - GPT-5是公司策略重心转向默认提供推理和更多Agentic行为的重要标志,旨在整合此前GPT系列(即时响应)和o系列(推理)的不同模式 [6][7] - 未来技术发展的一个关键衡量指标是模型进行有效推理和取得进展的时间跨度,当前水平为1~5小时,公司下一步将专注于延长此时间跨度,提升模型的长期规划能力和记忆保持 [13][15] - 编程模型已取得显著进步,从解决八年级数学问题到在编码竞赛中达到人类水平仅用约一年时间,改变了默认的编码方式,下一代方向可能是“氛围研究” [19][21] 研究与评估方法演进 - 公司承认过去依赖的评估体系已接近饱和,早期通过大规模预训练评估泛化能力,现在则通过针对严肃推理的强化学习培养领域专家,但缺乏更合适的评估体系 [8] - 未来评估将不再局限于传统基准测试,而是转向模型能否发现新事物以及在具有经济相关性的领域取得实际进展 [8][13] - 编程竞赛被视为一个良好的封装测试环境,可用于衡量模型在受限环境和时间范围内提出新想法的能力 [18] 公司文化与人才策略 - 公司招人并非寻找“最出圈”或社交媒体上最引人注目的人,而是青睐那些具备坚持不懈特质、曾解决过难题、有扎实技术功底并愿意迎难而上的人才 [23][24] - 研究文化强调对假设保持清晰、对进展保持极度诚实,并保护基础研究不被短期产品竞争的节奏带偏,为研究员提供思考未来一两年重大问题的空间 [23][25] - 成功的秘诀在于专注于基础研究而非简单模仿竞争对手,公司通过清晰的研究目标和创新氛围来吸引和留住人才 [23] 资源分配与核心约束 - 若有10%的额外资源,公司明确会投向计算资源,认为计算仍是当前的决定性约束因素,而非数据或人员 [26][27] - 公司处于强烈的计算限制下,其研究路线主要基于长期信念而非短期市场反馈,并需考虑能源等物理约束 [27][28] - 公司预测机器人技术会在不久的将来成为主要焦点 [28]
OpenAI两位首席最新采访信息量好大!终极目标是“自动化研究员”,招人并非寻找“最出圈”的人
量子位· 2025-09-26 12:56
GPT-5的战略定位与能力演进 - 公司试图将推理能力带入主流,GPT-5是朝着默认提供推理和更多Agentic行为迈出的一步[7][8][9] - 公司策略重心是让用户无需在即时响应模型和推理模型之间选择,未来将聚焦于增加推理和Agents能力[8] - 相比o3等先前模型,GPT-5在多方面有改进,但其主要意义在于将推理模式带给更多用户[10] 模型评估体系的演变与未来方向 - 过去依赖大规模预训练的评估方法已非常接近饱和,早期通过评估测试模型泛化能力,如今针对严肃推理的强化学习使模型能在特定领域成为专家,但泛化性可能不足[12] - 未来将重点关注模型是否能够发现新事物,并在具有经济相关性的领域取得实际进展[13] - 对衡量模型自主运行时间长度的评估很感兴趣,当前推理水平达1~5小时,未来将专注于延长该时间跨度,提升长期规划与记忆能力[23][24][25] 强化学习(RL)的发展现状与前景 - 强化学习是一种通用且强大的方法,建立在深度学习的通用学习方法之上,其发展远未达到瓶颈[27][28] - 奖励模型的发展速度预计会非常快,未来会变得更简单,公司正逐步向更接近人类学习的方向迈进[29][30] - 理解强化学习的关键思维模式是不要将当下状态视为终局,需保持灵活,因工具和方法论将持续快速迭代[31] AI编程的进展与影响 - 新一代编程模型投入大量精力调整预设,以匹配程序员对解决方案等待时长的预期,解决了上一代模型在困难问题上耗时过少、简单问题上耗时过多的问题[33][34] - 编程竞赛提供了封装的测试环境,可衡量模型在受限环境和时间内提出新想法的能力[36] - 模型进步已改变编码默认方式,新一代认为“凭感觉编码”是常态,公司首要任务是使编码工具摆脱“恐怖谷”体验,达到如同事般好用的水平[37][41][42] 自动化研究员的长远目标与衡量标准 - 公司的一个宏大目标是培养自动化研究员,使其能自动发现新想法,计划先自动化内部研究工作,再扩展至其他科学领域[20][21] - 衡量该进展的“好方法”是观察模型可进行推理和取得进展的时间跨度[22] - 模型已能推动非常困难的前沿科学研究,自动化解决可能需要学生花费数月时间的工作,这被视为灵光一闪的时刻[15][16][17] 公司人才战略与研究文化 - 招聘并非寻找“最出圈”或社交媒体上最引人注目的人,而是青睐曾解决过难题、具备扎实技术功底并愿意迎难而上者,即使其原领域非深度学习[46][47] - 关键研究特质包括坚持不懈、对进展保持极度诚实、有清晰假设并知道何时调整方向,研究无捷径,需经验学会选择合适问题[44][45] - 团队文化强调保护基础研究,避免被短期产品竞争带偏,研究员需空间思考未来一两年的重大问题,公司优势在于专注基础研究而非模仿竞争对手[46][48] 资源分配与未来技术焦点 - 若有10%额外资源,将优先投入计算资源,因研究人员始终感觉算力不足,计算仍是决定性因素[49][50][51] - 研究路线基于长期信念而非短期市场反馈,需明确优先级以避免在所有方向都做第二名[51] - 除计算外,未来需考虑能源等物理约束,预测机器人技术将在不久的将来成为主要焦点[52]