Z Tech｜清华吴翼：离开OpenAI，我有后悔过吗？

OpenAI早期文化与发展历程 - OpenAI在2018年时被业界视为非常非主流的“草台班子”，其团队构成与Google Brain、Facebook AI Research等由知名PhD组成的“全明星阵容”形成鲜明对比[2] - 早期OpenAI团队人员背景极其多样化，包括本科生、神经科学家、英语不流利的俄罗斯开源开发者和Unity游戏开发者，正儿八经的科班CS PhD较少[4] - 与同期其他研究机构不同，OpenAI最大的优势在于其统一的使命和极致的工程化能力，这帮助它将一群背景各异的人凝聚在一起并坚持下来[5] - 早期OpenAI的一些项目，如用AI玩Dota，在当时学术界看来是为了“学术PR”而做的“非主流”项目，并不被认为是一个顶级研究组织[3][4] 中美大模型产业现状与竞争策略 - 中国大部分大模型厂商都在进行模型蒸馏，这是一个比例很高的现象[15] - 蒸馏要做好并不容易，涉及资金、人才、算力以及如何获取用户反馈等多重挑战[15] - 国内厂商的明确目标是保持每一代模型都能在特定有价值的基准测试或能力上与世界最好的模型保持同等水平，只要不掉队即可[15] - 这是一个非常合理的短期生存策略，保持生存和持续迭代至关重要，就有机会实现赶超[17] - 美国头部企业（如Claude）能做好部分原因在于其拥有极强的用户反馈飞轮，例如几乎所有最高质量的AI编程用户数据都流向了Claude[15] - 在编程等领域，由于很多是后训练阶段的工作，通过蒸馏追赶相对更容易一些[15] - 但完全依赖蒸馏的观点不被赞同，公司依然需要一个合理的基础模型，基础模型不好，蒸馏效果也有限[16] - 后训练数据是难题，特别是在智能体编程场景下的任务拆分数据并不好获取[16] - 如果没有自己数据边界清晰的基础模型和良好的强化学习基础设施，后续的泛化工作会非常困难[16] AI技术发展趋势与研究方向 - 强化学习的范式尚未结束，与预训练一样，在架构和训练方式上仍有很大探索空间，例如多模态的引入[31] - 让强化学习继续扩大规模肯定有空间，当前智能体编程任务的训练成本虽重，但尚未到无法承受的地步[32] - 未来的范式转变可能从人类努力的角度考虑，从预训练到后训练，人类体力劳动的付出在持续降低数量级[33] - 训练AI如同培养运动员，后期人类提供的高质量、有价值的数据会越来越少，介入将变得更精细和微妙[34] - 多模态是一个“新大陆”，多模态甚至视频模型的预训练可能为机器人等领域带来全新可能性，并可能解锁新的能力[37] - 将生成和理解统一放到预训练阶段去做是一个新的技术可能性，谷歌大概率走通了这条路线[37] - 如果追求通用人工智能，那么继续深耕编程能力是关键；但如果多模态的新可能性走通，也一定会出现新的机会[37] 智能体与多智能体系统的应用前景 - 真正需要多智能体系统的情况主要有两种：一是大规模并行分布式处理任务；二是处理节奏不同的异步任务[23] - 随着长上下文大模型的出现，许多之前提出的多智能体场景已被证伪，因为一个能力强大的模型可以直接处理，无需拆分角色[24] - 在公司工作流中，强行拆分成多智能体并不被看好，一个集中式的超级智能AI进行后台决策更为合适，除非是特别关键的研究任务[24] - 像Claude Code辅助编程这类需要大量并行尝试和验证的工作，是天然适合多智能体（如智能体编排、集群）的场景[25] - 另一种场景是去中心化系统，例如为不同地点（家、公司、车）或不同功能（回微信、刷社交媒体、看新闻）部署独立的智能体[26] - 在这些需要相互隔离或执行不同功能的场景下，分布式、不同上下文的智能体才有意义[26] 强化学习的挑战与数据飞轮 - 强化学习面临的核心挑战之一是奖励信号不清晰，特别是在创意写作或现实案例等难以验证的领域[27] - 解决问题的底线是至少要能做到“人类可验证”，如果一个领域最专业的人都无法判断好坏，那可能就不存在科学解法[28] - 存在从“机器自动可验证”到“人类可验证”的谱系，可以通过人机协同反馈的模式来扩大可训练范围并降低成本[28] - 与推荐系统拥有天然的用户行为数据飞轮不同，强化学习的数据需要专家进行清洗和构造，本质上是“人在回路”的数据飞轮[29] - 直接从普通用户收集反馈信号（如代码补全接受度）噪声会很大，公司肯定会在后台进行数据清洗，而非纯粹的无脑在线强化学习[30] AI时代的企业组织形态 - 新兴的AI原生团队需要更少但更精英的人员，包袱小，迭代速度非常快，AI工具（如Claude Code）能大幅减少对基础代码维护人员的需求[19] - 这导致团队规模可以很小，从而自然避免了许多大团队常见的组织管理问题[19] - 对于老牌企业或传统企业的AI转型则更为复杂，可能演变为一种类似咨询的方式，需要自上而下地改变组织的评估和运作模式，这对领导层要求极高[20] - 像Meta、字节这样拥有强势且年富力强CEO的公司，可能通过自上而下的绩效和组织变革来实现转型[20] 学术界的定位与价值 - 在算力被大厂垄断的背景下，学术界的价值不在于复刻大厂的规模，而在于提供系统性的科学训练和从零构建系统的机会[21] - 学术界99%的工作可能最终没有直接商业价值，但这正是科学精神的体现，允许伟大的想法在自由环境中缓慢演化[22] - 学术界应致力于思考大厂不敢想的创意，去做那些有趣但看似无意义、甚至可能行不通的东西[22] - 伯克利AMPLab模式是成功的典范，孵化出了Databricks、AnyScale、vLLM、SGLang等改变行业的工具，学术界可以作为一个更安全的创新避风港，以前瞻性实验捕捉产业创新空隙[22][23] 对通用人工智能的看法 - 通用人工智能的定义是一个“移动的球门”，当前AI的能力（例如在经济性文职工作替代上已接近80%）其实已接近早期设定的目标，但公众的期望门槛被拉高了[35] - 目前AI在编程领域已取得巨大突破，但由于普通人不接触代码，导致存在巨大的感知差距，这本身是一个巨大的产品机会[36] - 衡量AI进步的一个具体标准是看其能否独立完成耗时数周的工作，如果能做到，那它必然具备自我进化和持续学习的能力[36]