锦秋被投企业Pokee AI 创始人朱哲清:一个强化学习信仰者的十年|Jinqiu Spotlight
锦秋集·2025-12-30 18:29

文章核心观点 - 强化学习技术路线正在回归,其价值在于让AI智能体具备在未知工作流中“边做边学”的主动探索能力,而非简单为大模型增加一层能力[5][6] - Pokee AI创始人朱哲清作为“非共识”创业者,押注强化学习这条“慢但正确”的路径,致力于构建具备卓越推理、规划与工具调用能力的新一代AI智能体[6][8][9] - 强化学习与大模型正形成结构性互补关系,是解决模型在偏离训练数据分布时决策能力的关键,指向通用人工智能的终极理想[13][24][36] 公司背景与融资情况 - Pokee AI于2025年7月完成1200万美元种子轮融资[6][14] - 锦秋基金于2024年参与了Pokee AI的融资,并在两周内完成了投资决策[6] - 公司创始人朱哲清为斯坦福大学博士,曾任Meta AI应用强化学习团队负责人,于2024年10月离开Meta创办Pokee AI[8][12] 强化学习的价值与挑战 - 强化学习的真正瓶颈在于环境:真实世界试错成本高、不可控,缺乏既复杂又允许反复失败的安全练兵场[10] - 强化学习是主动学习,通过与环境的交互和奖惩机制形成决策,类似于婴儿目标驱动的探索过程[16] - 2025年3月,强化学习奠基者理查德·萨顿获得图灵奖,被视为对该领域的正名[13] - 以DeepSeek-R1为代表的新一代推理模型,在技术报告中强调了强化学习在“复杂推理”和“长程规划”中的关键作用[13] 技术路径与行业洞察 - 大模型预训练存在能力上限,无法应对偏离原始数据分布的新组合,强化学习是提升模型“适应能力”的核心路径[22][24] - 行业主流曾认为模型足够大即可自动解决推理能力,但Pokee AI主张通过工具调用主动缩减模型处理复杂度,是更现实和高效的路径[25] - 随着模型长上下文能力爆发,RAG(检索增强生成)因造成20%到30%的信息损耗而被视为临时妥协,一体化模型效果更好[26] - 当前大多数工具是为人类设计,对AI不友好,导致调用时出现幻觉,缺乏AI原生工具是Agent落地的根源问题[29] - Pokee AI采用“混合路线”,保留Transformer架构作为基础,在后训练阶段通过强化学习构建决策与环境适应能力[34] 公司实践与商业案例 - 在Meta期间,朱哲清通过精简项目、聚焦核心落地,带领团队开发生产级强化学习平台Pearl,成功应用于广告预算调控,用业务指标为强化学习赢得认可[20][21] - 该方案未激进替换传统的PID控制器,而是引入元策略框架,让强化学习训练关键参数,在模拟环境验证后,于真实测试中带来转化指标明显提升[20] - Pokee AI在创业过程中踩过诸多技术坑,例如发现开源社区中99%的MCP工具接口不可用,仅为赚吆喝而缺乏维护[29] - 公司正尝试对现有工具进行二次封装,使其对模型更友好,并结合强化学习让智能体在任务中端到端探索最优工具组合[29] 创始人理念与愿景 - 创始人朱哲清在过去十年专注于“如何让机器更聪明地学习”,其选择是缓慢而坚定的策略更新,不追逐短期回报,逼近“第一性原理”[8] - 其坚信强化学习是通向通用人工智能的道路,并以此作为公司的核心信仰[34][36] - 公司不仅是追求商业成功,更是验证“智能终极理想”的实验室[35]