Workflow
终身学习系统
icon
搜索文档
对谈 Pokee CEO 朱哲清:RL-native 的 Agent 系统应该长什么样?|Best Minds
海外独角兽· 2025-08-01 20:04
如果说 ChatGPT 的崛起验证了语言理解模型的通用性,那么 Agent 的下一个关键跃迁,则是将语言能力转化为具备规划、执行 和自我优化能力的通用智能体。这一跃迁的核心,不在于更大的模型,而在于是否具备多步决策、目标导向、持续学习和高效 探索的能力。 Pokee 正在尝试给出一种答案:它不是在用 LLM 套壳实现 tool calling,而是从底层架构就以 RL 为核心,围绕 goal evaluation、 self-training 和 memory retrieval 等能力做了系统性设计。其训练方式不再依赖大规模预训练,而是以"少样本高目标密度"的方式 自我成长,显著降低了推理成本,提升了泛化能力。在已上线的 beta 产品中,用户高频调用上万次,体现了其 agentic workflow 的真实落地能力。 我们与 Pokee 创始人 Bill 进行了深入访谈,围绕"如何构建一个真正的 RL-native Agent"展开探讨: • 为什么 Pre-training 并不能带来真正的 reasoning,RL 是多步规划能力的唯一路径; • 为什么他们不押注 C 端变现,而在服务 Google ...