Workflow
对谈 Pokee.ai 朱哲清:强化学习做核心,Agent 的少数派造法
晚点LatePost·2025-04-29 16:43

AI Agent技术路径 - 主流AI Agent以大语言模型(LLM)为核心大脑进行任务规划和工具调用[3] - Pokee.ai提出替代方案:强化学习模型负责任务规划执行,LLM仅作为人机交互界面[3][7] - LLM作为核心的局限:工具调用超过50个易产生幻觉,因上下文长度限制[7] - LLM方案成本高:多步交互单次消耗数百万Token,成本达几到几十美元[3] 强化学习方案优势 - 强化学习模型通过self-play训练掌握工具使用,已见过15000个工具[4][18] - 参数量更小:任务完成时间仅需几分钟,成本为同类产品的1/10[4][15] - 决策效率高:一次规划多步操作,避免LLM需反复扫描上下文的缺陷[10] - 思维模式差异:强化学习可能跳出人类思维框架,找到非传统解决方案[11][12] Pokee产品特性 - 直接调用平台数据接口:已打通Facebook/Google/Amazon等数千接口[15] - 开发新协议:简化工具调用流程,开发者只需声明输入输出和唤起方式[4][17] - 目标用户定位:先服务营销/运营等专业用户,再拓展企业客户[16][17] - 产品设计理念:最小化人工干预,支持全自动和分步确认两种模式[17] 市场竞争与行业趋势 - 预计未来一年将出现10家通用Agent公司,最终存活3-4家[19] - 强化学习技术复兴:DeepSeek R1模型验证了强化学习潜力[21] - 地域发展差异:北美开放生态更利于通用Agent发展,中国互联网较封闭[21] - 商业化路径:通过绑定用户工作流建立壁垒,技术优势需转化为使用习惯[17]