Workflow
Scale Agentic RL
icon
搜索文档
Z Potentials|26岁连续创业者陈锴杰:Scale Agentic RL开启模型下半场,但决胜点在于产品Taste
Z Potentials· 2025-12-11 11:28
文章核心观点 - 马卡龙是一款定位于“个人生活助理”的AI产品,其核心愿景是让AI进入并改善用户的真实生活,通过创建和使用个性化“小应用”来串联和解决用户割裂的生活需求,并强调产品应具备动态、有生命力和主动性的“朋友”特质,而非冰冷的工具 [2][4][12][17] - 公司认为AI模型智能提升的下半场核心路径在于规模化智能体强化学习,并在此技术方向进行了重点投入,已实现将万亿参数模型的强化学习训练成本压缩至原来的十分之一 [9][30][31][35] - 面对潜在竞争,公司认为其核心壁垒在于极致的“产品品味”和独特的“朋友式”交互体验,这种在细节中形成的用户心智锚点使其能与ChatGPT等通用助手并存,而非被替代 [9][41][43] 创始人背景与创业历程 - 创始人陈锴杰年仅26岁,已有三次创业经历:第一次在大二休学后创立家庭智能系统公司,年收入达千万人民币,后因ToB业务节奏慢、关系重而退出;第二次创业探索AI互动游戏;第三次在ChatGPT出现后,先后推出AI互动小说产品Midreal和生活助理产品马卡龙 [5][6][7][10] - 创业驱动力最初源于对校园生活成长速度的不满和新鲜感挑战,后续持续创业则是因为享受创业带来的个人综合能力成长 [11] - 产品理念的演变:从创造让用户“逃避现实”的沉浸式体验,转向创造能“改变现实”、解决实际生活问题的工具 [4][10] 马卡龙产品定位与特点 - **产品定义**:一个可以帮用户“制作属于你自己的小应用”的个人生活助理,旨在解决生活场景中数据割裂、应用臃肿的问题 [12][13] - **核心功能**:用户可通过对话,一句话生成服务于健康、运动、饮食、出行、预算管理等生活场景的小应用,所有创建的小应用都会成为AI的长期记忆,使其越用越懂用户 [4][12] - **设计理念**:追求三个关键词——Dynamic(价值交付方式动态多元,不限于文字)、Vibrant(产品有生命力、有记忆)、Proactive(像朋友一样主动关心和提供帮助) [9][21][22] - **与竞品差异**:定位为“朋友”而非“助理”,追求更贴心、更主动的交互体验,例如任务完成后会主动通知,而非让用户自行查找历史记录 [17][42] 用户画像与市场切入点 - **用户演变**:早期用户为开发者和产品经理,用于测试边界;当前核心用户已转向海外“新女性”群体,年龄在大学毕业至40岁左右,面临家庭、职场等多重压力,既需要情绪安慰也需要实际问题解决能力 [19] - **用户案例**:包括为父母创建体检应用、为管理财务创建省钱应用、创建家庭写真转换器改善家庭关系、心理咨询师创建日记系统等,体现了产品提供真实生活帮助的价值 [20][24] - **市场机会**:观察到AI能力在工作场景已快速覆盖,但在生活侧仍存在巨大空白,同时技术已成熟到可编写完整后端代码,支撑小应用开发 [16] 运营数据与产品指标 - **用户规模**:产品已拥有约30万用户 [9][26] - **小应用生态**:社区中已诞生近20万个小应用 [9][26] - **关键指标**:目前最关注小应用的创建率,新用户中约有30%会创建自己的应用;但长期目标是降低创建率,提升小应用的分享、复制和自动调用率,实现从“创建交付价值”到“使用交付价值”的转变 [9][26][28] - **用户粘性**:社区深度用户每天约有3到5次真实使用 [9] 技术架构与核心优势 - **技术核心**:以规模化智能体强化学习为核心,认为这是提升模型智能的关键路径,预训练已接近极限 [9][31][35] - **技术成果**:公司是全球除Thinking Machines外,唯一进行万亿参数大模型LoRA强化学习的团队,通过算法组合已将1万亿参数级模型的强化学习训练成本压缩到原来的十分之一 [30][31] - **模拟环境**:构建了复杂的模拟训练环境,可像“时间机器”一样回放用户交互过程,用不同策略重跑任务以生成训练数据,这是训练的关键难点 [33] - **记忆管理**:开发了创新的记忆管理方法,将整个记忆轨迹视为记忆本身,并通过智能遗忘过程管理,在Locomo基准测试上取得了93%的SOTA准确率 [32] 竞争策略与发展规划 - **竞争观**:认为与ChatGPT等通用助手是并存关系,而非零和替代,核心壁垒在于独特的“产品品味”和“朋友式”交互体验形成的用户心智 [9][41][43] - **先发优势**:体现在更快的用户反馈循环、更深的场景思考以及积累的用户数据,使得团队能持续快速迭代并“跳步”发展 [44] - **GTM与品牌**:早期通过创始人“Build in Public”来建立用户情感连接,因为AI产品迭代快,将注意力留在创始人身上比留在具体产品版本上更稳定 [45] - **商业模式探索**:未来可能的方向包括:对小应用交易进行抽成;或通过与生活场景深度结合的支付服务变现 [45] - **长期愿景**:持续围绕Personal Agent演进,坚持Dynamic、Vibrant、Proactive的方向,目标是达到1亿日活跃用户 [39][46]