StarPO - 财报，业绩电话会，研报，新闻

StarPO

搜索文档

AI 智能体老“崩”？DeepSeek 前员工联手李飞飞等大佬开源新框架，教会模型真正推理

AI前线· 2025-04-24 11:03

AI智能体发展现状 - 2025年被视为"AI智能体元年"，但目前64.2%的企业AI智能体仍处于试点阶段，仅6.4%表现超出预期[1][2] - 行业普遍面临智能体从实验室到规模化应用的过渡难题，24.8%的企业反馈现有方案需高投入[2] RAGEN系统技术突破 - 由王子涵团队开发的RAGEN系统采用StarPO强化学习框架，通过"状态-思维-动作-奖励"策略优化实现多轮交互训练[5][7] - 系统创新性地引入两阶段训练：rollout阶段生成完整交互序列，update阶段基于归一化奖励更新参数[7] - 使用阿里巴巴Qwen系列开源模型作为基础，确保实验可复现性并支持符号任务对比[9] 训练稳定性解决方案 - 发现"回声陷阱"现象：模型在训练后期倾向于复制高奖励回答导致推理能力退化[12] - StarPO-S框架新增三项机制：基于不确定性的rollout筛选、移除KL惩罚项、非对称PPO剪裁，使训练崩溃率显著降低[19] - 在Bandit/Sokoban/Frozen Lake三个测试环境中验证，奖励水平平均提升30%以上[17][19] 企业应用挑战 - 任务多样性、交互粒度和rollout新鲜度被确认为影响训练效果的三大关键因素[22] - 当前奖励机制存在"重结果轻过程"缺陷，需优化奖励设计逻辑以维持长期推理能力[23][24] - 符号类任务到真实业务场景的迁移仍存挑战，如发票处理等场景需重新设计环境[24] 开源生态建设 - RAGEN系统及StarPO/StarPO-S框架已在GitHub开源，采用MIT协议[10][14] - 项目获得微软、斯坦福等机构支持，技术路线可能重塑大模型训练范式[2][9]

AI 智能体老“崩”？DeepSeek 前员工联手李飞飞等大佬开源新框架，教会模型真正推理

AI前线· 2025-04-24 11:03

AI智能体发展现状 - 2025年被普遍认为是"AI智能体元年"，基于大语言模型（如OpenAI、Anthropic、Google、DeepSeek）的智能体系统将专注于特定任务[2] - 当前64.2%的企业AI智能体仍处于试点阶段（"pilot purgatory"），仅4.6%接近规模化应用[3][4] - 行业面临核心挑战：强化学习训练易崩溃，模型易陷入重复输出相似内容的"回声陷阱"现象[18][19] RAGEN系统技术突破 - 由李飞飞团队联合西北大学、微软等机构开发，聚焦提升AI在企业应用中的稳定性和可靠性[5] - 采用StarPO强化学习框架，通过"状态-思维-动作-奖励"策略优化，强调完整决策路径训练而非单次回答优化[11] - 开源框架包含三项创新机制：优先选择模型"犹豫"的交互序列、移除KL惩罚项、非对称PPO剪裁，显著提升训练稳定性[27][28][29][30] - 实验基于阿里巴巴Qwen系列开源模型（1.5/2.5版本），确保结果可复现性[14] 测试环境与评估方法 - 设计三类符号化测试环境：Bandit（风险收益推理）、Sokoban（规划能力）、Frozen Lake（适应性思考）[23] - Bandit任务要求模型通过类比推理（如将"龙"关联力量、"凤凰"关联希望）预测奖励分布，而非依赖直接概率数据[25][26] - 测试环境剥离现实先验知识干扰，纯粹评估训练所得策略的有效性[24] 企业应用现实挑战 - 训练效果三大关键因素：情境多样性、交互粒度（支持多动作/轮）、rollout新鲜度（数据与当前策略同步）[33][34] - 当前奖励机制缺陷：过度关注结果正确性而忽视推理过程质量，导致多轮任务中推理能力退化[36][38] - 技术局限性：长任务场景仍可能崩溃，符号类问题解决方案向真实业务（如发票处理）迁移存在不确定性[40] 行业影响与开源生态 - RAGEN标志着向"具备自主推理能力智能体"迈进，重构大模型训练边界认知[41] - 项目采用MIT协议开源，GitHub已获1.4k星、102分支，主要代码为Python（88.7%）和Shell（11.3%）[16][17] - 核心开发者王子涵（前DeepSeek研究员）专注大语言模型自主性与长文本理解，曾参与DeepSeek-V2项目[6]

Artificial Intelligence

强化学习

AI 智能体

Artificial Intelligence

StarPO

StarPO - S

Artificial Intelligence

强化学习

AI 智能体

Artificial Intelligence

StarPO

StarPO - S