Workflow
开源智能
icon
搜索文档
计算机行业点评报告:Kimi:Researcher、K2双线突破,强化学习革新与开源智能的双擎驱动
华鑫证券· 2025-07-21 21:34
报告行业投资评级 - 推荐(维持) [2] 报告的核心观点 - 聚焦AI与计算机行业龙头,把握技术迭代与生态整合机遇,关注具备核心创新能力的领军企业,布局长期结构性增长机会 [9] - 科技巨头在AI及云计算领域的行业地位有望助力其未来发展,可继续关注谷歌(GOOGL.0)和微软(MSFT.0) [9] 根据相关目录分别进行总结 Kimi - Researcher:端到端强化学习代理的突破性飞跃 - 2025年6月20日,Moonshot AI发布Kimi - Researcher,通过纯强化学习框架突破传统工作流/SFT限制,支持单轨迹70 +次搜索调用与50轮以上长程推理,动态适应工具波动与环境变化 [5] - 其性能在权威测试中全面领先,Humanity's Last Exam Pass@1达26.9%,创领域新高;xbench - DeepSearch Pass@1达69%,显著超越同期模型 [5] Kimi K2:代理智能普惠化进程的关键引擎 - 2025年7月11日,Moonshot AI发布Kimi K2模型,开源基础架构与指令调优版本,实现代理智能技术普惠化 [6] - 该模型采用MuonClip优化器突破训练稳定性瓶颈,支持16K上下文长度的复杂任务处理 [6] - 在关键基准测试中,SWE - bench Verified以65.8% Pass@1刷新开源模型记录,LiveCodeBench v6达53.7% Pass@1,显著提升工具协同与代码生成能力 [6] - 同步开放的API工具调用接口为开发者提供低门槛智能体开发支持,加速工业级AI代理落地进程 [6] kimi:技术创新与商业生态协同深化 - Moonshot AI通过Kimi系列技术持续突破,2025年6月Kimi - Researcher展现冲突信息自纠正能力,强化复杂环境下的推理鲁棒性 [7] - 7月Kimi K2的MuonClip优化器实现15.5T token训练零中断,攻克大模型稳定性瓶颈 [8] - 商业化端加速生态构建,API工具接口支持开发者快速集成多工具链,赋能工业级应用 [8] - Kimi K2在Tau2 retail任务以70.6% Pass@1在开源大模型中处于领先,AceBench达76.5%,验证多领域任务可靠性 [8] 市场表现 - 计算机(申万)近1个月表现为12.1,近3个月为10.3,近12个月为60.5;沪深300近1个月表现为5.5,近3个月为7.2,近12个月为14.7 [2]
开源Agent新标杆:通义WebSailor多榜夺魁,挑战OpenAI高难度Agent基准BrowseComp
机器之心· 2025-07-07 15:50
背景与问题 - 传统搜索引擎难以满足深层次、多步骤信息获取需求,触及人类认知极限[2] - 开源Web Agent在极端复杂任务上表现不佳,BrowseComp-en基准准确率几乎为零[2] - 闭源系统如DeepResearch已实现"超人类"水平,开源模型存在显著差距[2] - 复杂任务需要多步推理和整合分散线索,如HBO剧集音乐创作者溯源案例[3] 技术创新 数据构造 - 构建SailorFog-QA数据集,包含Level-3高不确定性任务(非线性知识网络、模糊化信息)[8][12] - 通过维基数据选取模糊实体,随机扩展生成复杂知识图谱[12] - 信息模糊化处理(时间、地点、定量数据)提升任务难度[12] - 数据复杂度验证:工具调用呈长尾分布,20%样本需超5次交互[24] 训练方法 - 推理轨迹重构:保留LRM的Action-Observation序列,反向生成简洁推理过程[16] - 两阶段训练:RFT冷启动(数千条高质量轨迹)+ DUPO强化学习[17] - DUPO算法效率提升:训练速度比DAPO快2-3倍,采用动态样本复制策略[18] - 复合奖励机制:同时评估格式规范性与答案准确性[17] 性能表现 - WebSailor-72B在BrowseComp-en准确率达12%,超越所有开源模型[20] - WebSailor-7B以6.7%准确率超过32B规模竞品,验证训练范式优势[21] - 四大基准全面领先:BrowseComp-zh(30.1%)、Xbench-DeepSearch(55%)、GAIA(55.4%)[20] - 简单任务兼容性:在SimpleQA子集上超越直接推理和其他Agent方法[22] 行业意义 - 证明性能提升关键在训练范式革新,非单纯模型规模[27] - 提供通用蓝图:高难度任务合成→精炼逻辑监督→高效强化学习[27] - 推动AI从模仿人类转向构建极限挑战任务[27] - 未来方向:异步强化学习、多模态整合、跨领域综合任务[28]