Workflow
港股异动 | 快手-W(01024)涨超3% 快手Kwaipilot团队全面复现DeepSeek-R1-Zero数学代码能力
01024快手-W(01024) 智通财经网·2025-04-25 10:50

股价表现 - 快手-W(01024)股价上涨2 48%至51 7港元 成交额达6 42亿港元 [1] 技术创新 - 快手Kwaipilot团队发布全新大模型训练方法SRPO并宣布开源 [1] - SRPO仅需GRPO 1/10的训练成本 在数学与代码双领域基准测试中实现性能突破 [1] - SRPO在AIME2024得分50 LiveCodeBench得分41 6 成为业界首个在两大专业领域同时复现DeepSeek-R1-Zero的方法 [1] 技术细节 - SRPO采用两阶段历史重采样策略优化(two-Staged history-Resampling Policy Optimization)框架 [1] - 使用与DeepSeek相同的基础模型(Qwen2 5-32B)和纯粹的强化学习训练 [2] - SRPO在AIME24和LiveCodeBench基准测试中超越DeepSeek-R1-Zero-32B表现 [2] - SRPO仅需R1-Zero十分之一的训练步数达到同等水平 [2]