Workflow
SRPO
icon
搜索文档
坚持人工智能自立自强!科创板人工智能ETF(588930)连续2个交易日获得资金净流入
每日经济新闻· 2025-05-08 10:30
政策与产业动态 - 国内4月重要会议强调发挥新型举国体制优势推动人工智能向有益、安全、公平方向发展 [1] - 国产人工智能大模型通过开源开放打破西方技术垄断形成覆盖"数据—算力—模型—应用"的全链条产业生态 [1] 市场表现 - 5月8日A股AI算力题材调整但科创板人工智能指数成份股中有方科技涨超17%安恒信息、石头科技涨超1% [1] - 科创板人工智能ETF(588930)当日成交额突破2700万元 [1] 指数与成分股 - 科创板人工智能ETF跟踪的指数布局30只科创板AI龙头覆盖算力、大模型云计算、机器人等应用聚焦电子、计算机等五大行业 [1] - 前五大成分股合计权重47%显示较高AI主题纯度和弹性 [1] 行业分析 - AI板块投资价值在于引领技术革命尤其在算力、算法和应用生态三方面推进力显著 [2] - 算力基础设施建设包括硬件升级如英伟达合作生产5000亿美元AI设施及软件优化如快手SRPO算法提升训练效率 [2] - 算法突破体现在字节跳动豆包1.5模型和文生图3.0模型可应用于影视、电商等多场景 [2] 相关产品 - 科创板人工智能ETF(588930)为跟踪AI产业链的指数产品 [3]
港股异动 | 快手-W(01024)涨超3% 快手Kwaipilot团队全面复现DeepSeek-R1-Zero数学代码能力
智通财经网· 2025-04-25 10:50
股价表现 - 快手-W(01024)股价上涨2 48%至51 7港元 成交额达6 42亿港元 [1] 技术创新 - 快手Kwaipilot团队发布全新大模型训练方法SRPO并宣布开源 [1] - SRPO仅需GRPO 1/10的训练成本 在数学与代码双领域基准测试中实现性能突破 [1] - SRPO在AIME2024得分50 LiveCodeBench得分41 6 成为业界首个在两大专业领域同时复现DeepSeek-R1-Zero的方法 [1] 技术细节 - SRPO采用两阶段历史重采样策略优化(two-Staged history-Resampling Policy Optimization)框架 [1] - 使用与DeepSeek相同的基础模型(Qwen2 5-32B)和纯粹的强化学习训练 [2] - SRPO在AIME24和LiveCodeBench基准测试中超越DeepSeek-R1-Zero-32B表现 [2] - SRPO仅需R1-Zero十分之一的训练步数达到同等水平 [2]
快手Kwaipilot团队全面复现DeepSeek-R1-Zero数学代码能力,训练步数仅需其1/10
智通财经网· 2025-04-24 12:52
快手 Kwaipilot 团队在最新研究成果《SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM》中提出了一种创新的强化学习框架 —— 两阶段历史重采样策略优化 (two-Staged history-Resampling Policy Optimization ,SRPO),这是业界首个同时在数学和代码两个领 域复现 DeepSeek-R1-Zero 性能的方法。通过使用与 DeepSeek 相同的基础模型 (Qwen2.5-32B) 和纯粹的 强化学习训练,SRPO 成功在 AIME24 和 LiveCodeBench 基准测试中取得了优异成绩(AIME24 = 50、 LiveCodeBench = 41.6),超越了 DeepSeek-R1-Zero-32B 的表现。更值得注意的是,SRPO 仅需 R1-Zero 十分之一的训练步数就达到了这一水平。 技术报告中,快手Kwaipilot团队实现了一种两阶段训练范式,有效解决数学和代码之间内在的响应长度 冲突问题。实验表明,两阶段训练在数学和编程 ...