Qwen3系列模型

搜索文档
数字经济双周报(202507第2期)-20250801
银河证券· 2025-08-01 18:37
美国AI战略 - 美国发布《美国AI行动计划》,包含90多项行政命令,旨在确立全球AI领导地位[5][6] - 计划三大支柱:加速创新(监管松绑)、构建基础设施(能源与基建)、主导全球秩序(技术输出与标准制定)[6][7] - 英伟达重启H20芯片对华销售,该芯片占中国AI芯片市场66%份额,腾讯/字节/阿里为前三大买家(占比29%/23%/13%)[9][11][25] 中国AI发展 - 中国发布《人工智能全球治理行动计划》,提出13项任务和6大治理原则,倡议成立世界人工智能合作组织[19] - 地方数据政策密集出台:江西目标2027年数据要素市场年均增长20%,北京经开区目标3年内数据产业规模突破500亿元[21] - 国产AI模型Qwen3系列性能超越Claude4等闭源模型,登顶全球最强开源推理模型[43] 全球AI基建竞赛 - Meta宣布数千亿美元AI数据中心投资计划[30] - 美国"宾州AI与能源计划"总投资超900亿美元,黑石/谷歌等企业参与[31] - 谷歌拟投资250亿美元在美国13州建设数据中心与AI基础设施[33] 国际监管动态 - 欧盟发布通用AI模型提供商指南,明确系统性风险模型评估义务[36] - 英国发布《批发金融市场数字化战略》,支持DLT/AI/量子技术重塑金融架构[37] - 英国投资20亿英镑扩大AI算力资源,目标2030年前提升20倍[38] 技术突破 - OpenAI和Google DeepMind在2025IMO数学竞赛中获金牌成绩,解决5/6难题[45] - 中国推出全球首个55自由度VLA大模型驱动的人形机器人星动L7[44]
数字经济双周报(202507第2期)-20250731
银河证券· 2025-07-31 18:00
全球AI政策与市场变化 - 美国发布AI行动计划,含90多项行政命令,旨在确立全球AI领导地位,输出技术、简化审批、促进创新等[5][6] - 中国发布《人工智能全球治理行动计划》,提出13项重点任务,倡议成立世界人工智能合作组织[19] - 欧盟发布通用人工智能模型提供商指南,英国发布金融数字化战略、AI算力投资计划并与OpenAI合作[36][37][38][39] 企业动态与投资计划 - 英伟达重启H20芯片对华销售,Meta宣布数千亿美元AI基础设施计划[25][30] - 谷歌拟投资250亿美元建设数据中心与AI基础设施,NSF联合Voltage Park启动人工智能试点项目[33][35] 加密市场监管进展 - 美国三项加密资产法案取得进展,标志加密资产监管进入新阶段,但实施仍需时日[27][28][29] 技术前沿突破 - 国产AI推理模型迭代,人形机器人商业化进程加快,AI解决最难数学题获金牌[43][44][45] 其他国家动态 - 加拿大比特币认可度提升,新加坡通过产学研合作推动量子应用[41][42] 中国地方政策与产业发展 - 江西等地出台数据相关政策,我国数据市场迈向新阶段,AI融合科研与产业[21][22][23] 智库观点 - 文章认为参议院删除“人工智能州级监管暂停令”对美国AI领导地位是重大打击,并澄清批评意见[46][47] 风险提示 - 面临技术封锁深化、产业生态割裂、AI基础设施代差、国际AI规则重塑等风险[9][13][16] 评级标准 - 行业和公司评级以报告发布日后6到12个月相对市场表现为标准,有推荐、中性、回避等评级[56] 报告声明 - 报告版权归银河证券所有,使用需授权,提醒公众慎重使用未经授权报告[54][55]
整个HuggingFace榜,已经被中国AI模型一统江湖了。
数字生命卡兹克· 2025-07-31 09:06
国产开源模型发展现状 - 国内AI公司近期密集开源大模型 MiniMax、Kimi、Qwen、混元、智谱、昆仑万维等均在近期推出开源模型 [1] - Hugging Face榜单前10名均为中国开源模型 智谱GLM-4 5登顶 Qwen占据5席 混元3D世界模型排名第3 [8][9] - 海外模型呈现涨价闭源趋势 与国内开源形成鲜明对比 [3][54] 主要公司开源动态 腾讯 - 6月27日开源混元A13B模型 总参数80B 激活参数13B [17][18] - 7月27日开源3D世界模型HunyuanWorld-1 业界首个开源可交互世界生成模型 当前排名第3 [43] 阿里 - 7月1日开源ThinkSound音频模型 实现视频画面专属音效匹配 [21] - 7月连续开源Qwen3系列模型 包括235B参数的A22B-Instruct(排名第10) 480B参数的Coder(排名第2)等 [37][38][39] - 7月28日开源Wan2 2视频生成模型 采用MoE架构 包含文生视频/图生视频等版本 排名第9 [45] 智谱AI - 7月2日开源GLM-4 1V-Thinking视觉理解模型 9B参数规模 [23] - 7月28日开源GLM-4 5系列 包括355B参数的A32B和106B参数的Air版本 登顶HF热榜 [47] 昆仑万维 - 7月4日开源Skywork-Reward-V2系列奖励模型 参数规模从6亿到80亿不等 [25][26] - 7月9日开源Skywork-R1V3多模态理解模型 基于InternVL-38B优化 [33][34] - 7月30日开源Skywork-UniPic-1 5B多模态统一模型 实现图像理解/生成/编辑 [52] 其他公司 - 百度6月30日开源ERNIE4 5 包含纯LLM和多模态版本 [20] - Kimi7月11日开源K2模型 20分钟下载量达12 2k 提升国内模型Coding能力信心 [36] - 上海AI实验室7月26日开源Intern-S1多模态模型 241B参数规模 [41] 行业趋势 - 国内开源模型呈现技术多元化 覆盖NLP 多模态 音频 视频 3D生成等领域 [21][43][45] - 参数规模覆盖全面 从1 5B到480B均有涉及 满足不同场景需求 [26][38][47] - 两年前中文开源模型仅有GLM独苗 当前已实现全球领先地位 [53][56]
估值超100亿,传宇树科技完成C轮融资,腾讯阿里吉利联投;AI智能体对话存在低俗擦边内容,涉事APP被依法约谈丨AI周报
创业邦· 2025-06-23 07:45
国内AI热点资讯 - 宇树科技完成C轮融资,投前估值超100亿元人民币,由中国移动、腾讯、阿里、蚂蚁、吉利等共同领投,老股东跟投,部分老股交易估值已超150亿元人民币 [3] - 蔚来否认芯片业务引入战略投资者的传闻,称该信息属于猜测性内容 [3] - 筑梦岛APP因AI智能体生成低俗内容被上海市网信办约谈,要求整改并加强未成年人保护机制 [4][5] - Alipay+发布全球首个智能眼镜嵌入式支付方案,联合星纪魅族在香港完成首笔交易 [5] - MiniMax考虑赴港IPO,目前处于初步筹备阶段,其最新估值已超25亿美元,并发布视频生成工具Hailuo 02及开源混合架构推理模型M1 [7][8][10] - 黑芝麻智能拟收购AI芯片企业,目标公司专注汽车智能化及端侧AI芯片研发 [12] - 腾讯元宝上线AI编程模式,支持实时生成并预览代码,提升开发效率 [12] - 菜鸟新款无人车GT-Lite启动预售,预售价1.68万元,支持L4级无人驾驶 [13] - 一季度中国智能眼镜出货量同比增长116.1%,AR/VR市场出货量增长25.2% [15] - 蚂蚁集团入股具身智能公司灵心巧手,后者聚焦灵巧手+云端智能平台研发 [16] - Rokid推出全球首款支持"看一下支付"的智能眼镜,订单量突破25万台 [17] - 阿里巴巴升级Qwen3系列模型,全系适配苹果MLX架构,覆盖全场景部署 [19] - 华为引望智驾新专利可提前预警驾驶员接管车辆,降低安全风险 [21][22] - 字节AI Lab负责人李航卸任转为顾问,公司回应称属退休返聘 [23] - 学而思学习机旗舰功能"真人随时问"突遭下线,引发用户争议 [23] - 前五月人形机器人招聘需求同比增长409%,技术岗位占比超60% [26] - 武汉大学研发抗量子密码技术"数字护照",提升核验安全性 [26] - 哈工智能退市进入倒计时,近四年净亏损达19.9亿元 [28][29][30] - 百度启动大规模AI人才招聘,岗位规模同比扩增超60%,聚焦大模型等前沿领域 [30] - 我国成功开展首例侵入式脑机接口临床试验,技术达全球领先水平 [31][32] - 前五月中国工业机器人出口货值同比增长55.4%,智能化与新兴市场占比提升 [34] - 奇瑞汽车申请注册人形机器人"墨茵"商标,已在马来西亚4S店应用 [34] 海外AI热点资讯 - OpenAI警告下一代模型或增加生物武器风险,将加强测试与防范措施 [36][37] - Meta曾开价1亿美元挖角OpenAI员工,但未成功 [37] - OpenAI终止与Scale AI合作,因Meta投资后者143亿美元并持股49% [38][41] - OpenAI寻求微软放弃未来利润分配权,以换取33%重组后股份 [38] - ChatGPT Codex推出新功能,可一次性生成多个编程解决方案 [38] - 亚马逊CEO称AI将减少员工总数,未来数年通过AI提升效率 [39][40] - 恩智浦完成收购TTTechAuto,强化软件定义汽车领域布局 [40] - Scale AI早期投资方Accel预计获利超25亿美元 [40] - 谷歌计划与Scale AI断绝关系,微软和xAI也可能跟进 [41] - Meta联手Oakley推出运动智能眼镜,挑战传统运动相机 [41] - 苹果AI负责人约翰·詹南德雷亚或被降职,因项目推进缓慢 [43] - 特斯拉陶琳分享马斯克观点:纯视觉方案更匹配道路系统设计逻辑 [45] - 特斯拉Robotaxi遭抗议,反对者质疑其自动驾驶安全性 [48] - Alphabet收购Wiz面临美司法部反垄断审查,交易额达320亿美元 [49] - xAI被指月亏10亿美元,马斯克否认称报道不实 [35] - Midjourney推出视频生成模型V1,主打高性价比与易用性 [36] 全球AI投融资概览 - 本周全球AI融资事件21起,总规模136.21亿元人民币,平均单笔融资8.51亿元人民币 [51] - 融资阶段分布:早期12起、成长期5起、后期4起 [53] - 国内融资集中在上海(5起)、广东(4起)、江苏(3起),总额9.8亿元人民币 [55][59] - 国内最大单笔融资为帕西尼感知科技A++轮数亿人民币,专注三维智能触觉传感器研发 [60][61][62] - 海外融资总额126.41亿元人民币,最大单笔为AI国防技术公司Helsing的6亿欧元D轮融资 [68][69] - 海外其他重点融资:自动驾驶模拟器研发商Applied Intuition获6亿美元F轮融资,机器人公司Skild AI获1.35亿美元B轮融资 [70][71]
跨境电商去年出口超2万亿,高息高返购车贷被叫停 | 财经日日评
吴晓波频道· 2025-06-18 01:02
英美贸易协议 - 英美达成涵盖钢铁、汽车、乙醇、牛肉和航空航天等多领域的贸易协议一般条款,英国成为特朗普再次入主白宫后首个与美国达成贸易协议的国家 [1] - 英国将为美国农产品出口增加数十亿美元市场准入,美国为英国汽车进口设定10万辆年配额并征收10%关税(低于其他国家的25%)[1] - 协议覆盖行业有限且存在配额限制,医药、钢铁、服务业等关键领域尚未完全敲定 [1] - 美国以加征10%关税为谈判基础,欧盟等地区避免加征的可能性较低 [2] 跨境电商发展 - 2024年中国跨境电商进出口2.71万亿元(+14%),占货物贸易总值6.2%,其中出口2.15万亿元(+16.9%)占出口总值8.5% [3] - 跨境电商出口消费品占比97.5%,主要为服饰鞋包、数码产品、家居家电等,货源地集中在广东等五省,美国(36.2%)、英国(11.7%)、德国(5.7%)为主要出口国 [3] - 跨境电商进口5552.5亿元(+4.1%)以美妆、母婴等特定品类为主 [3] 网络文学行业 - 中国网络文学用户规模达5.75亿人,26-45岁读者占50%,"00后"读者占25% [5] - 网络文学作品总量超3300万部,年新增200万部(+7%),现实、科幻等多元题材涌现 [5] - 2024年网络文学营收规模约440亿元,约4万部作品被翻译海外传播 [5] - 行业面临短视频冲击、题材同质化等问题,用户增长放缓 [6] 车贷市场调整 - 四川、河南等地叫停"高息高返"车贷模式,银行暂停高额返佣业务 [7] - 该模式通过银行返佣补贴车价刺激销量,但提前还款可能导致银行亏损 [7] - 雷克萨斯等品牌因政策调整取消金融优惠,多品牌购车贷款政策缩水 [7] AI技术合作 - 阿里发布适配苹果MLX框架的Qwen3系列模型,覆盖iPhone/iPad/Mac全场景 [9] - 提供4bit至BF16四种量化版本,32款模型全部开源 [9] - 开发者已自发在苹果设备部署Qwen3,技术合作或加速苹果在中国市场发展 [10] 企业年金表现 - 企业年金积累基金规模3.73万亿元,近三年累计收益率7.46% [11] - 社保基金成立以来年化收益率7.4%,境内股票投资年化收益率达10% [11] 脑机接口概念 - 脑再生科技股价单日暴涨283%,市值达296亿美元,年内涨幅超500倍 [14] - 公司神经调控芯片通过FDA审批,但尚未产生收入且临床失败概率达80% [14] - 流通股仅占11.2%,财报提示"可能永远无法盈利" [14] 股市行情 - 沪指跌0.04%报3387点,深成指跌0.12%,创业板指跌0.36%,两市成交1.21万亿元 [16] - 脑机接口、油气、核污染防治概念领涨,创新药、游戏等板块下跌 [16]
中东局势突发升级!A股保持韧性,创新药被爆吹后套人了?
搜狐财经· 2025-06-17 17:28
陆家嘴论坛与A股市场 - 陆家嘴论坛前证券等金融板块持续走强 显示资金博弈政策预期 [1] - 事件落地后出现资金兑现现象 部分资金已提前抢跑 [1] 中东地缘政治影响 - 以色列宣称持续打击伊朗核目标 加剧地区紧张局势 [1] - 特朗普提前离开G7峰会 白宫解释与中东局势相关 [1] - 黄金原油盘初走强但涨幅收窄 市场对局势恶化持怀疑态度 [3] - 特朗普团队考虑与伊朗会晤的消息缓解市场担忧 [3] 原油市场动态 - 国际资金利用地缘冲突制造波动获利 渲染恐慌氛围 [5] - 俄乌和巴以冲突未改变油价长期供过于求的基本面 [5] - OPEC希望油价上涨以增加产量 [5] A股市场特征 - 月底效应显著 题材股通常在月底兑现 [7] - 今年主线行情仅维持一个季度 如一季度算力和机器人 二季度新消费和创新药 [7] - 需警惕高位无业绩支撑个股 [7] 个股与板块表现 - 脑再生科技(RGCUS)股价单日暴涨283% 年内累计涨幅超500倍 市值达296亿美元 [8] - A股人脑工程概念掀涨停潮 爱朋医疗(300753)涨停 年内涨88.13% 创新医疗(002173)涨停 年内涨58.79% [9] - 存储板块表现强势 美光宣布逐步停产DDR4/LPDDR4 未来仅供应特定客户 [12] - 大为股份(002213)涨7.23% 江波龙(301308)涨6.83% [13] - 固态电池板块爆发 赢合科技(300457)涨停 金银河(300619)涨14.79% [17] 行业政策与趋势 - 大连和湖北将实施境外旅客离境退税政策 [10] - 药监局拟将创新药临床试验审评时限从60日缩短至30日 [10] - 港股创新药ETF单日暴跌超5% 显示交易过度拥挤 [10] - Meta将发布运动智能眼镜MetaOakley 优化运动记录功能 [18] - 阿里云推出适配苹果全系设备的Qwen3系列开源模型 [18] 市场整体表现 - 上证指数微跌0.04% 创业板指跌0.36% [17] - 恒生指数跌0.34% 恒生科技指数跌0.15% [17] - 成交额1.23万亿元 近3000家下跌 61家涨停 [17] - 煤炭(0.89%)、公用事业(0.82%)领涨 医药生物(-1.44%)、美容护理(-1.24%)领跌 [20][21] 黄金市场观点 - 花旗预测金价将回落至3000美元/盎司以下 因需求疲软和美联储降息 [13] - 黄金上涨三大叙事:美联储降息、美国债务危机、地缘博弈 [14] - 降息后资金可能转向其他资产 黄金高位接盘风险上升 [14][16]
港股收盘(06.17) | 恒指收跌0.34% 脑机接口概念爆发 医药、新消费显著调整
智通财经网· 2025-06-17 16:44
港股市场表现 - 恒生指数跌0.34%或80.69点至23980.30点 成交额2021.44亿港元 恒生国企指数跌0.4%至8694.67点 恒生科技指数跌0.15%至5291.85点 [1] - 申万宏源认为2025年下半年港股投资机会将扩散 重点关注互联网科技和医药等成长板块 新消费个股短期面临性价比不足问题 [1] 蓝筹股表现 - 阿里巴巴-W涨1.68%至114.8港元 贡献恒指31.36点 公司通义千问发布基于苹果MLX框架优化的Qwen3系列模型 为国行苹果智能铺路 [2] - 金沙中国涨5.24%至15.66港元 贡献恒指3.03点 舜宇光学科技涨2.73%至65.85港元 贡献恒指1.97点 [2] - 周大福跌7.29%至12.72港元 拖累恒指3.16点 石药集团跌6.4%至8.19港元 拖累恒指7.08点 [2] 热门板块 脑机接口概念 - 南京熊猫电子股份涨38.02%至5.3港元 脑洞科技涨22.65%至0.222港元 微创脑科学涨18.47%至15.52港元 [3] - 美股脑再生科技隔夜飙涨283% 年初至今累计上涨超460倍 中国科学院成功开展国内首例侵入式脑机接口临床试验 [3] - 南京熊猫承担江苏省重点研发计划专项 正在开发脑机接口智能交互终端 微创脑科学2023年神经介入市场份额升至国内第四 [4] 博彩股 - 金沙中国涨5.24% 美高梅中国涨4.76%至11.44港元 永利澳门涨1.57%至5.19港元 银河娱乐涨1.06%至33.35港元 [4] - 澳门对沙特等五国实施免签入境 花旗预计6月前15天澳门博彩总收入约100亿澳门元 日均收入环比增长5% [5] 苹果概念 - 高伟电子涨5.82%至26.35港元 舜宇光学涨2.73% 瑞声科技涨1.87%至40.8港元 丘钛科技涨1.49%至7.5港元 [5] - 阿里巴巴通义千问开源32款Qwen3 MLX模型 适配苹果全场景设备 Counterpoint数据显示5月iPhone中国销量登顶 [5] 医药与新消费 - 绿叶制药跌11.08%至3.45港元 乐普生物-B跌8.01%至5.28港元 布鲁可跌7.02%至156.2港元 老铺黄金跌6.67%至881.5港元 [6] - 华安证券指出创新药和新消费板块交易过热 配置性价比偏弱 成长科技板块估值过高面临调整 [6] 黄金股 - 潼关黄金跌12.68%至2.41港元 灵宝黄金跌7.04%至10.3港元 赤峰黄金跌3.06%至30.05港元 [7] - 国际现货黄金失守3400美元/盎司 花旗预计金价将跌破3000美元 美国银行认为仍有潜力达4000美元 [7] 热门异动股 - 周大福跌7.29% 拟发行88亿港元可换股债券 初始换股价溢价26.2% [8] - 迈富时涨5.41%至44.8港元 连续七年蝉联"AI SaaS影响力企业TOP50"榜首 [9] - 新城发展涨4.35%至2.4港元 美银上调目标价至3.2港元 看好其转型商场经营者的能力 [10] - 微盟集团涨2.82%至1.82港元 微信公众号新增带货功能 公司推出微信小店整合解决方案 [11]
【为国行苹果智能做准备!阿里巴巴发布升级版Qwen3:全系适配苹果MLX架构】通义千问周一推出基于苹果MLX框架深度优化的全部Qwen3系列模型。团队将一次性全部开源32款官方Qwen3 MLX模型,从而实现这些模型在iPhone、iPad,以及Mac电脑上的轻松部署,做到全场景覆盖。
快讯· 2025-06-17 08:32
阿里巴巴发布升级版Qwen3适配苹果MLX架构 - 公司推出基于苹果MLX框架深度优化的全部Qwen3系列模型 [1] - 团队将一次性开源32款官方Qwen3 MLX模型 [1] - 优化后的模型可在iPhone、iPad和Mac电脑上轻松部署,实现全场景覆盖 [1]
全球AI周报:快手可灵AI年化收入破1亿美元,谷歌新版Gemini2.5Pro强势登顶-20250609
天风证券· 2025-06-09 21:52
报告行业投资评级 未提及 报告的核心观点 - 海外AI主线在多个环节加速落地,对冲市场悲观情绪,算力和应用端需求强劲,中国AI迈入“双轮驱动”新阶段,收入曲线开启且后续催化不断 [3][7] - 建议关注海外AI基础设施受益核心标的如【Broadcom】【NVIDIA】【Vertiv】等,AI应用端相关公司如【MongoDB】、【Rubrik】等,以及中国AI相关标的如【快手】、【小米】等 [3][7] 根据相关目录分别进行总结 投资建议 海外AI - AI算力方面,Broadcom定制加速器放量,基础设施需求强韧,建议关注【Broadcom】【NVIDIA】【Vertiv】等 [3] - AI应用端,MongoDB与Rubrik平台化能力加强,商业化逐步兑现,建议关注【MongoDB】、【Rubrik】等 [3] 中国AI - 快手可灵商业化进展超预期,中国AI进入“产品驱动收入增长”阶段,建议关注【快手】、【小米】等 [7] 重点公司业绩情况 CrowdStrike - 一季度业绩超预期,ARR突破44亿美元,订阅毛利率高,客户留存率强,预计二季度和全年收入增长 [10][14] Broadcom - Q2营收150亿美元创新高,AI驱动增长强劲,半导体和基础设施软件业务表现出色,预计三季度营收增长 [15][20] Rubrik - Q1业绩亮眼,ARR达12亿美元,云与AI布局强化,订阅收入和净留存率表现良好 [21][26] MongoDB - Q1业绩超预期,AI布局深化,预计26财年营收和运营收入增长 [27][32] 全球AI动态更新 快手 - 可灵商业化进展超预期,年化收入突破1亿美元,在文生视频赛道市占率领先 [35][39] OpenAI - ChatGPT接入MCP协议并推出会议记录功能,打造智能协作平台 [40][44] 谷歌 - 发布Gemini 2.5 Pro,在多项基准测试中表现卓越 [45][49] 阿里 - 开源Qwen3系列新模型,在文本表征和检索任务中性能领先 [50][53]
重磅开源!首个全异步强化学习训练系统来了,SOTA推理大模型RL训练提速2.77倍
机器之心· 2025-06-04 12:41
核心观点 - 清华大学交叉信息院和蚂蚁技术研究院联合团队开源全异步强化学习训练系统AReaL-boba²,实现更高效、更易用的RL训练 [2] - AReaL-boba²通过算法系统协同设计实现完全异步RL训练,训练速度最高提升2.77倍,GPU利用率大幅优化 [8][14] - 基于Qwen3系列模型的8B/14B版本在LiveCodeBench、Codeforce等代码评测榜单上取得开源SOTA成绩 [4][5] - 系统原生支持多轮智能体强化学习训练,拥抱Agentic RL技术浪潮 [8][39] 技术升级 系统架构 - 采用全异步RL架构,生成模块与训练模块完全解耦,GPU空闲时间减少52% [14][19] - 系统通信开销控制在总训练时间5%以内,32B大模型仍保持良好扩展性 [15][18] - 核心组件包括可中断轨迹生成器、奖励服务、训练器和生成控制器 [22] 算法创新 - 提出数据陈旧度控制机制,通过max staleness参数保证训练稳定性 [24][27] - 开发解耦PPO目标函数,解决异步训练中的数据分布差异问题 [28] - 在staleness=8时仍能保持模型效果,AIME24任务得分达42.2分 [33][35] 性能表现 训练效率 - 1.5B模型在128卡训练时,异步RL每个训练步骤耗时198.5秒,比同步RL减少52% [19] - 32k输出长度下,分卡模式显存碎片更少,32B模型扩展性优于同步系统 [7][18] 模型效果 - AReaL-boba²-14B在LiveCodeBench达69.1分,Codeforce rating 2044,Codecontests 46.2分 [5] - 开源复现版AReaL-boba²-Open在8B/14B尺寸上同样超越现有基线 [6] - 数学任务上decoupled PPO算法在staleness=8时效果优于经典PPO 18.9分 [35] 开发者支持 - 提供详细教程和文档,涵盖安装、算法定制到问题排查全流程 [8][37] - 开源完整训练系统、数据集、脚本及SOTA模型权重 [8][36] - 新增多轮Agentic RL训练支持,提供数学推理任务示例 [39][40]