Workflow
快手(01024)
icon
搜索文档
从靠天吃饭到知天而作,新农人在快手 “送技到垄头”
搜狐财经· 2025-10-28 05:39
行业背景与痛点 - 传统乡村面临信息闭塞困境,农户在技术、政策和市场方面存在显著信息鸿沟 [2] - 技术盲区导致低产,如黑龙江农户因不懂大垄密植技术,玉米亩产仅700斤,远低于潜在产量 [6] - 政策福利获取困难,留守老人因不识字或不懂操作,常错过取暖补贴、养老金认证等福利 [9][11] - 市场信息不对称导致好粮卖低价,东北玉米运至山东因信息差每斤价格差5分钱,中间商层层加价进一步压缩利润 [7][8] 平台解决方案与生态建设 - 短视频和直播成为连接城乡的新纽带,平台通过内容填补乡村信息洼地 [2][3] - 农技知识通过短视频通俗化传播,如将专业术语转化为大白话,使技术覆盖率显著提升,县里玉米大垄密植技术覆盖率从15%升至70% [13] - 直播实现即时互动与精准服务,如夜间直播成为植物医院,5年收集160份土壤数据建土壤档案 [16][18] - 政策解读通过短视频和直播精准触达,内容涵盖高龄补贴、宅基地政策等19个板块,帮助老人解决申请流程问题 [20][22] 创作者商业模式与影响力 - 创作者通过内容构建商业闭环,如邓燕的农资品牌益补丰在快手小店售出27.3万件农资,私域粉丝复购率达30% [18][27] - 产销对接打破地域限制,李泽良通过直播连麦帮助山东日需4500吨玉米的淀粉厂对接东北货源,实现长期合作 [20] - 创作者获得平台认可,如刘辉斩获快手十大区域影响力达人奖,成为农户信赖的技术参谋 [15] - 年轻力量持续涌入,刘辉团队吸引5名90后加入,李泽良团队最年轻成员23岁,推动行业年轻化 [25] 平台生态与行业趋势 - 快手构建高效信息网络,农技直播覆盖玉米高产、大豆病虫害防控等全领域,内容在上午9点前精准触达农户 [27] - 平台形成短视频种草-直播转化-线下服务的可持续新农商模式,信任与人情味转化为商业闭环 [27][28] - 快手成为乡镇用户首选平台,深度融合生活、社交与生意场景,定位获广泛认可 [27] - 平台通过年度三农生态大会展示生态成果,如贵州乌江寨大会汇聚典型创作者,凸显模式有效性 [28]
赵诣三季度靠“两端配置”跑出超额,基金规模快速飙升,独门基封闭三年到期开放,投资者还满意吗?
市值风云· 2025-10-27 18:09
基金业绩表现 - 泉果旭源三年持有混合A在2025年三季度基金净值增长45.5% [3] - 截至2025年10月23日,该基金自2022年10月18日成立以来净值增长4.75%,年化回报率为1.55% [3][8] - 2023年和2024年该基金分别大幅跑输业绩基准和沪深300指数,2023年收益为-25.87%,2024年收益为1.89% [6][7] - 2025年三季度末,基金A/C份额合并规模突破190亿元,环比激增近60亿元 [7] 投资策略与持仓变动 - 投资策略从单一押注新能源赛道转向“两端配置”,即科技AI与困境反转行业双线布局 [11] - 前十大重仓股行业分散度明显提升,覆盖新能源、科技、互联网等领域,2023年三季度新能源标的占比达70% [11] - 截至2025年三季度末,前十大重仓股持仓集中度超过60%,基金换手率降至26.9% [13] - 三季度调仓路径主要为增持锂电材料并新晋科技标的,天赐材料、阿里巴巴-W、中芯国际新晋前十大重仓股 [15] 重点持仓与行业观点 - 前三大重仓股为宁德时代(占净值比9.77%)、腾讯控股(8.00%)、恩捷股份(7.49%) [14] - 三季度天赐材料股价上涨110.65%,恩捷股份、科达利、立讯精密等重仓股涨幅均超过59% [16] - 看好AI、新能源和军工三大方向,AI领域主要关注效率提升型互联网龙头、新应用场景驱动公司和算力云服务公司 [1][17] - 锂电方面关注六氟、隔膜等扩产周期长、供需偏紧的环节,预测本轮锂电材料量价齐升周期将更健康持久 [16][17]
知名基金经理调仓动向曝光,下一个“风口”在哪里?
21世纪经济报道· 2025-10-27 14:14
基金经理三季度调仓动向 - 傅鹏博管理的睿远成长价值和谢治宇管理的兴全合润在三季度新进加仓PCB龙头东山精密[1][2] - 莫海波管理的万家臻选减仓光模块龙头新易盛、中际旭创、天孚通信,同时新进重仓机器人产业链的鸣志电器和绿的谐波,并增持音频SoC芯片概念股恒玄科技[1][6] - 郑巍山管理的银河创新成长减持中芯国际、兆易创新、海光信息、寒武纪-U,新进重仓晶圆制造龙头华虹公司、翱捷科技-U及中科曙光[1][7] - 赵诣管理的泉果旭源三年持有基金新进重仓港股阿里巴巴、中芯国际,增持快手,减仓腾讯控股,配置框架聚焦科技AI和困境反转行业如新能源、军工[9] - 周思聪管理的平安医疗健康增持港股康方生物、科伦博泰生物-B、信达生物,新进重仓中国生物制药、三生制药,并同步加仓A股百利天恒、福瑞股份,重点布局创新药方向[9] 绩优基金持仓与表现 - 年内回报率领先的永赢科技智选基金(截至10月24日回报率超200%)三季度大举加仓算力板块,前五大重仓股为新易盛(占净值比9.77%)、中际旭创(9.48%)、天孚通信(8.98%)、深南电路(8.69%)、沪电股份(8.29%)[3][4] - 相较二季度末,该基金对新易盛、中际旭创、天孚通信、深南电路、沪电股份的持仓数量分别增加232.27%、241.07%、347.47%、768.44%、502.17%[3][4] - 该基金规模从二季度末的11.66亿元暴增至三季度末的115.21亿元,增长近9倍,主要受益于净值增长(三季度净值增长率接近100%)和净申购资金流入[12] - 万家臻选A和银河创新成长A自年初以来回报率分别为63.91%和55.12%,均大幅跑赢业绩比较基准[8] 行业观点与投资逻辑 - 永赢科技智选基金经理任桀指出,基金维持高仓位运作,基于“全球模型/应用-算力投入闭环形成,中国光通信、PCB厂商分享全球AI发展红利”的判断,继续聚焦全球云计算产业链投资[5] - 莫海波持续看好AI和煤炭板块,认为国产算力芯片集群建设将推动服务器、算力芯片、集群网络设备等核心环节实现大规模部署,重点产品有望实现从0到1再到100的市场突破[11] - 郑巍山表示后续将继续投资硬科技领域,看好AI新需求及半导体产业周期复苏,对国产化前景保持乐观[11] - 基金经理莫海波认为,四季度在“十五五”规划政策预期下,市场风险偏好或维持高位,居民和企业部门资产配置向权益迁移的趋势仍有明显增量空间[10]
智通港股沽空统计|10月27日
智通财经网· 2025-10-27 08:26
沽空比率排行 - 华润啤酒-R和京东健康-R的沽空比率均达到100%,并列首位 [1][2] - 京东集团-SWR以93.32%的沽空比率位居第三 [1][2] - 前十大沽空比率股票中,安踏体育-R、比亚迪股份-R、中国移动-R的比率分别为87.40%、81.07%和77.42% [2] 沽空金额排行 - 小米集团-W沽空金额最高,达21.56亿元 [1][3] - 阿里巴巴-SW和腾讯控股的沽空金额分别为20.38亿元和15.52亿元,位列第二和第三 [1][3] - 美团-W和中芯国际的沽空金额也较高,分别为14.61亿元和13.35亿元 [3] 沽空偏离值排行 - 京东集团-SWR的偏离值最高,为43.55% [1][3] - 商汤-WR和华润啤酒-R的偏离值分别为31.62%和31.60%,位列第二和第三 [1][3] - 京东健康-R、吉利汽车-R、比亚迪股份-R的偏离值分别为29.52%、26.64%和24.30% [2][3]
新银发力量:活力、悦己、得劲——2025快手新银发人群洞察报告
艾瑞咨询· 2025-10-27 08:06
核心观点 - 中国45岁以上“新银发人群”规模从2020年的4.6亿增至2023年的6.6亿,占总人口比例从42.2%攀升至44.7%,驱动消费市场从“基础养老”向“品质生活”跃迁,其市场消费规模已超14万亿元,并正向20万亿级扩容[1][4] - 该群体以“活力、价值、得劲”为核心特征,消费需求从满足“可用”的基础层面向追求“心安”的品质层面升级,74.0%以健康储备为首要目标,62%聚焦个人兴趣发展,打破传统奉献型家长范式[1][8] - 快手平台新银发日活跃用户占比约25%,超六成具备中高消费力,单日使用时长较全站均值高出2.1%,其内容电商生态通过“实用知识场景化”、“兴趣内容商品化”、“技能学习可视化”精准适配人群需求[6][8] 人群聚类特征 - **务实派**:年龄集中于45-49岁,具备理性消费观,在快手平台中频中高额消费,注重家庭消费精打细算,健康养生场景中偏好“中医养生”如艾灸/药膳[2][3][13] - **活力派**:年龄在50-59岁占比较高,高频中高额消费,热衷时尚悦己与兴趣社交,健康场景中重“内服滋养”如燕窝/花胶,旅行中为“深度体验派”注重服务安心度[2][3][13] - **从容派**:60岁以上显著,中频中低额消费,关注健康养生、服饰家居,旅行以“周边康养旅居”为主,消费潜力待开发[2][3][13] - **佛系派**:无明显年龄特征,低频中低额消费,快手沉浸度较低,以短暂娱乐消遣为主[2][3] 消费场景与品类偏好 - **健康养生(偏好度22.8%)**:营养保健食品(燕窝/花胶/钙片等)、中医养生产品(艾灸器具/药膳食材)、疾病预防服务(体检套餐)为TOP1场景,务实派重中医养生,活力派重内服滋养[13] - **旅行休闲(15.9%)**:周边康养旅居(农家乐/温泉疗养)、跨省文化旅游(古镇/红色景点)为主,务实派为“文化游主力”,活力派重服务安心度,从容派偏好周边康养[13] - **时尚悦己(12.3%)**:服装鞋帽(季节常服/潮流穿搭)、休闲食品(熟食卤味/坚果)、抗衰美业(祛斑护肤品/假发)为核心,活力派为“穿搭悦己党”,务实派聚焦美业体验[13] - **家居改造(11.3%)**:智能监测设备(跌倒报警器/燃气警报)、防滑安全设备(浴室扶手/防滑地垫)受青睐,务实派关注智能监测+适老化,活力派讲究防滑与智能双驱动[13] - **兴趣学习(10.8%)**:书画/戏曲/舞蹈相关产品(乐器/舞蹈服)为主,务实派重“数码课程+手工DIY”,活力派与从容派热衷艺术消费[13] - **科技数码(10.7%)**:健康监测产品(手表/血糖仪)、智能家电(扫地机/监控)是刚需,全人群恐惧功能复杂,务实派关注操作简便性,活力派中高价位消费意愿更高[13] 平台生态与经营策略 - **产品体验**:从“可用”升级至“心安”,43.4%用户需求防诈安全,38.2%需要语音助手等掌控感,通过代付功能等构建“数字生存保障体系”[25] - **内容供给**:以垂类场景化内容(如晨间养生操+早餐机推送、非遗传承人直播)激活消费力,健康频道用专业化解焦虑,怀旧频道用情感唤醒记忆[28] - **生态运营**:通过晨间养生、家庭晚餐等场景实现精准触达,打造“素人-专业-跨代”KOC体系构建信任,简化商户入驻与成长激励驱动生态协同[30] 行业趋势与机会 - **数字融入深化**:新银发群体从“被动适应”转向“主动驾驭”,要求语音操控等便捷交互,消费场景延伸至知识付费、本地生活服务,决策受同辈推荐和信任主播影响显著[34] - **OMO模式兴起**:针对康养旅居、适老改造、数码家电等高信任门槛领域,通过“线上透明(专供价+信息透明)+线下兜底(验货体验)”组合缩短决策周期,支撑高客单价转化[36] - **消费观跃迁**:从“生存刚需”向“品质悦己”转型,关注产品品质、品牌内涵与情感附加值,健康、休闲、文化、社交领域持续加码,宣告“悦己型消费”新常态[38] - **消费半径扩展**:从个体“悦己”延伸至家庭全覆盖,单次决策常关联美妆护肤、健康保险、子女教育等2-3个成员需求,通过去年龄化话语权影响跨代际消费[41]
解读:《新银发力量:活力、悦己、得劲——2025快手新银发人群洞察报告》
艾瑞咨询· 2025-10-27 08:06
核心观点 - 中国45岁以上“新银发人群”规模从2020年的4.6亿增至2023年的6.6亿,消费规模超14万亿,正从“基础养老”向“品质生活”加速跃迁,成为拉动内需的关键力量 [1][2] - 该群体以“活力、价值、得劲”为核心特征,消费需求从满足“可用”向追求“心安”的品质层面升级,与快手等内容电商平台生态高度契合 [1] - 快手主版45岁以上用户规模超1亿,占比约25%,其单日使用时长较全站均值高出2.1分钟,且超六成具备中高消费力,消费潜力巨大 [5] 行业趋势:市场规模与驱动力 - 政策与技术双轮驱动市场扩容,“银发经济26条”等政策落地,叠加人均寿命延长至79岁、基本养老保险参保超10.7亿人,为新银发市场提供坚实基础 [2] - 新银发人群主动拥抱线上生活,摆脱“数字弱势群体”标签,快手等内容电商平台成为其生活消费的核心阵地 [4][5] 人群解构:四类典型画像 - 新银发人群可划分为四类:活力派(占比45.0%,50-59岁高线城市为主,月收入0.6-1.2万元)是“悦己消费”主力及关键引擎 [10] - 务实派(占比18.6%,45-49岁高线城市为主,月收入超1.2万元)消费理性,平衡家庭与自我 [10] - 从容派(占比22.8%,60岁以上新线城市为主,月收入0.6万元以下)追求安稳实用,是基础消费的高忠诚用户 [10] - 佛系派(占比13.6%,无明显年龄特征,新线聚集,月均收入0.6-1.2万元)以基础需求消费为主,习惯比价 [10] 群体特征:核心消费场景 - 健康养生是“得劲”生活底色,快手平台50.1%的用户重复观看健康内容,61.7%已产生相关消费,核心需求是“不生病、身体爽” [13] - 旅游休闲场景中,40.9%的用户反复浏览旅游内容,活力派消费转化率达49.7%,用户钟爱“体验至上”、能灵活安排的顺心旅程 [15][16] - 时尚悦己场景中,服饰鞋帽类产品购买率约64.8%,消费逻辑从“耐穿”转向“好看、舒服、有面子”,为形象与自信投资 [18] 平台生态优势:激活消费潜力 - 内容引力方面,短视频、短剧、直播多元内容精准触达需求,90%用户主动搜索短剧,80%长期扎根直播间,实现“即看即买” [20] - 信任推力方面,通过平台官方认证(健康场景61.3%用户关注)、用户真实评价(健康场景61.7%用户关注)等化解消费顾虑,如某钙片复购率超行业40% [21] - 体验拉力方面,适老化改造与安全守护提升粘性,新银发人群对健康、旅游场景复购意愿超85%,对时尚悦己场景复购意愿超90% [22] 未来趋势洞察 - 产品从“适老”向“悦老”升级,聚焦体验感,核心逻辑从“让用户适应产品”转向“让产品适配用户的得劲需求” [25] - 服务从“单一”向“多元”延伸,构建覆盖日常全场景的舒适生活生态,例如提供“咨询+产品+后续护理”的全链条健康服务 [26] - 信任从“单一”向“多维”强化,构建“官方认证+真实评价+垂类人设”体系,以保障消费安心 [27][28]
计算机行业研究:DS-OCR一图胜千言,OpenAI发布AI浏览器再示入口野心
国金证券· 2025-10-26 17:34
投资建议与关注方向 - 建议关注国内生成式大模型龙头科大讯飞[2] - AI硬件有望成为应用落地的新载体,建议关注海康威视、虹软科技、禾赛等[2] - AI相关功能打磨能够带动付费率、Arpu值提升,建议关注迈富时等[2] - 确定性相对高的AI落地方向包括:软硬结合的端侧AI新兴硬件、C端尤其是出海方向软件、B端企业服务和制造业信息化相关领域、G端/大B端的大模型定性化、私有化部署/一体机等[9] 行业核心观点与展望 - 计算机板块经历先下行再上行的过程,资金从先向国产替代/红利细分领域收敛,继而向AI产业链回归[9] - 展望下半年,在低基数和新技术落地加快背景下,预计三季度总体经营强度环比上行,四季度进一步向上[9] - 预计毛利率提升,费用率下降,净利率保持修复,利润端弹性显著大于收入端,而现金流端改善可能更为明显[9] - AI落地在上半年已经有相比前两年更多的进展,下半年预计环比上半年有进一步的倍数增长[9] - 计算机板块处于主业回暖改善,AI应用落地加速的周期,基本面强度对市值贡献度提升[9] 细分行业景气度分析 - 2025年高景气维持的赛道包括AI算力、激光雷达[9] - 加速向上的赛道有AI应用[9] - 稳健向上的赛道包括软件外包、金融IT、量子计算、数据要素、EDA、出海、信创[9] - 拐点向上的赛道包括教育IT、网安、企业服务[9] - 底部企稳的赛道包括智慧交通、政务IT、安防、建筑地产IT[9] - 略有承压的赛道包括工业软件、医疗IT[9] 近期行业动态与技术进展 - DeepSeek AI开源DeepSeek-OCR模型,在文本Token数量是视觉Token数量10倍以内时,模型重建文本准确率可达97%[4][9] - 快手发布AI编程产品组合,包含自研代码大模型KAT-Coder、智能开发工具CodeFlicker及大模型服务平台快手万擎[4][9] - 夸克APP集成基于阿里巴巴通义千问的“对话助手”功能,具备较强推理能力和长文本理解能力[4][9] - OpenAI发布AI浏览器ChatGPT Atlas,整合“ChatGPT记忆”和“浏览器记忆”功能,并向付费用户开放预览版“智能体模式”[4][9] - 8月/1-8月国内ADAS激光雷达(仅标配)装机量约为25.9/158.0万颗,同比+101.0%/+88.7%[10] 市场表现与数据 - 2025年10月20日至10月24日,计算机行业指数(申万)上涨3.58%,跑赢沪深300指数0.33个百分点[11] - 同期,三市股票日均成交额为1.8万亿元,同比上升-25.1%,环比上升-18.0%[16] - 截至2025年10月23日,两融余额为2.5万亿元,同比上升35.8%,环比上升-0.25%[16] 未来重点事件 - 2025年10月28日,第十届中国国际人工智能大会暨人工智能算力算法高峰论坛将在上海举办[25] - 2025年11月14日,第二十七届中国国际高新技术成果交易会将在深圳举办,预计展示面积40万平米[25]
夸克“C计划”曝光,剑指豆包;OpenAI发布AI浏览器,挑战Chrome;美国女子AI生成号码中10万美元彩票丨一周AI要闻
36氪· 2025-10-25 17:27
大型科技公司AI产品与战略发布 - OpenAI发布独立AI驱动网页浏览器ChatGPT Atlas,整合聊天机器人功能与浏览器,付费用户可使用能直接控制用户鼠标键盘的"agent"功能,此举被视为对谷歌Chrome霸主地位的直接挑战 [2][9] - 字节跳动Seed团队推出3D生成大模型Seed3D 1.0,基于Diffusion Transformer架构,可从单张图像生成高精度3D模型,具备高保真资产生成和物理引擎兼容性 [2][3] - 腾讯ima公布2.0版本,开启以agent能力为基础的"任务模式"内测,旨在成为能理解目标、执行任务、产出结果的"共事伙伴" [2][3] - 百川发布循证增强医疗大模型Baichuan-M2 Plus,首创六源循证推理范式,其医疗幻觉率较DeepSeek低约3倍,可信度比肩资深临床医生水准 [4] - 阿里通义千问Qwen3-VL新增2B与32B两个密集模型尺寸,覆盖从轻量级到甜品级的视觉语言理解场景,官方表示手机也能运行 [4] - 谷歌DeepMind为AI视频生成模型Veo引入'精确编辑'功能,允许用户通过文本提示添加或删除视频元素,支持音频同步和原生1080p输出 [4] - 谷歌为Gemini API推出Grounding with Google Maps工具,将AI推理能力与地图数据整合,允许模型直接访问超过2.5亿个地点的实时结构化信息 [5] - 阿里巴巴旗下夸克推进"C计划",布局对话式AI应用,该计划由夸克核心团队主导并有多位通义实验室高级成员参与 [2][8] - 阿里夸克AI眼镜于24日零点开启预售,88VIP会员实际到手价为3699元,普通消费者为3999元 [10] AI行业融资与商业合作 - LiblibAI完成1.3亿美元B轮融资,由红杉中国、CMC资本及一大厂战投联合领投,这是今年中国AI应用领域公开的最大一笔融资 [9] - 深圳星际光年科技有限公司发布五指灵巧手Pantheon 22,并完成Pre-A轮融资,本轮融资由赛纳资本、普华资本领投,资金将用于灵巧操作底层技术攻关 [9] - 视觉中国与多家AIGC企业合作研发可商用视觉创意行业大模型,并获得阿里、微软等公司的合规数据服务订单,其拥有超过7亿条内容数据以解决AI行业版权问题 [7] - 快手StreamLake推出"工具+模型+平台"三位一体AI编程产品矩阵,包括智能开发工具CodeFlicker、自研大模型KAT-Coder及平台快手万擎,其中KAT-Coder-AirV1版本将免费使用 [7] AI技术前沿与应用探索 - Anthropic推出Claude Code网页版,为开发者提供可在浏览器中直接运行编码任务的环境,支持与GitHub仓库无缝对接并可在移动端使用 [5] - 宇树科技发布H2仿生人形机器人,高180cm,重70kg,具备舞蹈、功夫表演等运动控制能力 [5] - 在去中心化交易平台Hyperliquid的AI加密货币交易实验中,多款主流AI模型各自获得1万美元启动资金进行自主交易,DeepSeek模型总资产增长130%暂时领先 [10] - 北京跨赴科技正式开源中国首个AI原生后端即服务平台AipexBase,让开发者不写后端也能拥有完整后端能力,深度适配中国开发生态 [12] 行业动态与人才战略 - Meta计划对旗下人工智能部门裁减约600名员工,旨在通过减少管理层级实现更灵活迅速的运营,此次裁员被视为"战略重组" [6][7] - 华为发布全球顶尖AI人才招募令,由余承东亲自招募,旨在打造世界一流的AI战队并构建领先世界的大模型 [12] - Reddit在纽约联邦法院起诉人工智能初创公司Perplexity,指控其非法抓取Reddit平台数据用于训练AI搜索引擎 [7] - Netflix在致投资者的信中表示将全力投入AI,将其视作提升创作者效率的工具而非内容创作核心 [8]
花旗:维持快手“买入”评级 目标价88港元 看好双11表现及可灵AI变现潜力
格隆汇· 2025-10-25 14:10
公司业绩与评级 - 花旗维持快手买入评级,目标价为88港元 [1] - 公司预计11月中旬公布第三季度业绩,预测收入同比增长13%至352亿元人民币,调整后净利润约48.6亿元,符合市场预期 [1] - 预计GMV同比增长约15%,主要受直播电商复苏和货架电商良好势头推动 [1] 业务增长动力 - 国内广告业务预计保持稳健增长 [1] - 其他收入增长将加速,得益于佣金变现率提升、电商增值服务商业化以及可灵AI商业化的推进 [1] 双十一大促策略 - 快手将简化折扣策略,并通过AI技术赋能商家 [1] - 平台在蓄水期投入180亿流量补贴,全周期流量补贴达数千亿 [1] - 正式期阶段将提供20亿用户红包以及10亿商品补贴 [1] 人工智能发展前景 - 投资者需关注管理层对可灵AI 2025年收入前景的指引 [1] - OpenAI推出Sora2及谷歌升级Veo,可能加速视频生成模型市场普及,为可灵AI带来更大发展空间 [1]
快手Klear团队提出CE-GPPO:通过梯度保留协调熵,解决强化学习中的熵不稳定问题
机器之心· 2025-10-25 09:03
研究背景与动机 - 强化学习已成为推动语言模型在复杂推理与思维链能力上实现智能跃升的关键技术环节,相比传统的监督微调,RL通过奖励信号直接优化模型行为[2] - 行业在大规模RL实践中普遍面临模型熵失衡的核心挑战,即探索与利用的不协调,这导致模型训练不稳定和性能难以提升[3] - 策略熵的平衡是优化大模型处理复杂推理任务的核心挑战,熵坍缩会使模型输出单一化丧失探索能力,而熵爆炸会导致模型过度探索难以收敛[6] 算法创新:CE-GPPO - 公司提出CE-GPPO算法,以熵为核心视角重新审视RL中梯度裁剪机制的影响,并提出梯度保留策略,在保证训练稳定的前提下利用裁剪区间外的梯度[3] - 算法核心思想是不丢弃被裁剪token的梯度,而是有控制地保留和缩放它们,使其成为平衡探索与利用的"阀门"[11] - 通过stop gradient解耦机制对超出clip区间的token在反向传播时恢复梯度传导,并通过双系数β₁和β₂对梯度进行缩放,实现精细调控[15] - 梯度表达式显示,裁剪区间外的梯度被限制在β₁(1-ɛ)或β₂(1+ɛ)范围内,其中β₁和β₂通常接近1,从而维持训练稳定[16][17] 实验结果与性能 - 在多个数学推理基准上的实验结果显示,CE-GPPO在所有基准上均超越强基线方法,在AIME25和HMMT25等高难度任务上提升最显著[20][21] - 在1.5B模型上,CE-GPPO最佳配置平均得分达54.9,显著高于基线的45.2;在7B模型上,最佳配置平均得分达67.5,高于基线的60.8[20] - 模型规模越大,CE-GPPO带来的收益越明显,表明该方法具备扩展到更大规模模型的潜力[21] - 训练动态显示,CE-GPPO能保持稳定且中等偏高的熵水平,全程无震荡,最终收敛性能更高[21] 算法机制分析 - 超参数实验验证了CE-GPPO的可控熵调节机制:β₁较大时模型更偏向利用熵下降更快,β₂较大时模型倾向于探索熵保持在较高水平[24] - 维持相对高且稳定的熵有利于训练过程中的持续性能提升,给予PA&LP tokens更大梯度权重β₂同时给予NA&LP tokens更小权重β₁有助于维持探索能力[33] - 与CISPO和GSPO等近期RL算法相比,CE-GPPO在不同基准上取得最好结果,因其对clip区间外梯度的管理更加细粒度且样本利用率更高[35][36] - 相比传统的熵正则化和DAPO的clip-higher策略,CE-GPPO能保持平稳的熵曲线,避免性能崩溃或过度探索的问题[37]