Mid-training
搜索文档
行业周报:AI需求持续验证,提升算力需求可预见性-20251123
开源证券· 2025-11-23 13:15
报告行业投资评级 - 投资评级:看好(维持)[1] 报告核心观点 - 互联网行业:双十一竞争回归极致低价及用户体验,AI云需求得到持续验证,主要云服务提供商上调资本开支指引,行业景气度强化 [5][26] - AI行业:Mid-training技术的兴起有望延续Scaling Law,提升了算力需求的可预见性,并刺激数据标注和Data Infra产业的AI化需求 [6][30][38] - 汽车与自动驾驶行业:乘用车市场受政策影响短期承压,但Robotaxi领域迎来重要进展,小马智行与文远知行港股上市,小鹏汽车宣布入局Robotaxi [37][45][48] 分章节内容总结 互联网行业 - 双十一大促期间(2025年10月9日-11月11日)全网零售额近2.4万亿元,同比增长超10% [16] - 平台份额分化,天猫淘宝占比37%,京东占比25%,抖音占比15%,拼多多占比9% [16] - 平台竞争焦点回归低价与用户体验,通过补贴、消费券及会员权益升级提升满意度;淘天主导家居家装与服饰,京东巩固3C数码及家电品类,抖音凭借内容生态切入户外、美妆、服饰等品类 [23] - 英伟达指引当前订单至2026年底有望实现5000亿美元销售额;主要云服务厂商(CSP)如亚马逊、微软、谷歌均上调资本开支指引,亚马逊2025年计划资本开支达1250亿美元 [26][27] - 全球云服务市场规模持续增长,2025年第三季度达?亿美元(原文数据缺失),同比增长22%;微软Azure云业务收入在2025年第三季度增速达40% [27] AI行业 - Mid-training技术介于预训练(Pre-training)与微调(SFT)之间,旨在通过更结构化的监督信号提升模型泛化能力,延续Scaling Law [6][30][33] - 该技术趋势意味着算力与资本的边际投入能获得更明确的边际产出,为CSP厂商上调资本开支提供底层支撑 [6][38] - Mid-training强化了对专业数据标注的需求,美国已诞生三家估值达百亿美元的数据标注独角兽企业(Scale AI, Surge, Mercor) [6][38] - 该技术同样刺激数据基础设施(Data Infra)的AI化需求,利好相关平台公司 [38] 汽车与自动驾驶行业 - 2025年11月1-9日,国内乘用车零售41.5万辆,同比下降19%,环比下降4%;新能源汽车零售26.5万辆,同比下降5%,环比增长16% [41] - 同期新能源车零售渗透率达64% [41] - 11月国内车市迎来近20款新车发布潮,包括智己LS9、岚图泰山、AION i60等新能源车型 [43][44] - 2025年11月6日,小马智行与文远知行同日于香港联交所上市,小马智行(绿鞋后)集资额可达77亿港元,文远知行募资总额(绿鞋前)达23.9亿港元 [45][46] - 小鹏汽车宣布入局Robotaxi,计划于2026年推出三款相关车型,车端算力高达3000TOPS,并率先接入高德平台 [48][53] 市场周度表现 - 本周(2025年11月17日-21日)恒生指数下跌5.1%,恒生科技指数下跌7.2%,恒生互联网科技业指数下跌5.9% [14][60] - 同期,港股通买入成交净额为353.06亿元人民币,环比增长55.6%;资金净流入居前的个股包括阿里巴巴-W(96.9亿港元)、小米集团-W(41.9亿港元)等 [62][65] - 恒生沪港通AH溢价指数为122.15,环比提升3% [65]
首创Mid-training范式破解RL奥秘,Llama终于追平Qwen!
机器之心· 2025-06-30 17:49
基础语言模型研究 - 上海创智学院与上海交通大学的研究论文揭示了Llama和Qwen基础语言模型在强化学习(RL)训练中的性能差异,并提出中期训练(mid-training)策略成功将Llama改造成高度适配RL的推理基础模型,显著缩小与Qwen的性能差距[1][7] - 研究团队通过大规模可控实验(每次训练20B tokens)发现数学语料质量、QA数据分布、指令数据注入和中期训练规模是影响RL效果的关键因素[14][16] - 论文提出的OctoThinker模型在数学推理基准测试中相比原始Llama实现10%-20%性能提升,例如1B模型在GSM8K从7.66提升至44.88,MATH500从4.60提升至27.80[31][32] 数据集开发 - 团队构建了MegaMath-Web-Pro-Max高质量数学语料库,规模达MegaMath-Web-Pro的5.5倍,通过Llama-3.1-70B-instruct标注和fasttext分类器筛选,选择0.4召回阈值平衡质量与数量[17][19][21][25] - 该数据集被MIT、EPFL等顶尖高校和Apple、Microsoft等企业广泛采用,显示学术界与工业界的高度重视[3] - 对比实验显示使用MegaMath-Web-Pro的模型RL性能明显优于FineMath-4plus,证实高质量语料对基础模型和RL训练的关键作用[22] 模型训练方法 - OctoThinker采用两阶段训练方案:第一阶段用200B tokens构建强推理基座(OctoThinker-Base-Stable),第二阶段通过20B tokens分支训练形成短链、长链和混合链三大专业化分支[27][29] - 分支训练采用学习率衰减策略(余弦衰减至初始10%),短链分支含30%竞赛短推理QA,长链分支含30%反思型长推理QA,混合分支平衡两者[27][29] - 3B规模的OctoThinker-Long-Zero经RL训练后性能媲美Qwen2.5-3B,证明该方法有效提升Llama的RL兼容性[35] 行业影响 - Meta AI科学家Wenting Zhao等专家高度评价该研究解决了mid-training中的关键谜题,Pleias AI Lab的独立实验验证了方法的普适性[2] - 开源模型和数据集在GitHub和HuggingFace发布,代码仓库和论文获得广泛关注[5] - 未来研究方向包括精炼数学语料库、开发无需蒸馏的RL友好型基础模型、拓展工具集成推理等新分支[38]