Qwen 3 - 财报，业绩电话会，研报，新闻

Qwen 3

搜索文档

对谈刘知远、肖朝军：密度法则、RL 的 Scaling Law 与智能的分布式未来丨晚点播客

晚点LatePost· 2025-12-12 11:09

文章核心观点 - 大模型的发展存在“规模法则”和“密度法则”两条主线，前者追求能力跃迁，后者追求效率提升，即单位算力/参数下智能的最大化 [12][13][18] - 行业正从盲目追求模型规模转向追求能力密度，效率提升将加速端侧智能（如手机、汽车）和分布式智能的发展，最终实现每个人的“专属大模型” [9][10][35] - 强化学习尚未出现清晰的Scaling Law，是当前主要瓶颈，未来的关键方向是自主学习（Self-Learning）和“AI造AI” [24][34][36] 大模型演进的明线与暗线 - **明线：规模法则 (Scaling Law)**：自2018年预训练模型出现后，每隔几年模型能力就会跳跃一次，模型正变得更通用，甚至开始接近或超越人类在某些领域的能力 [12] - **暗线：密度法则 (Densing Law)**：这是大模型时代的“摩尔定律”，关注如何用更少的计算和数据资源更高效地获得智能，核心是追求单位计算带来的智能最大化 [13][14][18] - **密度法则的量化表现**：根据研究，大模型的能力密度（衡量单位参数/算力下模型能力的指标）每3.5个月翻一倍，自2023年1月ChatGPT出现后，这一速度在加快 [4][7] 提升模型能力密度的具体方法 - **模型架构优化**：核心方向包括采用稀疏化的混合专家系统以降低算力消耗，以及对注意力机制进行各种效率改进以应对长文本和Agent任务的需求 [19][20] - **数据治理与合成**：通过高质量的数据清洗、精选和合成，可以大幅提升训练效率，例如将预训练数据集精炼至不到原始容量的1/10，效果反而更好 [22][23] - **学习算法演进**：当前重点转向强化学习，但其尚未出现清晰的Scaling Law，主要瓶颈在于难以构建可扩展的环境和可验证的激励 [24][25] - **软硬一体协同优化**：结合芯片制程进步（摩尔定律）与模型能力密度提升，共同推动端侧设备承载以往只能在云端运行的大模型能力 [30][31] 强化学习的现状与未来探索方向 - **当前瓶颈**：强化学习缺乏像预训练那样清晰的Scaling Law，大多数训练仅几千步，如何持续稳定训练并构建“不可破解”的学习环境是核心挑战 [24][25] - **两条探索路径**：一是继续扩大RL的规模，探索开放域的激励定义；二是寻找更高效的新学习方式，提高样本效率，让模型能像人一样通过少量反馈学习新任务 [26][27] - **RL的已验证能力**：只要有足够数据和反馈，强化学习已能在数学、代码等特定任务上达到人类前0.1%甚至0.01%的水平，预示了打造垂直领域“超级专家模型”的潜力 [25] 端侧智能与分布式智能的未来 - **端侧算力规模**：2023年全国端侧算力（主要是手机）是数据中心算力的12倍，信息化本质是分布式算力和信息的结构，智能化也将遵循这一路径 [9][35] - **端侧部署时间表**：结合密度法则提升和芯片路线图，预测到2030年左右，端侧可部署600亿以上参数的模型，5年内端侧很可能承载GPT-4至GPT-5能力的模型 [32] - **具体应用进展**：车端模型量产速度非常快，已与多家车企合作；预计2027年成为关键节点，届时手机可实现大规模强化学习，支持个人数据训练“专属大模型助理” [32][33] - **未来形态**：智能将分布式存在，形成“智能体的互联网”，个人拥有基于终端数据持续成长的“个人大模型”，云端则存在各垂直领域的“专家大模型” [10][35][36] 下一阶段的范式演进：自主学习与AI造AI - **核心方向**：预训练和强化学习之后，下一个大的方法改进是自主学习，即模型能作为一个高效的学习者，根据用户需求在终端上持续学习新技能 [34] - **发展三阶段**：第一阶段是实现自主学习；第二阶段是具备自主学习能力的AI之间的协作；第三阶段是具备创造新符号关系乃至新符号系统的创新能力 [34][35] - **AGI的雏形**：最早的AGI形态可能不是面向消费者的产品，而是面向生产的系统，具备“AI造AI”的能力，即能自主完成数据生产、环境构建、模型训练和部署的全流程 [36]

Artificial Intelligence

Artificial Intelligence

中泰证券：Gemini 3 Pro能力全方位跃升开创Agent平台新格局

智通财经· 2025-11-20 16:01

文章核心观点 - 基础模型能力持续超预期提升，行业增长逻辑未变，维持“增持”评级 [1] - 模型能力的突破性进展将提升应用场景渗透率，同时重塑价值链格局并侵蚀应用层公司边界 [1] - 投资建议关注确定性强的算力层、模型层公司及深度嵌入业务流程的B端应用厂商 [1] Gemini 3模型性能表现 - Gemini 3 Pro在Humanity's Last Exam中得分37.5%，大幅超越GPT-5.1的26.5%和ClaudeSonnet 4.5的13.7% [2] - 在数学能力测试MathArena Apex中得分23.4%，大幅超越GPT-5.1的1.0%和ClaudeSonnet 4.5的1.6% [2] - 在MMLU-Pro、Video-MMMU等多模态评测中均取得SOTA成绩 [3] Gemini 3的技术与生态创新 - 推出生成式用户界面方案，能自动生成完全定制的交互式响应，实现定制化交互体验 [3] - 推出智能体开发平台Google Antigravity，支持开发者免费使用Gemini 3 Pro等模型编排多个AI Agent并行工作 [3] - 搜索场景推出Search AI Mode，其AI Overview月度用户量已达20亿量级，查询扇出技术获重大升级 [4] 行业趋势与价值链格局 - 基础模型大厂呈现全栈布局趋势，在基础层自研芯片和搭建算力集群 [5] - 应用层厂商正从模型提供商迈向平台，并进一步走向通用工作流或类应用 [5] - 在通用知识工作、办公与代码开发等横向场景中，独立SaaS产品正被整合为基础模型的模块、Agent或App接口 [5]

开源破局AI落地：中小企业的技术平权与巨头的生态暗战

21世纪经济报道· 2025-11-11 22:20

开源AI采用现状 - 超过50%的受访企业在AI技术栈的数据、模型与工具层面使用开源技术[1] - 科技、媒体与通信行业的开源AI使用率最高，达到70%[1] - 开源技术通过公开源代码与全球协作，让企业能够根据自身需求快速定制解决方案[1] 企业AI落地挑战与策略 - 企业需要迅速接入大模型，但也要合理应用以规避风险，避免在单一模型厂商上绑死[2] - 企业面临高效利用异构资源的挑战，包括GPU、CPU等多样化算力以及公有云、边缘计算和私有数据中心等多种部署环境[2] - 不同部门或业务场景可能使用不同的大模型或定制小模型，使资源管理更加复杂[2] - 开源生态可以兼容多样化环境，支持企业的不同业务[3] AI操作系统与推理引擎 - 企业需要有弹性、可扩容的AI应用平台，同时兼顾成本与信息安全，AI操作系统是核心中枢[4] - AI操作系统应通过标准化接口和模块化设计，对应不同硬件和不同模型，其核心是推理引擎[4] - 在超过350个企业中，仍有超过51%的企业尚未部署任何推理引擎[5] - 推理引擎类似于传统操作系统在CPU上的作用，通过标准化和模块化设计实现GPU和其他算力的高效利用[4] 开源推理引擎发展 - vLLM是一个高性能、开源LLM推理和服务引擎，旨在提升LLM的推理速度和GPU资源利用率[6] - 红帽发布了开源项目llm-d，进一步增强vLLM推理能力，为AI推理的规模化落地提供方案[6] - Meta的Llama系列推理框架主要针对自家服务，在跨模型与硬件适配能力方面有限[6] - vLLM和SG Lang等开源推理引擎由于支持多种模型和硬件，更适合企业场景[6] 行业趋势转变 - AI落地叙事从造模型转向跑模型，从比拼算法转向构建生态[4] - 开源社区为全球开发者打下良好基础，企业只需在社区中找到技术并企业化[4] - 企业应充分利用开源社区的集群效应，结合企业级AI平台，实现任意云环境、任意模型和加速器的AI部署[6]

怒涨13%！王者归来！创23年3月以来最佳单日表现！阿里巴巴Q2电话会全文：AI芯片B计划曝光！替代英伟达？

美股IPO· 2025-08-30 08:25

股价表现与市场反应 - 阿里巴巴股价单日收涨13% 创2023年3月以来最佳单日表现 [1] - 中概指数8月整体上涨6% 实现连续四个月上涨 [1] 淘宝闪购业务进展 - 淘宝闪购上线四个月月度活跃用户突破3亿较4月前增长200% [1][4] - 7月日均订单达1.2亿单 8月周日均订单维持在8000万单水平 [4] - 活跃骑手数量增至200万较4月增长三倍 [4] - 闪电仓数量超过5万家订单同比增长超360% [27] - 盒马接入后线上订单突破200万单同比增长70% [27] 云业务与AI投入 - 云业务收入同比增长26%至333.98亿元 [3][5][9] - AI相关收入占外部客户收入比例超过20% [5][9] - 过去四个季度累计投入超1000亿元于AI基础设施与研发 [5][13] - 未来三年计划投入3800亿元用于AI资本开支 [5][13][21] - 与SAP达成全球云计算合作伙伴关系支持客户使用Q1模型 [10] 技术产品创新 - 发布升级版Qwen 3系列模型包括非同步模型、推理模型和AI编码模型 [11] - 开源视频生成模型、文本到图像模型等多个AI模型 [11] - 高德地图推出全球首个AI原生位置应用高德地图2025 [11] - 推出Agent Bay产品为智能体提供底层沙盒环境 [40][41] 业务整合与战略调整 - 整合淘宝、天猫、饿了么和飞猪成立阿里巴巴中国电子商务集团 [12] - 推出分层忠诚度计划连接多个业务板块会员权益 [12] - 88VIP会员数突破5300万保持两位数同比增长 [18] - 更新分部报告方式将盒马、饿了么等业务归入"其他"类别 [20] 财务表现 - 二季度总营收2477亿元中国电商业务收入1401亿元同比增长10% [17][18] - 云智能集团经调整EBITA利润率稳定在8.8% [19] - 国际数字商业集团收入增长19% 接近盈亏平衡 [19] - 自由现金流为净流出188亿元主要因AI基础设施投入增加 [16] 未来发展规划 - 预计未来三年超过百万家线下品牌门店接入即时零售 [5][28] - 即时零售业务预计带来约1万亿元新增成交额 [5][28] - 计划投资500亿元用于消费领域 [13][37] - 智能体时代将重点关注模型编码能力和工具连接能力 [42] 市场竞争与投资策略 - 即时零售业务已实现规模领先日均订单达1.2亿单 [23] - 通过用户结构优化、订单价值提升和履约效率改善来提升单位经济效益 [25] - 在保持价格竞争力前提下预计即时零售将对平台产生正向经济收益 [26] - 拥有足够资源同时投入AI和消费两大战略领域 [46][47]

21世纪经济报道· 2025-08-08 13:11

GPT-5技术突破 - GPT-5是融合模型，能根据问题复杂度自动调整思考深度，在速度与准确性间取得平衡[2][7] - 在数学推理(AIME 2025测试94.6%)、多模态理解(MMMU 84.2%)、医疗健康(HealthBench Hard 46.2%)等基准测试创下新高[4] - 编程能力显著提升：SWE-bench Verified测试74.9%，Aider polyglot测试88%，可生成数百行可运行代码且无需调试[4] 行业应用深化 - 医疗领域表现突出，被描述为"最准确的医疗问题解答模型"，能结合患者个人情况提供细致建议[6] - 编程场景落地成熟，Meta预计明年50%代码由AI编写，微软当前20%-30%代码为AI生成[5] - 在40多种职业任务中表现优于人类专家，覆盖法律、物流、销售等高附加值领域[10] 商业化战略调整 - 年化经常性收入从6月100亿美元跃升至130亿美元，预计年底突破200亿美元[8] - 推出1美元政府服务计划，与美国国防部签署2亿美元合同，重点拓展企业及政府市场[8][9] - 当前75%收入依赖消费者订阅，企业市场份额25%落后于Anthropic(32%)[10] 市场竞争格局 - 面临谷歌Genie 3、Meta Llama 3及中国Qwen 3等竞品压力[8] - Anthropic凭借安全性占据金融/医疗市场，谷歌依靠云基础设施提供一站式方案[10] - 公司计划2026年在华盛顿设立办事处，强化政府关系[9]

量子位智库2025上半年AI核心成果及趋势报告

2025-08-05 11:19

**行业与公司关键要点总结** --- **1. 行业概述** - **AI行业核心逻辑**：技术范式推动模型能力增强，解锁更大应用空间，加速价值创造 [7] - **四大趋势方向**：应用趋势、模型趋势、技术趋势、行业趋势 [4] --- **2. 应用趋势** - **通用类Agent**： - 深度整合工具使用，完成复杂研究任务（如生成图文报告、视频素材）[9] - 交付内容深度提升（从简单文字到多文件编辑）[9] - **Computer Use Agent (CUA)**： - 基于视觉操作GUI，打破数据孤岛，但成本高、异步化难 [12] - **垂类Agent涌现**： - **旅行**：飞猪“问一问”支持多Agent协同（路线规划、票务查询）[13] - **设计/创作**：自然语言生成生产级海报/视频（如GPT-4o图像生成）[13][26] - **时尚**：自然语言生成穿搭方案 [13] - **AI编程**： - Cursor ARR突破5亿美元，演化阶段：代码补全→端到端交付 [15] - 验证成本高（人类反馈占90%工作量），需拆解为小问题解决 [48] - **模型上下文协议（MCP）**： - 标准化接口调用外部工具，但生态未成熟（仅支持20-30个调用）[16] --- **3. 模型趋势** - **推理能力提升**： - 思维链技术推动数学/代码能力进步（如AIME 25准确率+23%）[19] - 工具使用端到端训练（如o3模型，任务准确率+81%）[21] - **多模态融合**： - 视觉推理（如o3模型解决量子力学题目）[24] - 图像生成控制力增强（支持16个细节指令、多轮编辑）[26] - 视频生成整合原生配音（如Veo 3唇动同步）[27][28] - **小模型普及**： - 极致性价比（如Qwen3-0.6B、Gemma 3n仅需2GB RAM）[33] - **评估演化**： - 传统静态榜单饱和，转向实用性任务（如HealthBench医疗评估）[35] --- **4. 技术趋势** - **训练阶段重心**： - 预训练（基础能力）与后训练（激发能力）并重，强化学习算力需求超预训练 [39][41] - **强化学习**： - 算力消耗未来占比最高（如xAI集群扩展至100万卡规模）[56] - **多智能体系统（Multi-Agent）**： - 分布式处理提升效率（如Grok 4采用此架构）[43] - **在线学习**： - 从交互经验中学习，突破人类数据依赖（如Google Deepmind“经验时代”）[44] - **Transformer架构迭代**： - 优化注意力机制（如MiniMax-01支持400万token上下文）[45] - 混合架构涌现（如腾讯混元T1融合Mamba-Transformer）[46] --- **5. 行业趋势** - **头部玩家竞争**： - OpenAI领先优势缩小，谷歌Gemini 2.5 Pro、xAI Grok 4（科学/工程类SOTA）达第一梯队 [58] - 中美差距缩小：中国多模态（如Seedance视频生成）和代码能力（Qwen3-Coder）达SOTA [60][61] - **AI编程争夺战**： - 海外：OpenAI Codex、Anthropic Claude Code、谷歌Gemini Code [62] - 国内：通义灵码、字节Trae（对标Cursor）[63] - **创业公司分化**： - 技术驱动（如DeepSeek开源R1模型）vs. 商业化落地（如零一万物聚焦B端）[64] - **算力竞赛**： - xAI算力集群快速扩张（2025年达100万卡），强化学习算力需求+567% [56] --- **6. 其他关键数据** - **视频生成商业化**：字节可灵月收入1400万美元 [31] - **系统提示词**：Claude模型1.7万字提示词决定用户体验 [51] - **验证瓶颈**：AI编程中90%工作量来自代码验证 [48] --- **注**：所有数据与观点均引自原文标注的文档ID，未进行主观推断。

大模型年中报告：Anthropic 市场份额超 OpenAI，开源模型企业采用率下降

Founder Park· 2025-08-04 21:38

基础大模型发展趋势 - 基础大模型正成为生成式AI核心引擎并重塑计算未来其能力与成本控制的演进将推动系统应用及产业格局变革 [2] - 模型API支出在6个月内从35亿美元增长至84亿美元企业重心从训练微调转向模型推理标志阶段性转折 [2] - 代码生成成为首个大规模爆发的AI应用场景基础模型能力升级路径新增"带验证器的强化学习"(RLHF with verifiers) [2] 市场竞争格局变化 - Anthropic以32%企业使用率超越OpenAI(25%)和Google(20%) 成为市场新领跑者 Meta Llama占9% DeepSeek仅1% [9] - Anthropic崛起始于2024年6月Claude Sonnet 3 5发布 2025年系列版本(Claude Sonnet 3 7/4 Opus 4 Claude Code)巩固领先地位 [12] - 企业投入集中流向少数高性能闭源模型开源采用趋势因前沿突破放缓而减弱 [3] Anthropic成功驱动因素 - 代码生成领域占据42%市场份额(OpenAI为21%) 催生19亿美元生态系统及AI IDE 应用构建工具等新形态产品 [13][14] - 采用带可验证奖励的强化学习(RLVR)突破数据瓶颈成为提升模型可靠性与实际能力的关键路径 [15] - 率先实现Agent范式突破通过多轮自我优化及工具调用提升模型执行力 2025年被称为"Agent之年" [16] 开源模型发展现状 - 开源模型运行任务占比从19%降至13% Meta Llama仍领先但Llama 4表现未达预期 [17] - 中国公司贡献突出开源模型(DeepSeek 字节跳动阿里巴巴等) 但性能落后前沿闭源模型9-12个月叠加部署复杂度导致份额停滞 [17][20] - 开源吸引力在于定制化成本优势及私有化部署但初创企业生产负载正加速转向闭源 [20] 企业模型选择行为 - 66%开发者选择原供应商升级仅11%切换供应商性能(非价格)是核心决策因素 [24][27] - 性能优先逻辑下旧模型即使降价十倍也无法挽回用户 Claude 4发布一个月内即抢占45%用户 [27][30] - AI支出从训练转向推理初创企业推理任务占比从48%升至74% 近半数企业主要计算任务由推理驱动 [31]

2025上半年AI核心成果及趋势报告量子位智库 2025-7_01

搜狐财经· 2025-08-04 16:16

应用趋势 - 通用类Agent深度整合工具使用，完成场景多样的深度研究类任务，交付内容更加丰富，成为2025上半年应用亮点 [1][9] - 以视觉操作为核心的Computer Use Agent (CUA)开始推向市场，代表通用类Agent的另一条路径，正在与基于文本的深度研究类Agent融合 [1][9] - 垂类应用场景开始Agent化，自然语言操控功能正在成为垂类工作流的一部分，覆盖旅行、设计、创作、时尚等领域 [11][12] - AI编程成为当前最核心的垂类应用领域，正在从源头改变软件生产方式，头部编程应用收入增长速度创纪录，获得市场有效验证 [13][14] - 模型上下文协议MCP加速大模型应用普及，赋能模型获取大量外部信息、操控现有软件应用，打开更大应用空间，但尚未达到规模化生产级水平 [1][15][16] 模型趋势 - 模型推理能力在思维链范式下持续提升，数理类、代码类问题提升尤其显著，AIME 25准确率提升7%，GPQA Diamond准确率提升23%，Codeforce代码竞赛排名提升43% [18] - 模型开始走向Agentic，对工具使用进行端到端训练集成，工具使用能力相比原本的思维链推理有重大提升，可完成更复杂困难的任务 [1][19][20] - 大模型开始端到端融合视觉和文本走向多模态推理，以语言为中枢逐步解锁多模态推理的系统2慢思考 [22][23] - 模型图像生成能力全方位增强，语言理解能力升级和审美提升，普通用户可以仅通过自然语言进行完整创作 [24] - 视频生成模型整合原生配音，可控性和编辑灵活度增加，生成视频的物体一致性和物理规律协调性增强，AI视频商业化和普及度进展积极 [26] - 模型智能密度持续提升，模型厂商积极推出小模型实现极致性价比，降低模型部署硬性门槛，加速模型应用普及 [26] - 模型评估加速演化，传统评估榜单快速饱和，可以动态更新，能在真实世界产生使用价值任务成为重要评估方向 [27] 技术趋势 - 训练资源向后训练和强化学习倾斜，预训练仍然有充足的优化空间，二者最终共同决定模型能力 [29] - 强化学习的重要性继续提升，算力消耗在未来会超过以自监督学习为核心的预训练，未来会从数学、代码等奖励清晰的领域向其他领域泛化 [28][30] - 多智能体系统可能成为继思维链推理模型之后的下一个前沿范式，继续提高智能上限 [31][32] - 在线学习有希望成为下一代模型学习方式，正在成为核心突破，可使模型摆脱对人类数据的依赖，提高智能上限 [33][34] - Transformer模型架构正在快速迭代，优化主要集中在注意力机制和前馈神经网络等层面，在工业界有多个落地案例 [35] - Transformer混合架构正在涌现，以RNN变体为主，已经出现在工业界大规模应用 [35] - 由于生成和验证难度的不对称性，代码验证成为目前AI编程自动化水平提升的前沿方向，可进一步加速软件生产自动化 [36][37] - 系统提示词正在成为决定模型用户体验的关键技术要素，相比更新大模型更加轻量化、敏捷化 [38][40] 行业趋势 - xAI发布Grok 4在多个领域达到SOTA水平，跻身全球大模型第一梯队，改变模型层竞争格局 [43][44] - 算力是AI竞赛中的关键竞争要素，强化学习对算力的需求超过预训练，头部大模型玩家的计算集群已达到数十万卡规模，并在持续扩张中 [47][48] - OpenAI技术领先优势明显弱化，海外头部玩家水平趋同，xAI上半年迎头赶上，模型在多个领域达到SOTA水准 [49] - 中美通用大模型技术差距缩小，中国模型公司在通用大模型之外的多模态领域达到SOTA水平，尤其多模态领域表现出色 [51] - AI编程领域成为模型厂商必争之地，海外和国内头部玩家在AI编程的模型和产品领域密集布局 [52][53] - 国内大模型创业公司路线开始分化，部分厂商积极发布前沿模型产品追求智能上限，其他厂商专注垂类领域和商业化落地，放缓通用模型投入 [54]

Artificial Intelligence

Agent

Multi - Agent

Online Learning

Artificial Intelligence

GPT - 40

Artificial Intelligence

Agent

Multi - Agent

Online Learning

Artificial Intelligence

GPT - 40

现在全世界最好的开源模型，是 Kimi、DeepSeek 和 Qwen

Founder Park· 2025-07-21 21:26

中国开源模型全球竞争力 - Kimi K2成为全球最强开源模型在LMArena开发者盲测榜单中占据榜首中国开源模型包揽前三名包括Kimi K2、DeepSeek R1和Qwen 3 [1] - Hugging Face平台数据显示 Kimi K2发布后迅速登顶热门模型榜首并持续超过一周 [5] - 发布仅3天 Kimi K2的第三方token调用量已飙升至开源模型第二仅次于DeepSeek [4] 技术性能与社区反响 - Kimi K2是1T参数的MoE模型发布后一周内基于其fine-tune和量化的衍生模型达20个下载量超14万超越Llama-4-Maverick-17B等竞品 [7] - 在Imarena竞技场排名中 Kimi K2位列第五是评分最高的开源模型超越DeepSeek R1 前四均为闭源旗舰模型如Gemini 2.5和GPT-4.5 [9] - Perplexity CEO宣布基于K2进行post-train 成为继Llama 3.3后第二个获此待遇的非推理模型 [9] 行业生态应用 - VS Code、Cline、Cursor等主流AI Coding软件已官方接入K2模型在Claude和Gemini被封锁的大陆市场成为关键替代方案 [10] - OpenRouter平台数据显示 K2发布后周调用量迅速超越Grok 4 位列第十 [10] - 硅谷科技媒体将K2发布比作"下一个DeepSeek时刻" 认为其编程和工具使用得分亮眼具备实际应用潜力 [11][13] 国际行业评价 - Anthropic联创Jack Clark评价K2为"目前全球最佳开源权重模型" 性能接近西方顶级闭源模型 [12][13] - Exponential View认为K2标志着中国AI技术的"东方红一号时刻" 其MuonClip优化器实现算法突破训练效率达AdamW的两倍 [14] - 艾伦研究所指出美国开源模型已落后中国形成DeepSeek、Qwen和Kimi三驾马车引领格局 [16][17] 开源战略价值 - 开源成为国内基模公司的必选模式通过社区协作加速迭代同时获得技术认可和资源支持 [19][21] - 模型公司通过开源建立技术标杆吸引开发者生态形成不同于DAU/ARR的新价值评估体系 [20][22] - 月之暗面团队认为开源能降低研发成本使公司更专注于下一代模型开发形成正向循环 [22]

AI开源模型

Artificial Intelligence

Artificial Intelligence

大模型强化学习新突破——SPO新范式助力大模型推理能力提升！

机器之心· 2025-06-08 16:21

强化学习在大语言模型中的应用 - 强化学习（RL）在提升大语言模型（LLM）推理能力方面展现出巨大潜力，DeepSeek R1、Kimi K1.5 和 Qwen 3 等模型证明了其有效性 [1] - 实现有效强化学习需要解决信用分配问题，即如何将序列最终的评估结果归因到具体的决策动作（token）上 [2] - 信用分配问题的困难在于奖励信号非常稀疏，只能在序列结束时获得明确的成功或失败反馈 [3] 当前主要方法 - 强化学习中通常采用优势值估计（advantage estimation）方法解决信用分配问题，针对大语言模型的方法分为两类 [5] - 粗粒度的轨迹级方法（如 GRPO）根据最终奖励为整个序列计算优势值，高效但反馈信号过于粗糙 [6] - 细粒度的 token 级方法（如 PPO）为每个 token 估计优势值，但需要额外 critic 模型且估计误差大 [6] SPO 框架 - 中科院软件所和香港城市大学团队提出 Segment Policy Optimization (SPO) 框架，采用中等粒度的段级优势值估计方式 [8][11] - SPO 框架具有三大优势：更优的信用分配、更准确的优势值估计、更灵活易调整的粒度 [12] - SPO 框架包含三个核心部分：灵活的段级划分策略、基于蒙特卡洛采样的段级优势值估计、利用段级优势值进行策略优化 [13] SPO 框架的具体实例 - 针对短思维链场景提出 SPO-chain，使用基于切分点的段划分和链式优势值估计 [15] - 针对长思维链场景提出 SPO-tree，采用树形结构优势值估计方法提升 MC 采样效率 [15] - 提出 token 概率掩码策略优化方法，选择性对段内低概率 token 计算损失以强化信用分配 [16] SPO 框架核心技术 - 基于切分点的段划分（Cutpoint-based Partition）为短思维链场景设计，根据 token 概率动态确定段边界 [19] - 固定 token 数量段划分（Fixed Token Count Partition）为长思维链场景设计，便于树形结构组织和优势值估计 [19] - 链式优势值估计（Chain-based）方法在短思维链场景下独立估计每个段边界的 V 值 [22] - 树形优势值估计（Tree-based）方法在长思维链场景下通过自底向上的奖励聚合计算 V 值 [23] 实验结果 - 在短思维链场景（GSM8K 数据集），SPO 训练得到的模型测试集正确率高于基线方法 [29] - 在长思维链场景（MATH 数据集），SPO-tree 在相同训练时间下测试集正确率比 GRPO 更高 [31] - 与 GRPO 方法相比，SPO-tree 在短上下文长度（2K 与 4K）下表现更优，表明 GRPO 可能未有效优化 token 效率 [33] - 实验证明 SPO 采用中等粒度优势值有效，过粗粒度（int100）会导致正确率明显下降 [38] - token 概率掩码去除会导致 SPO-chain 正确率下降，应用到 GRPO 上则能提升其正确率 [40] 总结 - SPO 框架在 token 级和轨迹级之间更好平衡，具有比轨迹级更好的信用分配，且不需要额外 critic 模型 [42] - SPO-chain 和 SPO-tree 通过实验证明了其在短思维链和长思维链场景下的有效性 [43]