强化学习 - 财报，业绩电话会，研报，新闻 - Reportify

强化学习

搜索文档

AGI的不归之途

虎嗅APP· 2025-06-03 21:52

大模型与智能体进展 - 2025年上半年OpenAI o3、Gemini 2 5 pro、Grok 3 mini和Claude 4等大模型密集发布智能体协议MCP、A2A的融合推动AGI进程加速 [3] - 硅谷研究机构METR数据显示智能体完成任务复杂程度每7个月翻倍 Claude-opus 4可连续工作7小时初级白领岗位面临大规模替代风险 [3] - Anthropic创始人预测2026年将出现"一人独角兽公司" 智能体技术正在突破鲍莫尔病对服务业效率的限制 [3] 科技巨头战略调整 - 美国科技七雄大幅增加AI基础设施投入同时裁撤可替代岗位 OpenAI年化收入达百亿美元 Anthropic收入半年内从10亿增至30亿美元 [4] - 中国科技巨头创始人深度参与技术变革阿里、腾讯、字节等企业成为创新引擎 [10] - ChatGPT用户增长爆发显示技术优势与用户体验并非完全正相关 [22] 中美AI竞争格局 - 中国DeepSeek R1 0528性能超越Gemini 2 5 pro 逼近OpenAI o3 在开源模型领域建立成本优势 [5] - 中美前沿大模型差距从ChatGPT发布时的2年缩短至2025年上半年的不足3个月 [11] - 中国在开源社区和国家级基础设施方面快速推进形成与美国全面对标的竞争态势 [11][36] 下一代技术突破 - OpenAI计划将GPT-5打造为推理与生成统一的原生多模态模型已陆续拆分部分功能提前发布 [17] - DeepSeek下一代模型V4/R2将采用NSA稀疏注意力机制支持端到端训练提升长期记忆能力 [18][19] - 文本扩散生成技术取得进展 Gemini Diffusion实现每秒1500 token输出中国高校及企业推出LlaDA-8B等创新模型 [31][32] AGI探索新路径 - OpenAI前成员创立SSI(估值320亿)和Thinking Machines Lab(估值90亿) 探索强化学习与思维链等新范式 [24][25] - 程序合成技术被视为突破传统范式局限的关键 AlphaEvolve已展示解决复杂数学问题的能力 [29][30] - 研究显示AI"思考时长"与"思考方式"同等重要需建立自我规划思考深度的机制 [26] 商业化与生态演进 - AI行业呈现高增长+高投入特征中国科技大厂增加资本支出准备大规模商业化 [35] - 智能体时代商业模式可能打破"赢家通吃" 横向平台与垂直专家的融合成为关键 [35] - 变现逻辑从使用频率转向注意力、语境与控制权的争夺地缘竞争成为核心变量 [36]

文本生成扩散

文本生成扩散

AGI的不归之途

虎嗅· 2025-06-03 07:53

大模型技术进展 - 2025年上半年OpenAI o3、Gemini 2 5 pro、Grok 3 mini和Claude 4等前沿大模型密集发布智能体MCP、A2A等协议推动应用加速发展 [1] - 智能体完成任务复杂程度每7个月翻倍 Claude-opus 4可连续工作7小时正从初级白领工作开始逐步接管更多人类任务 [1][2] - 中国DeepSeek R1 0528性能超越Gemini 2 5 pro并逼近OpenAI o3 在缺乏算力基础上通过后训练实现性能跃升且具有开源和成本优势 [3] - 中国在开源领域确立优势通义千问2024年9月超越Llama 3 DeepSeek R1 2025年初赶上o1 Llama 4推出未改变中企领跑格局 [4] - GPT-5将整合推理与生成功能成为原生多模态模型 OpenAI已逐步拆分发布其部分功能可能受DeepSeek竞争压力影响 [16] 行业竞争格局 - OpenAI年化收入达百亿美元 Anthropic半年内从10亿增至30亿美元 AI应用在编程、设计、医疗等领域初现规模产出 [2] - 美国科技七雄和中国阿里、腾讯等巨头创始人深度参与AI革命中国响应速度明显快于1995年互联网时代 [8][9] - 中美前沿大模型差距从ChatGPT发布时的两年缩短至不足三个月中国已建立全面对标的竞争态势 [10] - ChatGPT用户增长爆发显示技术优势不等于应用体验优势开源模型如何打造杀手级应用成为中国AI创新者挑战 [22] - AI商业化将呈现高增长+高投入态势中国科技大厂增加资本支出准备放手一搏 [35] 技术突破方向 - DeepSeek下一代模型可能采用原生多模态架构聚焦代码、数学和自然语言已探索数学证明模型Prover和多模态模型Janus [17] - DeepSeek研发NSA稀疏注意力机制和BSBR技术支持端到端训练和长期记忆检索提升代码生成和多轮互动能力 [18] - 程序合成技术成为AGI新探索方向可通过少量示例实现问题泛化谷歌AlphaEvolve已展示其在数学解题中的潜力 [27][28] - 文本扩散生成技术取得进展 Gemini Diffusion达每秒1500token 中国多所高校和企业推出相关模型探索技术边界 [30][31] 地缘政治影响 - AI领导力可能带来地缘政治领导力中国在开源社区和国家级基础设施方面快速推进形成与美国差异化优势 [9][39] - 全球AI竞争核心是美中战略博弈两国都将AI视为经济杠杆和地缘政治影响力来源 [40] - ChatGPT主要用户来自亚洲人口大国美国比中国更依赖全球市场 [11]

AGI（通用人工智能）

文本生成扩散

Artificial Intelligence

AGI（通用人工智能）

文本生成扩散

Artificial Intelligence

挑战强化学习后训练霸权！全新无监督方法仅需1条数据+10步优化

量子位· 2025-06-01 11:40

核心观点 - 熵最小化（EM）是一种无监督方法，仅用一条无标签数据和10步训练即可显著提升大语言模型（LLM）性能，甚至超越使用大量数据的强化学习（RL）方法 [1] - EM通过最小化模型预测分布的熵来优化模型，无需标注数据或外部监督，与预训练目标完全兼容 [4][8] - 在数学推理任务上，EM方法将Qwen2.5-Math-7B的准确率从53%提升到78.8%（MATH500测试集），从11%提升到35.3%（Minerva Math测试集），从44.1%提升到70.3%（AMC23测试集） [13][14] - EM与RL对模型置信度的影响方向相反：EM导致Logits分布右移，强化模型自信；RL导致左移，受真实信号引导 [15][16][17][18][19] - EM适合未经过大量RL调优的基础模型、需要快速部署或资源有限的场景，但可能对已深度调优的RL模型产生负面影响 [30][31][34] 从RL到EM：LLM微调的困境与新思路 - 当前LLM后训练主流方法是强化学习（RL），特别是结合可验证奖励的RL（RLVR） [2] - RL方法面临高质量标注数据依赖、复杂奖励函数设计、额外奖励模型需求和巨额计算开销等问题 [3][4] - EM提出全新思路，仅依赖模型自身预测分布的熵进行优化，无需外部监督 [4][8] 熵最小化（EM）的实现方法 - EM通过最小化标记级别的熵来减少模型预测不确定性，核心公式涉及条件熵和总体EM损失 [5][6][7] - 该方法鼓励模型提高对自身预测的信心，不依赖外部监督信号或奖励函数 [8] - EM成功依赖示例选择，研究者采用基于模型表现方差的筛选方法，挑选预测不一致性高的示例 [9][10][11] 实验结果 - 仅用一条示例和10步训练，EM方法使Qwen2.5-Math-7B在多个数学推理任务上性能大幅提升 [12][13] - 在MATH500测试集准确率提升25.8个百分点，Minerva Math提升24.3个百分点，AMC23提升26.2个百分点 [14] - EM方法缩小了与先进RL模型的差距，在AMC23基准测试中达到70.3分 [14] EM与RL的对比分析 - EM训练导致Logits分布右移，强化模型自信，增加高概率候选token数量 [16][17] - RL训练导致Logits分布左移，受真实信号引导，减少高概率路径数量 [18][19][20] - 这种差异通过Logits分布偏度量化：EM提高偏度呈现右偏，RL降低偏度甚至导致左偏 [21] EM的局限性 - 存在"过度自信"陷阱，训练约10步后性能达到顶峰，继续训练反而导致性能下降 [26] - EM训练具有显著随机性，相同设置下因种子不同平均得分可能相差高达两倍 [29] EM适用场景 - 适合未进行大量RL调优的基础模型或仅经过SFT的模型 [30] - 适合需要快速部署、资源有限的场景，对数据需求极低 [31] - 可作为现有后训练范式的补充或起点，在RL之前应用能带来增益 [32][33] - 对已深度调优的RL模型可能产生负面影响 [34] 未来研究方向 - 需要探索训练稳定性与鲁棒性，如早停标准或自适应调度机制 [35] - 研究泛化能力与跨领域应用，如对话、摘要、代码生成等领域 [36] - 探索与现有技术（SFT、RLHF等）的融合，构建更强大混合方法 [37] - 深入研究EM作为轻量级信心校准方法的潜力 [38][39]

大语言模型后训练

熵最小化（EM）方法

大语言模型后训练

熵最小化（EM）方法

见证历史！DeepSeek 跃居全球第二 AI 实验室，R1 登顶开源王座，R2 全网催更

程序员的那些事· 2025-06-01 10:04

模型性能升级 - DeepSeek-R1-0528在数学、编程、通用逻辑性能上媲美最强o3和Gemini 2.5 Pro [1][2] - 在AIME 2025测试中准确率从70%提升至87.5% [16] - MMLU-Pro (EM)得分从84.0提升至85.0，GPQA-Diamond (Pass@1)从71.5提升至81.0 [17] 技术优化亮点 - 幻觉率降低45%-50%，尤其在改写润色、总结摘要等场景表现更可靠 [24][25] - 支持JSON输出和函数调用，工具调用能力在Tau-Bench测评达airline 53.5%/retail 63.9% [7][31] - 前端代码生成能力增强，可快速生成完整应用（如单词复习卡片APP） [33][34] 开源模型突破 - 基于Qwen3-8B Base微调的DeepSeek-R1-0528-Qwen3-8B性能超越Qwen3-235B，参数仅为其1/30 [36][38] - 在AIME 2024测试中得分86.0，超越Gemini-2.5-Flash的82.3 [39][40] - 数学性能强于Phi-4 14B，与Qwen3-235B相当 [37][39] 行业地位提升 - DeepSeek成为全球第二大AI实验室，开源模型领导者 [9][44] - 智能指数从60分跃升至68分，进步幅度与OpenAI o1到o3相当 [46] - 性能超越xAI Grok 3 mini、Meta Llama 4 Maverick等，与Gemini 2.5 Pro并驾齐驱 [47] 训练与基准表现 - 基于DeepSeek V3 Base训练，后训练阶段增加计算资源与算法优化 [14] - 在AIME测试中平均token消耗从12K增至23K，Pass@2得分达70.7%与Claude 4 Opus相当 [18] - Codeforces-Div1评分从1230提升至1930，SWE Verified解决率从49.2%提升至57.6% [17]

Artificial Intelligence

Artificial Intelligence

DeepSeek-R1-0528

DeepSeek-R1-0528-Qwen3-8B

Artificial Intelligence

Artificial Intelligence

DeepSeek-R1-0528

DeepSeek-R1-0528-Qwen3-8B

从打分器到思考者：RM-R1用推理重塑模型价值判断

机器之心· 2025-05-31 12:00

核心观点 - RM-R1框架将奖励建模重新定义为推理任务，提出推理奖励模型（ReasRMs），通过生成结构化评估标准和推理过程提升模型可解释性和性能[1][5] - 实验验证推理能力是奖励模型关键要素，两阶段训练范式（推理蒸馏+强化学习）展现出高效性，链式评估准则（CoR）机制带来深度可解释性与卓越性能[33][34][35] - RM-R1在多个基准测试中超越更大规模的开源和闭源模型，性能提升高达8.7%，证明推理能力比模型规模更重要[25][26] 技术架构 - 引入链式评估准则（CoR）机制，将任务动态分类为推理型或对话型，分别采用内部专家解决方案或定制化评估准则进行多维度判断[9][10][11][12] - 推理型任务要求模型先自行生成解决方案作为基准，对话型任务则生成带权重的评估准则和理由，实现类似人类的复杂偏好判断[11][12] - CoR机制通过预定义逻辑序列、任务特定评估和透明推理痕迹，实现深度元推理能力[13] 训练方法 - 采用两阶段训练流程：推理蒸馏阶段从高质量推理链提取知识，强化学习阶段用可验证奖励信号优化推理能力[17][18][19] - 消融研究表明推理蒸馏是关键因素，单独的强化学习无法弥补性能差距，CoR提示工程显著优化推理过程[30] - 仅需8.7K蒸馏示例即可达到与800K示例训练模型相当的性能，展现卓越数据效率[31] 性能表现 - RM-R1-DeepSeek-Distilled-Qwen-32B在数学和代码任务中准确率分别达91.8%和74.1%，远超此前最佳表现（数学73%，代码63%）[26] - 模型规模与性能呈线性关系，32B版本在多个基准平均表现达81.5%，超越INF-ORM-Llama3.1-70B和GPT-4o等大模型[25][26] - 在RM-Bench推理密集型基准上，14B版本性能达79.6%，32B版本提升至81.5%，显示计算预算增加对推理能力的积极影响[26][29] 行业意义 - 开创基于推理的可解释奖励范式，为大模型对齐研究提供新方向，强调认知能力提升比规模扩张更重要[32][34] - 结构化推理方法使模型能处理复杂场景判断，在安全、数学等专业领域展现突破性进展[8][26] - 小模型高效训练路径为资源有限团队提供实际部署方案，具有显著经济优势[31][35]

推理奖励建模

链式评估准则（CoR）机制

推理奖励建模

链式评估准则（CoR）机制

斯坦福意外用AI生成超强CUDA内核，性能比人类专家优化得还要好！翻倍碾压原生PyTorch，华人主创

量子位· 2025-05-31 11:34

AI生成内核性能超越人工优化 - 斯坦福研究发现AI意外生成的内核性能超越人类专家优化版本，在NVIDIA L40S GPU测试中最高提升400% [1][2] - 测试阶段生成的合成数据可直接产生高性能内核，无需专门训练生成模型 [4][40] - 具体性能提升：层归一化达PyTorch的484.4%，Conv2D+ReLU+MaxPool组合操作达PyTorch参考实现的290.1% [6] 创新优化方法 - 采用语言推理步骤增强搜索多样性，通过"思考"产生优化思路而非逐步修改 [9][10] - 使用多分支探索模式，每个想法衍生多个实现并选择性能最优者作为下一轮种子 [15][16] - 优化策略包括内存访问优化、异步操作、数据类型优化等6大类技术 [24] 技术实现细节 - 内核用纯CUDA-C编写，无需CUTLASS和Triton等库 [13] - 通过自然语言生成优化思想再转化为代码变体，避免陷入局部最优 [14] - 使用OpenAI o3和Gemini 2.5 Pro在KernelBench 1级任务测试，最佳结果多出现在第4-5轮 [18][19] 研究背景与团队 - 华人主创团队包括斯坦福博士生Anne Ouyang（前英伟达cuDNN团队）、助理教授Azalia Mirhoseini（前DeepMind/Google Brain）和Percy Liang教授 [29][30][32][35] - 研究初衷为生成训练数据，意外发现测试数据可直接产生优质内核 [39][40][41] - 搜索资源消耗仅300万token输入和400万token输出 [49] 行业影响与展望 - 与DeepMind AlphaEvolve等研究共同显示大模型能力达到新层级 [21][45] - 显示大规模再训练非必需，智能搜索策略可解决复杂问题 [44][45] - 当前局限：FP16 Matmul性能仅达torch.matmul的52%，Flash Attention仅9% [46] - Cognition公司已开源强化学习编写CUDA内核的Kevin-32B模型 [51][52]

Artificial Intelligence

Artificial Intelligence

不用GPU，大模型每2秒吃透一道高数大题！这就是华为的实力

雷峰网· 2025-05-30 17:48

华为昇腾与Pangu Ultra MoE技术创新 - 公司通过"昇腾+Pangu Ultra MoE"组合实现国产算力与模型全流程自主可控训练闭环，集群训练系统性能达行业领先水平[4] - 预训练阶段昇腾Atlas 800T A2万卡集群MFU提升至41%，后训练阶段单CloudMatrix 384超节点吞吐达35K Tokens/s[5] - 首次披露高效打通大稀疏比MoE强化学习后训练框架的关键技术，推动RL后训练进入超节点集群时代[6][7] MoE模型训练技术痛点与解决方案 - 当前MoE训练存在六大挑战：并行策略配置困难、All-to-All通信瓶颈、系统负载不均、算子调度开销大、训练流程管理复杂、大规模扩展受限[10][11] - 公司提出三阶段解决方案： - 提升训练集群利用率：通过智能并行优化、分层All-to-All通信去冗余、EDP全局负载均衡策略，将专家并行通信开销降至<2%[14][18][19] - 释放昇腾单节点算力：采用昇腾亲和算子加速、Host-Device协同下发优化、Selective R/S内存手术方案，实现MBS翻倍和70%激活值内存节省[22][25][27] - RL后训练创新：RL Fusion训推共卡技术支持多维并行策略动态切换，准异步机制StaleSync使训练吞吐提升50%[28][30] Pangu Ultra MoE模型性能突破 - 模型架构：7180亿参数，61层Transformer（3稠密层+58 MoE层），256路由专家+1共享专家，隐层维度7680[35] - 预训练性能：6K-10K卡昇腾800T A2集群实现8K序列长度下41% MFU，预计CloudMatrix 384超节点可支撑MFU>50%[35] - 后训练性能：CloudMatrix 384超节点实现35K Tokens/s吞吐，支持4K卡集群扩展，等效每2秒完成高数大题级推理任务[36] 技术架构创新细节 - 并行策略：采用16路流水线并行+8路张量并行+32路专家并行+2路虚拟流水线并行的混合架构[15] - 通信优化：分层专家并行通信结合虚拟流水线并行掩盖策略，实现计算通信深度融合[18] - 内存管理：构建自适应内存优化框架，支持模块级到张量级的细粒度内存调配[26] - 训推协同：支持分离部署/训推共卡/全共卡三种模式，秒级完成状态转换[28][33]

大模型训练

大模型训练

每2秒吃透一道高数大题！华为终于揭秘准万亿MoE昇腾训练系统全流程

华尔街见闻· 2025-05-30 17:38

华为Pangu Ultra MoE大模型技术突破 - 华为通过"昇腾+Pan gu Ultra MoE"组合实现国产算力与国产模型全流程自主可控的训练闭环，集群训练系统性能达到行业领先水平[3] - 预训练阶段昇腾Atlas 800T A2万卡集群MFU提升至41%，后训练阶段单CloudMatrix 384超节点吞吐达35K Tokens/s[4] - 首次披露在昇腾CloudMatrix 384超节点上高效打通大稀疏比MoE强化学习后训练框架的关键技术[4] 技术挑战与解决方案 - MoE预训练和强化学习后训练存在六大挑战：并行策略配置困难、All-to-All通信瓶颈、系统负载分布不均、算子调度开销过大、训练流程管理复杂、大规模扩展受限[7][8][10][11][12][13] - 提升训练集群利用率三招：建模仿真驱动的智能并行优化、Adaptive Pipe前反向通算掩盖、EDP Balance全局动态负载均衡[15][16][17][20][22][23] - 释放昇腾单节点算力三招：昇腾亲和的训练算子加速、Host-Device协同的算子下发优化、Selective R/S精准的内存手术方案[26][28][29][30] 强化学习后训练创新 - 首次披露RL Fusion训推共卡技术，支持训练推理共卡、全共卡等多种灵活部署模式，实现RL后训练集群利用率翻倍[33][34] - 设计准异步机制StaleSync和分布式数据队列DistQueue，系统整体训练吞吐提升50%[36] - 在Pangu Ultra MoE昇腾CloudMatrix 384超节点集群后训练中实现每超节点35K Tokens/s高吞吐能力，支持高效扩展超过4K卡集群[39] 模型性能与架构 - Pangu Ultra MoE模型拥有7180亿参数，包含61层Transformer，前3层为稠密层，后58层为MoE层[38] - 模型隐层维度达7680，配备256个路由专家和1个共享专家，专家隐层维度为2048[38] - 在序列长度为8K、万卡训练集群条件下，模型算力利用率(MFU)达到41%，预计可支撑训练集群MFU>50%[38]

昇腾全流程高效训练系统

大模型训练

昇腾全流程高效训练系统

大模型训练

机器狗能当羽毛球搭子了！仅靠强化学习从0自学，还涌现出类人回位行为 | Science子刊

量子位· 2025-05-30 15:10

机器狗羽毛球技术突破 - 基于强化学习的全身视觉运动控制策略同步控制18个自由度的腿部移动和手臂挥拍动作[4] - 最高挥拍速度达12米/秒，与人类业余选手协作时实现单回合连续击球10次[5][6][23] - 在发球区拦截成功率接近100%，但正上方/后方来球拦截仍存在挑战[29][30][31] 硬件与感知系统配置 - 采用ANYmal-D四足底座+DynaArm动态手臂组合，配备ZED X立体相机（400Hz控制频率/100Hz策略更新）[13][16] - 球拍45°腕关节定向经仿真验证为最优配置，感知模块平均轨迹判断耗时0.357秒[15][20] - Jetson AGX Orin模块以60Hz异步运行轨迹预测系统，击球位置误差0.117米（12m/s挥拍时）[17][37] 运动控制性能 - 10m/s指令速度下跟踪精准，超10m/s时精度下降，实测最高执行速度12.06m/s（指令19m/s）[34][35] - 动态调整步态：短距微调/中距不规则步态/长距类疾驰步态，远距拦截采用快跑模式[38][39] - 击球后自动回位中心的行为涌现，模拟人类球员站位调整策略[25][26] 算法创新与局限 - 统一强化学习策略解决18自由度协同控制问题，突破传统固定基座方案局限[47][48] - 感知噪声模型缩小仿真与部署差距，较基准降低28%感知误差（无显式视野奖励）[51][56] - 当前依赖单一立体相机EKF估计，未来可通过扭矩/声音/RGB-D等多模态传感升级[58][59] 学术价值与场景拓展 - 苏黎世联邦理工学院团队成果发表于《Science Robotics》，验证足式机器人在动态体育场景的可行性[8][10][11] - 系统在电流/关节速度极限下运行，为复杂环境中的移动操作任务建立新基准[35][47] - 技术框架可扩展至其他需要动态协调的运动场景，如应急响应或服务业[47][58]

全身视觉运动控制策略

会打羽毛球的机器狗

全身视觉运动控制策略

会打羽毛球的机器狗

成本暴降88%！通义实验室、北大发布ZeroSearch，无需搜索即可激活LLM检索能力

机器之心· 2025-05-29 12:53

核心观点 - 提出ZeroSearch框架无需真实搜索即可激活大语言模型搜索能力通过模拟搜索引擎和课程学习策略降低成本88%并在多项任务性能超越真实搜索方法[1][4][13] - 采用结构化训练模板引导模型划分思维步骤提升推理路径清晰度格式化的输出便于奖励计算[8][14] - 通过模拟微调策略解决Prompt生成内容与真实搜索风格差异问题并引入正确答案扩充知识边界[9][10] - 基于课程学习逐步降低文档质量通过指数函数控制Noisy文档生成概率实现训练难度平滑过渡[11][13][14] - 奖励函数设计改用F1 Score抑制冗余答案模型能自主生成结构规范回答[17][18] 方法创新 - 引入大语言模型作为模拟搜索引擎避免传统方法频繁调用API的高成本公式化表示为最大化奖励与KL散度约束的优化问题[4] - 采用损失屏蔽技术仅对策略模型自生成token计算损失防止记忆模拟文档[4] - 轨迹采集-质量评估-监督微调三步法构建高质量训练集 7B模型仅需30分钟微调[15] - 课程学习策略分三阶段：初期缓慢提升难度学习基础逻辑中期快速提升强化推理后期稳定应对低质量文档[22][34] 性能表现 - 在NQ/TriviaQA等7个数据集平均表现超越基线：ZeroSearch-base达40.93分超过Search-R1-base的39.51分[20] - 参数量扩展性：3B模型激发基础能力 7B接近Google效果 14B实现超越 Google对比分为32.81 vs 34.47[28][33] - 域内外数据集均显示优势单跳问答任务NQ最高43.6分多跳问答HotpotQA达34.6分[20][21] - 奖励曲线显示训练后期超越真实搜索波动更小最终奖励提升更显著[32] 技术细节 - 模拟搜索设定中SFT-7B达到33.53分超过Prompt-7B的31.39分验证微调必要性[28] - 交互轮数呈现U型变化：初期冗余调用导致高轮数中期效率提升轮数下降后期为应对低质量文档轮数回升[30][34] - 课程学习策略显著优于随机难度训练验证系统性能力提升路径的有效性[36]