后训练 - 财报，业绩电话会，研报，新闻

后训练

搜索文档

创业邦· 2025-07-07 18:27

AI技术发展现状与趋势 - 大模型进入能力边界与不确定性并存阶段，单纯追逐参数规模意义有限，需与产品深度融合创造可持续场景价值[1][5] - 模型核心能力源自预训练而非后训练，高质量训练数据已大部分耗尽，模型解析能力提升将趋于平稳[6][7] - 模型不具备真正智能且存在"幻觉"问题，需理解其不确定性特点才能有效融入产品[5] - 模型结构化数据处理能力增强，可能替代传统数据库功能[10] AI应用落地实践 - APUS在代码生成领域实现70%代码由模型生成，旧代码维护33%由模型辅助完成[11] - 设计团队规模缩减85%，AI可基于爆量素材日生成数千个同类素材[12] - 圣经类产品升级为多媒体形式并引入AI牧师功能，覆盖美国10%人口[13] - 医疗大模型已在三甲医院应用，累计服务超100万人，实现初步诊断与分诊[14] - 开发具备情报分析能力的Agent系统，应用于商业与政治情报领域[15] 企业AI战略与组织变革 - 企业常见误区是高估AI短期价值而低估长期潜力，需围绕"为什么做-做什么-怎么做"构建战略路径[19] - AI不仅是生产资料更是生产力，需重新定义生产关系以适配新型生产力[23] - 组织需培养复合型AI项目负责人，需同时理解AI原理、知识流转机制和业务细节[22] - 生产力释放后需重新规划人员技能方向和组织架构，如客服岗位裁减80%后团队结构调整[23] CEO实施AI的建议 - 从上而下定义AI应用场景，从公司P&L价值和长期战略角度思考[26] - 从下而上推动文化变革，通过细微效率提升促进组织对AI的理解[26] - 从后往前做建设，以终为始明确场景再倒推技术需求[26] - 避免在大模型主航道上构建壁垒，否则会被快速迭代的技术碾压[27] - CEO需明确适合引入AI的业务环节，避免空喊口号[27] - 面对AI要巧思而非硬来，发挥人类创造力找到适配应用方式[28] 行业展望 - AI将如同移动互联网深刻影响每家企业业务形态，需全力以赴拥抱[29] - 全球大模型企业已从两年前的众多竞争者缩减至不超过10家具备持续发展能力[27]

重温《英伟达GTC 2025》：挖掘AI算力需求预期差？

2025-07-07 08:51

纪要涉及的行业和公司 - **行业**：美股算力领域、AI 产业、数据中心市场 - **公司**：英伟达、微软、谷歌、亚马逊、Oracle、Marvell、戴尔、台积电纪要提到的核心观点和论据 1. **算力需求现状与变化** - 全球 AI 算力跟踪方式与以往不同，过去依赖产业链数据，如今需关注大模型和应用，美股算力领域上涨由推理和训练需求共振驱动 [2] - AI 计算需求和扩展速度超加速增长，因推理模型出现，计算量比一年前预期至少高出 100 倍 [2][16] 2. **GTC 大会影响** - 今年参会人数较去年增长 50%，AI 产业人士增加，对 AI 产业重要性提升，重温可挖掘信息差和预期差，是海外算力链上涨核心原因 [3] - 提出 agentic AI 概念，与传统 LLM 不同，强调任务分布执行和规划 [6] 3. **算力需求相关因素** - 算力需求空间与 TOKEN 量密切相关，海外算力公司涨幅不能仅用传统业绩解释，需分析 TOKEN 量对计算需求的影响 [1][4] - 未来海外算力链发展需关注大模型和应用、全球市场变化、GTC 大会信息差、TOKEN 量与计算需求关系 [5] 4. **AI 范式区别** - agentic AI 与 generative AI 是不同范式，前者侧重协作和目标驱动，后者是生成式 AI [7] - agent 是独立执行任务个体，agentic AI 是协作性目标驱动系统 [11] 5. **Skin law 曲线** - 现在有三条 skin law 曲线，分别对应预训练、后训练和测试时间，三个阶段都存在算力需求通胀 [1][8] 6. **后训练与测试时间** - 后训练通过强化学习等优化模型，不涉及卷模型参数；测试时间指推理市场，是结果导向型 [9] 7. **协作型 AI** - 涉及多步骤、多代理等协作过程，信息沟通依赖 TOKEN，全球 TOKEN 量爆发提升了算力需求 [2][12] 8. **数据问题解决** - 强化学习产生的 COT TOKEN 数据和合成数据可用于模型训练，不必担心数据不足 [13] 9. **互联网大厂策略** - 免费开放 AI 应用是为保持竞争力和获取 TOKEN 数据用于训练下一代模型 [14] 10. **推理模型** - reasoning model 与传统大语言模型不同，需详细列出思考过程，增加了算力和 TOKEN 需求，比 one shot 方式至少高出 100 倍 [18][19] 11. **后训练应用** - 后训练在强化学习中用大量 tokens 验证和调整模型，计算需求高，推理环节 token 消耗量远超 chatbot [20] 12. **Token 相关关系** - Agentic AI 与 token 消耗是指数关系，token 与计算量关系复杂，总算力需求等于 Token 数量乘以单 Token 算力成本 [21][22][23] - TOKEN 量增加与计算需求不是 1:1 关系，可能是 1:n，n 可能为 10 甚至更高 [25][26] 13. **海外 AI 应用** - 海外 AI 应用中 TOKEN 量爆发因 Deepseek 降低成本，推动应用快速增长 [27] 14. **单任务执行问题** - 可通过增加算力降低单任务执行等待时间，涉及延迟和吞吐量权衡 [28] 15. **不同 AI 模型差异** - Chatbot 与 Deep Research Agent、通用模型与测试模型在 TOKEN 消耗上存在显著差异 [30] 16. **云服务提供商需求** - 四大云服务提供商对 GPU 需求巨大，2024 年买 130 万张 Hopper 架构 GPU，2025 年已买 360 万张 Blackwell 芯片 GPU [31] 17. **数据中心市场** - 预计到 2028 年数据中心市场规模达 1 万亿美金以上，2025 年是需求增长拐点 [32] 18. **英伟达战略** - 加强与戴尔合作，向政企领域拓展，利用戴尔客户网络 [33] 19. **算力需求驱动因素** - 底层计算架构从 CPU 转换为 GPU，软件未来需资本投入，通过自身生成 TOKEN 交互协作，推动算力需求 [34] 20. **软件运行模式转变** - “软件加算力”替代“软件加能力”，软件运行将自动化，企业依赖计算资源而非人力 [37] 21. **算力需求阶段** - 当前处于算力需求拐点向上阶段，因计算架构转换和 AI 技术发展，算力需求爆发式增长 [38] 22. **推理图表数据** - 单个用户每秒钟处理 TOKEN 量与智能 AI 反应速度有关，吞吐量越大、系统响应越快，影响用户体验 [39] 23. **Token 资源分配** - AI 应用中 Token 是资源，用户单位时间获 Token 数量影响应用运行速度，吞吐量决定系统任务执行和用户数 [41] 24. **AI 工厂优化** - 可通过增加 HBM 存储容量、提高存储带宽、优化算法和架构优化 AI 工厂吞吐量，提升系统性能 [42] 25. **公司股价上涨** - 英伟达和台积电等公司股价创新高因 AI 算力需求大幅增长，公司创新技术满足需求 [43][44] 26. **资本市场逻辑** - 资本市场对 AI 算力需求变化基于新需求驱动，深入研究原因可准确预测未来发展方向 [45] 其他重要但可能被忽略的内容 - 微软 2025 年一季度总吞吐量达 100 万亿个 tokens，谷歌 4、5 月吞吐量为 480 万亿个 tokens，后训练一次至少需 100 万亿个 tokens [20] - 从 2025 年 2 月底出现拐点，Deepseek 于 2024 年 1 月底发布，推动海外 AI 应用发展 [27] - 英伟达股价从 2024 年 6 月到 2025 年 6 月横盘一年，2025 年 6 月底突破新高 [44]

中科院自动化所最新综述！VLA模型后训练与类人运动学习的共性

具身智能之心· 2025-06-29 17:51

核心观点 - 文章从人类运动技能学习角度系统总结了VLA模型的后训练策略，提出环境、具身、任务三维分类框架，并探讨神经科学对机器人学习的启发[4][5][6] - VLA模型需通过后训练从通用预训练转向特定任务适配，类似人类从遗传能力到专项技能的转化过程[8][9] - 类脑视角下，后训练技术可划分为环境感知增强、具身认知优化、任务理解深化及多组件集成四大方向[10][12] VLA模型与后训练重要性 - VLA模型整合视觉、语言与动作生成模块，实现"看-听-动"闭环，但预训练模型在真实场景中需后训练提升精度与鲁棒性[8] - 后训练利用少量目标场景数据微调模型，使其适应机器人物理特性与任务需求，解决"开箱即用"性能不足的问题[9] 三维后训练策略环境维度 - 引入可供性线索强化模型对环境交互可能性的理解，如物体功能暗示（门把手提示抓握）[12] - 优化视觉编码器与多模态感知融合，提升环境细节记忆与抗遗忘能力[12][13] 具身维度 - 建立机器人正向/逆向运动学模型，模拟人类前馈-反馈控制机制实现精准动作规划[14] - 借鉴小脑多内部模型协同机制，设计分层动作控制模块[14] 任务维度 - 通过人类示范数据注入专家知识，加速任务理解[14] - 采用层次化策略分解长程任务为可管理子步骤，对应人类分而治之的神经处理模式[14][17] 技术挑战与趋势 - 数据效率：需开发课程学习、主动采样等类人策略降低训练数据需求[22] - 多模态扩展：触觉/深度传感等新模态输入可提升环境交互真实性，但面临传感器融合难题[22] - 持续学习：当前离线微调易导致遗忘，需借鉴人类记忆机制开发终身学习框架[22] - 开放泛化：从实验室性能优化转向未知环境适应能力建设[22]

肖仰华教授：具身智能距离“涌现”还有多远？

36氪· 2025-06-27 19:30

人工智能技术发展路径 - 人工智能发展呈现两条清晰脉络：生成式人工智能(AIGC)和具身智能前者聚焦机器认知能力后者侧重感知与行动能力 [3][6][7] - 生成式大模型本质是让机器具备人类大脑的认知功能包括语言生成和逻辑思考能力具身智能则模拟人类身体感知与环境交互能力 [6][7] - 认知智能与具身智能的下一个里程碑是身心协同阶段需实现身体与大脑的双向塑造 [3][8][9] 技术革命性特质 - 判断技术革命性的三大标准：基础性(如水电煤)、生产力指数级提升、对社会上层建筑的颠覆性影响 [9][10] - 生成式AI符合三大标准：成为新型基础设施脑力工作效率提升百倍渗透社会各领域 [10] - 具身智能对生产力的提升作用有限 80亿机器人产能仅相当于人口增长1-2倍且受安全伦理制约 [11][12][13] 模型发展规律 - Scaling law主导生成式AI初期发展依赖海量数据(万亿token)和大规模算力 [14] - 后训练范式崛起(如DeepSeek R1) 数据质量与训练策略取代规模成为关键参数规模让位于算法设计 [15][16] - 行业大模型落地瓶颈在于数据央国企需投入80%精力治理行业数据高质量数据集建设成产业护城河 [18][19] 具身智能发展挑战 - 数据缺口显著：最大具身数据集仅百亿token 较语言模型差2个数量级仿真/合成数据质量不足 [21][22] - 泛化能力受限：环境表达复杂性(如办公室场景需建模高维身体状态)导致数据采集困难 [31][32] - 突破路径包括增加训练量(虚拟试错) 借鉴人类类比/归纳机制但需敬畏"不可言说"的交互复杂性 [33][34] 产业实现范式 - 三大技术路线并存：连接主义(神经网络)、符号主义(知识图谱)、行为主义(强化学习) 分别对应数据学习、知识学习和实践学习 [36][37][38] - 机器人应走场景化路径而非绝对通用功能受限于物理构造机械臂案例显示需任务与身体适配 [42][43] - 集约化需适度扫地机器人通过附加刷头扩展功能但强行植入多能力违背产业逻辑 [42][43] 技术风险与治理 - 物理伤害风险远低于认知风险需警惕AI通过决策误导造成的系统性危害 [45][46] - 安全治理核心是发展AI监管师职业建立"拔插头"机制同时加强价值观对齐研究 [48][49] - 身体限制可成为安全保障思想无边界才是最大风险源 [46][47] 行业影响与教育变革 - AI将冲击产业分工基础未来工作意义转向体验而非谋生物质极大丰富改变经济逻辑 [62] - 教育需破除内卷在保留核心技能(写作/编程)基础上培养AI难以替代的鉴赏/批判能力 [55][61] - 学科交叉与内心探索是重建价值体系方向需拓展认知边界应对文明转型 [56][57]

肖仰华教授：具身智能距离“涌现”还有多远？｜Al&Society百人百问

腾讯研究院· 2025-06-27 14:59

生成式AI与具身智能的发展路径 - 生成式AI以AIGC为代表，目标是让机器具备人类大脑的认知能力，包括语言生成和逻辑思考能力 [9] - 具身智能目标是让机器习得人类身体的感知和行动能力，实现与复杂世界的高效交互 [10] - 两条技术路线都是通往AGI的关键形态，下一个重要里程碑是身心协同阶段 [10] - 生成式AI已实现生产力成百上千倍提升，如合同审校、绘画制作等工作效率大幅提高 [13] - 具身智能对生产力的提升作用相对有限，可能仅相当于人口增长1-2倍的效果 [15] 技术革命的三重标准 - 基础性：技术需像水电煤一样成为基础设施 [13] - 生产力提升：需实现指数级效率提升，如AIGC极大提高论文生产力 [13] - 社会影响：需深度渗透社会各领域，改变上层建筑 [14] - 生成式AI完全符合这三重标准，是一场真正的技术革命 [14] - 具身智能对社会的影响力相对有限，更多是认知智能突破后的技术延伸 [16] 数据与模型的关系演进 - 业界观点：模型算法决定效果下限，数据决定上限 [20] - 大模型研发70-80%成本投入在数据上，剩余在算力运维和算法设计 [21] - 数据墙问题凸显：互联网公开高质量数据已接近枯竭 [22] - 后训练范式崛起：数据规模让位于质量，算力规模让位于算法设计 [18] - 数据不足可通过知识注入缓解，但培育高质量数据集仍是根本 [23] 具身智能的数据挑战 - 当前具身模型训练数据量仅百亿token级，与语言模型万亿级相差两个数量级 [24] - 数据采集面临个体体验表达困难和环境建模复杂双重挑战 [34][35] - 真机数据成本高昂，仿真数据质量有限，制约GPT时刻到来 [25] - 可能解决方案：穿戴设备普及形成动作轨迹数据 [26] - 训练策略调整：数据量不足时可增加训练量，借鉴人类泛化机制 [36][38] 产业落地逻辑 - 行业AI落地的关键在于行业数据治理和清洗 [21] - 央国企等大甲方应重点投入行业数据准备而非模型研究 [22] - 具身机器人应走场景化、任务化路径，而非追求绝对通用性 [48] - 身体构造决定功能边界，集约化需考虑物理可行性 [49] - 专用机器人价值明确，通用机器人是伪命题 [48] 技术范式演进 - 仍未跳出符号主义、连接主义和行为主义三大传统范式 [39] - 连接主义：模拟神经网络，处理感知任务 [40] - 符号主义：基于知识推理，处理认知任务 [40] - 行为主义：通过交互反馈进化，处理技能习得 [41] - 三种范式在完整AI解决方案中各有侧重 [43] 理性思维发展 - 人类能力分为知性、理性和感性三个维度 [28] - GPT4前主要训练知性能力，O1和DeepSeek R1开启理性能力 [29] - ToB应用需要专业理性思维，ToC需要共情感性能力 [31] - OpenAI布局完整：知性(GPT4)、感性(GPT-4o)、理性(O1) [31] - 国产大模型与国际差距主要在理性能力即知识应用水平 [29]

虎嗅APP· 2025-06-05 22:24

华为MoE架构优化 - 华为提出MoGE架构，克服了传统MoE模型负载不均衡及效率瓶颈问题，实现降本增效并便于训练和部署 [1] - 中国科技企业对MoE架构进行优化重组，展现后发优势，推动大模型技术向更普适和高效的方向发展 [1] RL后训练的重要性 - RL后训练已成为突破大模型性能天花板的核心路径，OpenAI o1和DeepSeek-R1等模型均依赖该技术 [3] - RL后训练通过动态交互直接塑造大模型在复杂任务中的推理效能，当前占训练全流程20%算力，未来将升至50% [3] - 该技术在提升模型精度、泛化性和用户体验方面发挥不可替代作用 [5] RL后训练的挑战 - On-Policy算法导致训练与推理严格交替，资源利用率低下，形成"算力黑洞" [6][7] - 大规模集群中多模型异构并行策略组合使任务调度复杂度指数级增长，扩展效率显著下降 [8] 华为RL Fusion技术 - RL Fusion实现一卡同时执行训练和推理任务，资源利用率和吞吐翻倍 [9][10] - 支持训推共卡、全共卡等多种部署模式，并实现多维并行策略动态无缝切换 [10] - 针对MoE模型提出训推内存0冗余切换技术，消除EP变化造成的冗余内存 [11][12] - 优化后训推切换过程达到秒级，使集群利用率倍增并大幅降低成本 [15] 华为StaleSync技术 - StaleSync采用准异步机制，容忍梯度"陈旧性"，使CloudMatrix 384超节点水平扩展效率超90% [16][17] - 该技术结合共置和分离架构优势，平衡不同RL计算任务的资源需求 [20] - 引入准异步调度机制，在保证精度前提下使系统整体训练吞吐量提升50% [23] 分布式数据队列DistQueue - DistQueue实现不同计算任务间数据的拆分、缓存与动态读取 [24] - 采用分层数据传输与零冗余通信技术，在Pangu 718B-MoE案例中将负载降低为1/128 [25] - 零冗余通信技术避免Padding带来的额外通信，实测降低80%以上通信量 [26] 实测性能表现 - RL Fusion使单个超节点吞吐提升78.5%，结合StaleSync实现35k token/s吞吐效率，整体性能提升1.5倍 [30] - 集群规模从1个扩展至4个超节点时，StaleSync吞吐从35k tokens/s提升至127k tokens/s，扩展线性度达91% [31][32] 技术影响 - 华为RL Fusion和StaleSync技术攻克算力浪费和集群扩展瓶颈，形成高效、高扩展、高通用性的集群调度方案 [33] - 该技术为百亿、千亿级大模型后训练提供强劲动力，推动下一代AI效率革命 [33]

RL后训练步入超节点时代！华为黑科技榨干算力，一张卡干俩活

21世纪经济报道· 2025-06-05 19:03

RL后训练的重要性 - RL后训练已成为突破大模型性能天花板的核心路径，OpenAI o1、DeepSeek-R1等模型均依赖此技术提升推理效能 [1] - 相较于预训练的广撒网式知识获取，RL后训练通过动态交互直接塑造模型在复杂任务中的推理能力 [1] - 当前RL后训练消耗全流程20%算力，未来将飙升至50%，显著影响模型性能与成本 [1] 传统RL后训练的挑战 - 训练与推理需交替执行，导致算力闲置，资源利用率低下 [1][3] - 在千卡/万卡集群中，同步等待模式放大为算力黑洞，推高训练成本 [3] - 大规模集群中，MoE模型的多维并行策略组合使任务调度复杂度指数级增长，扩展效率下降 [4] 华为RL Fusion技术突破 - 实现训推共卡，单卡同时执行训练与推理，资源利用率翻倍，吞吐提升78.5% [1][4][22] - 支持TP/DP/PP等多维并行策略动态切换，小规模场景可进一步整合Reference及Reward模型资源 [4][5] - 针对MoE模型提出训推内存0冗余切换技术，通过分桶管理参数消除EP变化导致的冗余内存 [5][6] - 优化权重通信与内存加卸载，训推切换速度达秒级 [6][8] StaleSync准异步并行技术 - 容忍梯度陈旧性，允许不同RL阶段任务在阈值内并行执行，集群水平扩展效率超90% [8][10] - 引入准异步调度机制，长尾样本达到阈值即触发下一阶段计算，训练吞吐提升50% [14] - 分布式数据队列DistQueue采用分层数据传输与零冗余通信技术，负载降低至1/128，通信量减少80%以上 [16][19][20] 实测性能提升 - RL Fusion与StaleSync协同优化，单超节点吞吐提升78.5%，整体性能提升1.5倍 [22] - 集群规模从1节点扩展至4节点时，StaleSync吞吐从35k tokens/s增至127k tokens/s，线性度达91%，远超全同步方案的85% [24] - 昇腾超节点实现单节点速度提升2.5倍，集群扩展效率突破90%，为百亿/千亿级模型训练提供高效支持 [26]

RL后训练步入超节点时代！华为黑科技榨干算力，一张卡干俩活

雷峰网· 2025-06-05 17:17

大模型RL后训练技术突破 - 强化学习后训练(RL后训练)已成为突破大模型性能天花板的核心路径，当前消耗训练全流程20%算力，未来将升至50% [2][3][10] - RL后训练通过模型与外部环境动态交互，显著提升复杂任务推理效能，OpenAI o1、DeepSeek-R1等模型均依赖该技术 [3][8][9] - 传统RL后训练存在算力浪费问题，训练与推理需交替执行导致资源闲置，在千卡/万卡集群中形成"算力黑洞" [4][13] 华为RL Fusion训推共卡技术 - 实现单卡同时执行训练和推理任务，支持TP/DP/PP等多维并行策略动态切换，资源利用率与吞吐量翻倍 [19][20] - 针对MoE模型提出训推内存0冗余切换技术，通过分桶管理参数消除EP变化造成的冗余内存 [21][22] - 优化权重通信和内存加卸载，训推切换过程缩短至秒级，单超节点吞吐提升78.5% [25][26][52] StaleSync准异步并行技术 - 突破全同步限制，允许梯度在"陈旧度阈值"内并行执行，CloudMatrix 384超节点水平扩展效率超90% [29][30][32] - 引入准异步调度机制，当生成样本达阈值时立即触发下游计算，整体训练吞吐提升50% [37][38] - 配套开发DistQueue分布式数据队列，采用分层数据传输和零冗余通信技术，降低80%以上通信量 [41][43][48] 昇腾超节点实测性能 - RL Fusion+StaleSync协同实现35k token/s吞吐效率，较基线提升150%，4超节点扩展至127k token/s时线性度达91% [53][54][55] - 对比全同步方案，4超节点下StaleSync吞吐(127k)比同步方案(85k)提升49%，扩展线性度优势明显 [55] - 技术组合形成"资源复用+任务并行"双重保障，单节点速度提升2.5倍，支持百亿/千亿级模型高效训练 [57][58]

挑战强化学习后训练霸权！全新无监督方法仅需1条数据+10步优化

量子位· 2025-06-01 11:40

核心观点 - 熵最小化（EM）是一种无监督方法，仅用一条无标签数据和10步训练即可显著提升大语言模型（LLM）性能，甚至超越使用大量数据的强化学习（RL）方法 [1] - EM通过最小化模型预测分布的熵来优化模型，无需标注数据或外部监督，与预训练目标完全兼容 [4][8] - 在数学推理任务上，EM方法将Qwen2.5-Math-7B的准确率从53%提升到78.8%（MATH500测试集），从11%提升到35.3%（Minerva Math测试集），从44.1%提升到70.3%（AMC23测试集） [13][14] - EM与RL对模型置信度的影响方向相反：EM导致Logits分布右移，强化模型自信；RL导致左移，受真实信号引导 [15][16][17][18][19] - EM适合未经过大量RL调优的基础模型、需要快速部署或资源有限的场景，但可能对已深度调优的RL模型产生负面影响 [30][31][34] 从RL到EM：LLM微调的困境与新思路 - 当前LLM后训练主流方法是强化学习（RL），特别是结合可验证奖励的RL（RLVR） [2] - RL方法面临高质量标注数据依赖、复杂奖励函数设计、额外奖励模型需求和巨额计算开销等问题 [3][4] - EM提出全新思路，仅依赖模型自身预测分布的熵进行优化，无需外部监督 [4][8] 熵最小化（EM）的实现方法 - EM通过最小化标记级别的熵来减少模型预测不确定性，核心公式涉及条件熵和总体EM损失 [5][6][7] - 该方法鼓励模型提高对自身预测的信心，不依赖外部监督信号或奖励函数 [8] - EM成功依赖示例选择，研究者采用基于模型表现方差的筛选方法，挑选预测不一致性高的示例 [9][10][11] 实验结果 - 仅用一条示例和10步训练，EM方法使Qwen2.5-Math-7B在多个数学推理任务上性能大幅提升 [12][13] - 在MATH500测试集准确率提升25.8个百分点，Minerva Math提升24.3个百分点，AMC23提升26.2个百分点 [14] - EM方法缩小了与先进RL模型的差距，在AMC23基准测试中达到70.3分 [14] EM与RL的对比分析 - EM训练导致Logits分布右移，强化模型自信，增加高概率候选token数量 [16][17] - RL训练导致Logits分布左移，受真实信号引导，减少高概率路径数量 [18][19][20] - 这种差异通过Logits分布偏度量化：EM提高偏度呈现右偏，RL降低偏度甚至导致左偏 [21] EM的局限性 - 存在"过度自信"陷阱，训练约10步后性能达到顶峰，继续训练反而导致性能下降 [26] - EM训练具有显著随机性，相同设置下因种子不同平均得分可能相差高达两倍 [29] EM适用场景 - 适合未进行大量RL调优的基础模型或仅经过SFT的模型 [30] - 适合需要快速部署、资源有限的场景，对数据需求极低 [31] - 可作为现有后训练范式的补充或起点，在RL之前应用能带来增益 [32][33] - 对已深度调优的RL模型可能产生负面影响 [34] 未来研究方向 - 需要探索训练稳定性与鲁棒性，如早停标准或自适应调度机制 [35] - 研究泛化能力与跨领域应用，如对话、摘要、代码生成等领域 [36] - 探索与现有技术（SFT、RLHF等）的融合，构建更强大混合方法 [37] - 深入研究EM作为轻量级信心校准方法的潜力 [38][39]

公元：DeepSeek只打开一扇门，大模型远没到终局 | 投资人说

红杉汇· 2025-05-11 13:09

人工智能与具身智能赛道现状 - 当前AI与具身智能赛道处于类似互联网初期的百花齐放阶段，底层技术和垂直细分领域机会众多[5] - 具身智能领域可能处于类似2018年LLM的阶段，尚未出现GPT时刻，但AGI的长期前景被普遍看好[8][9] - 行业变化极快，AI领域"一天相当于人间一年"，模型迭代速度远超传统商业模式演进速度[7] DeepSeek的影响 - DeepSeek的R1模型通过开源后训练方法论实现了"技术平权"，将全球AI研发重新拉回同一起跑线[6] - 该突破改变了国内大模型行业格局，但预训练与后训练技术仍需双轮发展，行业终局尚未确定[6] - 春节期间的技术突破导致行业认知发生剧烈变化，两个月内从"后训练重要"转向"预训练重要"[6] 投资逻辑变化 - 传统基于DAU/MAU的商业评估模式失效，用户可能因技术突破瞬间转移[7] - 投资人需要快速建立对AGI能力的感知，而非依赖传统商业指标[7] - 具身智能投资的核心逻辑是押注物理世界AGI的实现概率[9] 创业范式转变 - 新时代创业更强调技术颠覆创新而非明确商业化路线[1] - 当前创业者难以清晰描述具体应用场景，更多聚焦技术路线本身[8] - 成功要素转变为对AGI的信念而非传统商业计划[9] 行业参与者特点 - 顶级投资人需保持高度热爱和好奇心以应对快速变化的技术环境[10] - 国内大模型可能形成DeepSeek、千问和豆包三强格局的预测出现[6]