规模扩展
搜索文档
未知机构:FundaAI评论HockTan对CPO的看法铜缆还没死但光学-20260309
未知机构· 2026-03-09 10:15
涉及的行业与公司 * **行业**: 数据中心互连技术行业,具体涉及铜缆互连与光学互连(CPO - 共封装光学)技术路线 * **公司**: Broadcom(博通)[1][2][3][5],其CEO Hock Tan的观点是核心讨论对象 核心观点与论据 * **铜缆技术的短期优势**: 在2027年之前,对于机架内(intra-rack)的短距离规模扩展(scale-up),铜缆(DAC)在延迟、功耗与成本上仍有优势,客户目前没有强烈动机转向光学[1] * **光学互连的必然性与时间表**: 光学互连是长期必然趋势,但大规模应用的时间点在于2028年之后[1][2] * Hock Tan认为“beyond 2028 我们才会看到光学大幅进场”[2] * 目前“每一次客户都选铜缆”[2] * **当前互连架构的演进路径**: 当前及下一代系统(如NVL72、NVL576)的互连模式是“机架内用铜缆、机架间用光学”,这是产业基准演进路径[2] * 真正全面光学化的机架内连接,预计要到更后一代(如Feynman时代)才会实现[2] * **Broadcom的立场与利益**: Hock Tan的发言利用近期的铜缆现实来淡化长期的光学规模扩展策略方向,这反映了Broadcom自身的利益考量,因其拥有SerDes技术并希望延长铜缆技术的生命周期[1][3] * **产业转折点的驱动因素**: 长期决定产业方向的关键是当大规模规模扩展域(scale-up domains)成长到某个临界点时,唯一可行的答案就是“在不得不用的地方使用光学”[5] * 一旦这个转折点到来,Broadcom目前努力守护的某些价值池可能会最先被重组[5] 其他重要内容 * **技术讨论的具体场景**: Hock Tan的评论主要针对机架形式因子内的chip-to-chip或XPU-to-XPU连接,例如Vera Rubin NVL72这种架构[2] * **产业关注的重点**: 业界对“光学规模扩展”的讨论重点并非当前的NVL72系统,而是NVL576及之后的更大规模系统[2] * **对发言的总体解读**: 仔细解读Hock Tan的发言,其核心是强调**这一代的短距规模扩展会继续用铜,而不是光学规模扩展永远不会发生**[2] * **短期、中期、长期展望**: * 短期内,铜缆显然还没死[4] * 中期内,面向横向扩展(scale-out)的CPO确实很难大规模部署[5] * 长期来看,光学互连是必然选择[5]
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
机器之心· 2025-05-01 10:11
大型语言模型后训练技术综述 核心观点 - 微调和强化学习等后训练技术是提升LLM能力的关键手段,可解决幻觉、逻辑一致性不足等问题[1][5] - 强化学习通过动态反馈优化序列决策,结合LoRA、RAG等技术可提升计算效率和事实准确性[9][14] - 后训练需平衡专业化与泛化能力,面临过拟合、计算成本高、道德对齐等挑战[7][10][15] 技术方法分类 微调技术 - 监督式微调基于精选数据集更新参数,增强情绪分析、医疗诊断等特定任务能力[10] - LoRA和适配器等参数高效技术可减少90%以上计算开销,缓解过拟合问题[10][20] - 领域专业化与多功能性存在权衡,需动态调整模型深度和宽度[14][20] 强化学习优化 - 采用PPO、DPO、GRPO等算法,通过奖励模型对齐人类偏好[24][25] - 语言模型强化学习需处理高维token输出、延迟反馈和多目标平衡[11][13] - RLAIF实现部分监督自动化,但面临奖励hacking和偏差校准问题[52] 规模扩展策略 - 思维链(CoT)和思维树(ToT)框架将复杂问题分解为多步骤推理[14][44] - 检索增强生成(RAG)动态整合外部知识,提升事实准确性达30%[20] - 分布式训练框架支持千亿参数模型部署,如DeepSeek-V2(236B参数)[19][32] 主流模型对比 | 技术特征 | 代表模型 | 参数规模 | 核心创新 | |----------------|-----------------------------------|----------------|------------------------------| | MoE架构 | GPT-4/4.5、DeepSeek-V2 | 236B-1.2T | GRPO算法、动态专家网络[19] | | 单模型 | Claude 3、Gemini | 70B-340B | RLAIF对齐框架[19][25] | | 高效微调 | Llama3、Qwen2 | 8B-405B | DPO直接偏好优化[19][31] | 评估基准体系 - **推理能力**:GSM8K(8.5K数学题)、MATH(7.5K分步解)[49] - **对齐评估**:HelpSteer(37K+多属性评分)、UltraFeedback(64K指令遵循)[49] - **多语言**:CulturaX(6.3T去重数据)、PangeaIns(6M指令)[49] 未来发展方向 - 交互式强化学习需求年增长200%,需解决奖励稀疏性问题[52] - 测试时扩展技术使推理时间增加50%,需优化计算分配策略[53] - 隐私保护联邦学习成为企业数据微调新标准[53]