规模扩展 - 财报，业绩电话会，研报，新闻

规模扩展

搜索文档

未知机构：FundaAI评论HockTan对CPO的看法铜缆还没死但光学-20260309

未知机构· 2026-03-09 10:15

涉及的行业与公司 * **行业**: 数据中心互连技术行业，具体涉及铜缆互连与光学互连（CPO - 共封装光学）技术路线 * **公司**: Broadcom（博通）[1][2][3][5]，其CEO Hock Tan的观点是核心讨论对象核心观点与论据 * **铜缆技术的短期优势**: 在2027年之前，对于机架内（intra-rack）的短距离规模扩展（scale-up），铜缆（DAC）在延迟、功耗与成本上仍有优势，客户目前没有强烈动机转向光学[1] * **光学互连的必然性与时间表**: 光学互连是长期必然趋势，但大规模应用的时间点在于2028年之后[1][2] * Hock Tan认为“beyond 2028 我们才会看到光学大幅进场”[2] * 目前“每一次客户都选铜缆”[2] * **当前互连架构的演进路径**: 当前及下一代系统（如NVL72、NVL576）的互连模式是“机架内用铜缆、机架间用光学”，这是产业基准演进路径[2] * 真正全面光学化的机架内连接，预计要到更后一代（如Feynman时代）才会实现[2] * **Broadcom的立场与利益**: Hock Tan的发言利用近期的铜缆现实来淡化长期的光学规模扩展策略方向，这反映了Broadcom自身的利益考量，因其拥有SerDes技术并希望延长铜缆技术的生命周期[1][3] * **产业转折点的驱动因素**: 长期决定产业方向的关键是当大规模规模扩展域（scale-up domains）成长到某个临界点时，唯一可行的答案就是“在不得不用的地方使用光学”[5] * 一旦这个转折点到来，Broadcom目前努力守护的某些价值池可能会最先被重组[5] 其他重要内容 * **技术讨论的具体场景**: Hock Tan的评论主要针对机架形式因子内的chip-to-chip或XPU-to-XPU连接，例如Vera Rubin NVL72这种架构[2] * **产业关注的重点**: 业界对“光学规模扩展”的讨论重点并非当前的NVL72系统，而是NVL576及之后的更大规模系统[2] * **对发言的总体解读**: 仔细解读Hock Tan的发言，其核心是强调**这一代的短距规模扩展会继续用铜，而不是光学规模扩展永远不会发生**[2] * **短期、中期、长期展望**: * 短期内，铜缆显然还没死[4] * 中期内，面向横向扩展（scale-out）的CPO确实很难大规模部署[5] * 长期来看，光学互连是必然选择[5]

后训练时代如何延续Scaling Law？这是你该读的LLM后训练综述

机器之心· 2025-05-01 10:11

大型语言模型后训练技术综述核心观点 - 微调和强化学习等后训练技术是提升LLM能力的关键手段，可解决幻觉、逻辑一致性不足等问题[1][5] - 强化学习通过动态反馈优化序列决策，结合LoRA、RAG等技术可提升计算效率和事实准确性[9][14] - 后训练需平衡专业化与泛化能力，面临过拟合、计算成本高、道德对齐等挑战[7][10][15] 技术方法分类微调技术 - 监督式微调基于精选数据集更新参数，增强情绪分析、医疗诊断等特定任务能力[10] - LoRA和适配器等参数高效技术可减少90%以上计算开销，缓解过拟合问题[10][20] - 领域专业化与多功能性存在权衡，需动态调整模型深度和宽度[14][20] 强化学习优化 - 采用PPO、DPO、GRPO等算法，通过奖励模型对齐人类偏好[24][25] - 语言模型强化学习需处理高维token输出、延迟反馈和多目标平衡[11][13] - RLAIF实现部分监督自动化，但面临奖励hacking和偏差校准问题[52] 规模扩展策略 - 思维链(CoT)和思维树(ToT)框架将复杂问题分解为多步骤推理[14][44] - 检索增强生成(RAG)动态整合外部知识，提升事实准确性达30%[20] - 分布式训练框架支持千亿参数模型部署，如DeepSeek-V2(236B参数)[19][32] 主流模型对比 | 技术特征 | 代表模型 | 参数规模 | 核心创新 | |----------------|-----------------------------------|----------------|------------------------------| | MoE架构 | GPT-4/4.5、DeepSeek-V2 | 236B-1.2T | GRPO算法、动态专家网络[19] | | 单模型 | Claude 3、Gemini | 70B-340B | RLAIF对齐框架[19][25] | | 高效微调 | Llama3、Qwen2 | 8B-405B | DPO直接偏好优化[19][31] | 评估基准体系 - **推理能力**：GSM8K(8.5K数学题)、MATH(7.5K分步解)[49] - **对齐评估**：HelpSteer(37K+多属性评分)、UltraFeedback(64K指令遵循)[49] - **多语言**：CulturaX(6.3T去重数据)、PangeaIns(6M指令)[49] 未来发展方向 - 交互式强化学习需求年增长200%，需解决奖励稀疏性问题[52] - 测试时扩展技术使推理时间增加50%，需优化计算分配策略[53] - 隐私保护联邦学习成为企业数据微调新标准[53]

强化学习

微调

规模扩展

Artificial Intelligence

Artificial Intelligence

LLM（大型语言模型）