LLM(大型语言模型)

搜索文档
Andrej Karpathy最新演讲刷屏:软件 3.0 时代已经到来!
AI科技大本营· 2025-06-20 13:49
软件范式变革 - 过去70年软件底层范式几乎未变,但近几年连续经历两次剧烈跃迁,进入Software 3.0时代 [6][7][21] - Software 1.0:人类用Python、C++等语言明确编写代码,主导过去70年 [16] - Software 2.0:以神经网络权重为核心,通过数据集和优化算法自动生成程序,典型代表如Hugging Face托管模型 [15][16][17] - Software 3.0:以自然语言提示词编程大型语言模型(LLM),实现更灵活的组合与编排 [25][26] LLM的生态定位 - LLM具备公共事业属性,服务中断会导致全球性"智能停电",依赖度将持续增长 [39][43][44][45] - 训练LLM类似建造芯片工厂,需巨额资本投入(CAPEX)和尖端技术,通过API按量计费(OPEX) [46][47] - LLM是新时代操作系统,生态演化路径与计算机历史相似:闭源提供商(如OpenAI)与开源替代品(如Llama)并存 [50][55][58] 技术扩散路径反转 - LLM颠覆传统技术扩散路径,直接进入消费市场解决日常问题,而非优先服务军事/政府需求 [73][74] - 公司需追赶消费者使用步伐,应用起点与演化路径将不同于以往技术 [74] LLM的认知特性与局限 - LLM具有"人类灵魂"特质:百科全书式记忆但存在幻觉、智能不均衡、顺行性遗忘等认知缺陷 [75][76] - 安全风险突出,易受提示词注入攻击,需设计机制规避风险 [77] 应用开发范式迁移 - 特斯拉案例显示:Autopilot中Software 2.0神经网络逐步替代传统C++代码(Software 1.0) [30][31][33][34] - 自然语言编程降低门槛,实现"人人可编程",但产品化涉及支付/认证等非代码环节仍是痛点 [99][104][106] - 未来需构建LLM友好型基础设施,如上下文构建器(Gitingest)、协议标准(MCP)等 [109][110][111] 人机协作发展方向 - 短期应聚焦"部分自治应用",通过图形界面和"自治滑块"实现可控自主 [83][84][95] - 长期需平衡增强与自主,类似钢铁侠战衣的人机融合模式 [93][94][115]
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
机器之心· 2025-05-01 10:11
大型语言模型后训练技术综述 核心观点 - 微调和强化学习等后训练技术是提升LLM能力的关键手段,可解决幻觉、逻辑一致性不足等问题[1][5] - 强化学习通过动态反馈优化序列决策,结合LoRA、RAG等技术可提升计算效率和事实准确性[9][14] - 后训练需平衡专业化与泛化能力,面临过拟合、计算成本高、道德对齐等挑战[7][10][15] 技术方法分类 微调技术 - 监督式微调基于精选数据集更新参数,增强情绪分析、医疗诊断等特定任务能力[10] - LoRA和适配器等参数高效技术可减少90%以上计算开销,缓解过拟合问题[10][20] - 领域专业化与多功能性存在权衡,需动态调整模型深度和宽度[14][20] 强化学习优化 - 采用PPO、DPO、GRPO等算法,通过奖励模型对齐人类偏好[24][25] - 语言模型强化学习需处理高维token输出、延迟反馈和多目标平衡[11][13] - RLAIF实现部分监督自动化,但面临奖励hacking和偏差校准问题[52] 规模扩展策略 - 思维链(CoT)和思维树(ToT)框架将复杂问题分解为多步骤推理[14][44] - 检索增强生成(RAG)动态整合外部知识,提升事实准确性达30%[20] - 分布式训练框架支持千亿参数模型部署,如DeepSeek-V2(236B参数)[19][32] 主流模型对比 | 技术特征 | 代表模型 | 参数规模 | 核心创新 | |----------------|-----------------------------------|----------------|------------------------------| | MoE架构 | GPT-4/4.5、DeepSeek-V2 | 236B-1.2T | GRPO算法、动态专家网络[19] | | 单模型 | Claude 3、Gemini | 70B-340B | RLAIF对齐框架[19][25] | | 高效微调 | Llama3、Qwen2 | 8B-405B | DPO直接偏好优化[19][31] | 评估基准体系 - **推理能力**:GSM8K(8.5K数学题)、MATH(7.5K分步解)[49] - **对齐评估**:HelpSteer(37K+多属性评分)、UltraFeedback(64K指令遵循)[49] - **多语言**:CulturaX(6.3T去重数据)、PangeaIns(6M指令)[49] 未来发展方向 - 交互式强化学习需求年增长200%,需解决奖励稀疏性问题[52] - 测试时扩展技术使推理时间增加50%,需优化计算分配策略[53] - 隐私保护联邦学习成为企业数据微调新标准[53]