Workflow
微调
icon
搜索文档
很严重了,大家别轻易离职。。
菜鸟教程· 2025-10-10 11:30
AI应用层投资机会 - 2025年AI行业最大的机会在应用层 [1] - 超过60%的企业正在推进AI产品落地 [1] - 字节跳动已有7个团队全速布局Agent [1] 人才市场需求与薪资 - 大模型岗位暴增69% [1] - 人工智能岗位平均月薪达7.8万元 [1] - 实习生日薪高达4000元 [1] - 脉脉上有超过1000家企业发布大模型相关岗位 [1] - 腾讯、京东、百度开放招聘的技术岗中80%与AI相关 [1] 核心技术能力需求 - RAG技术可融入外部信息修正模型输出 [1] - Agent智能体通过工具调用和环境交互完成复杂任务 [1] - 微调技术针对特定任务优化模型适配业务 [1] - 企业需要能交付项目的大模型应用开发工程师且该人才极度稀缺 [1] 技术应用场景 - 掌握主流大模型如DeepSeek、Qwen等的微调技术 [6] - 利用领域数据如制造、医药、金融等进行模型定制 [6] - RAG技术应用于法律文档分析、医疗诊断辅助、金融报告生成等垂类场景 [6] - AI Agent应用于制造业设备故障诊断和金融领域投资分析等场景 [6] 行业发展趋势 - AI浪潮正在重构程序员的核心竞争力 [3] - 具备AI能力的程序员薪资远超传统开发人员 [1] - 通过5个步骤培养全栈开发能力覆盖超多业务场景 [13]
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
机器之心· 2025-05-01 10:11
大型语言模型后训练技术综述 核心观点 - 微调和强化学习等后训练技术是提升LLM能力的关键手段,可解决幻觉、逻辑一致性不足等问题[1][5] - 强化学习通过动态反馈优化序列决策,结合LoRA、RAG等技术可提升计算效率和事实准确性[9][14] - 后训练需平衡专业化与泛化能力,面临过拟合、计算成本高、道德对齐等挑战[7][10][15] 技术方法分类 微调技术 - 监督式微调基于精选数据集更新参数,增强情绪分析、医疗诊断等特定任务能力[10] - LoRA和适配器等参数高效技术可减少90%以上计算开销,缓解过拟合问题[10][20] - 领域专业化与多功能性存在权衡,需动态调整模型深度和宽度[14][20] 强化学习优化 - 采用PPO、DPO、GRPO等算法,通过奖励模型对齐人类偏好[24][25] - 语言模型强化学习需处理高维token输出、延迟反馈和多目标平衡[11][13] - RLAIF实现部分监督自动化,但面临奖励hacking和偏差校准问题[52] 规模扩展策略 - 思维链(CoT)和思维树(ToT)框架将复杂问题分解为多步骤推理[14][44] - 检索增强生成(RAG)动态整合外部知识,提升事实准确性达30%[20] - 分布式训练框架支持千亿参数模型部署,如DeepSeek-V2(236B参数)[19][32] 主流模型对比 | 技术特征 | 代表模型 | 参数规模 | 核心创新 | |----------------|-----------------------------------|----------------|------------------------------| | MoE架构 | GPT-4/4.5、DeepSeek-V2 | 236B-1.2T | GRPO算法、动态专家网络[19] | | 单模型 | Claude 3、Gemini | 70B-340B | RLAIF对齐框架[19][25] | | 高效微调 | Llama3、Qwen2 | 8B-405B | DPO直接偏好优化[19][31] | 评估基准体系 - **推理能力**:GSM8K(8.5K数学题)、MATH(7.5K分步解)[49] - **对齐评估**:HelpSteer(37K+多属性评分)、UltraFeedback(64K指令遵循)[49] - **多语言**:CulturaX(6.3T去重数据)、PangeaIns(6M指令)[49] 未来发展方向 - 交互式强化学习需求年增长200%,需解决奖励稀疏性问题[52] - 测试时扩展技术使推理时间增加50%,需优化计算分配策略[53] - 隐私保护联邦学习成为企业数据微调新标准[53]