Workflow
真正的AI竞争力,藏在大模型“后训练”这一步
量子位·2025-10-13 16:47

后训练技术演进与产业共识 - 后训练被视为AI落地产业的必经之路,旨在将通用基座模型转化为深度理解企业业务、具备领域知识并能执行复杂策略的专属智能引擎[1] - 技术路径从监督微调(SFT)进化至以目标为导向的强化学习(RL)范式,并从依赖人力的RLHF发展到追求自动化的RLVR和前沿的自然语言奖励[2][3][4] - 后训练的核心价值在于通过对模型的特定能力增强,解决商业世界的复杂任务,构建通用模型无法达到的竞争壁垒[4] 企业后训练四步落地路径 - 企业后训练落地遵循一条清晰链路:准备高质量数据(Data)、选择合适的基座模型(Model)、设计有效的奖励机制(Reward)、构建可量化的模型评测(Evaluation)并与业务指标挂钩[8] 第一步:准备高质量数据 - 数据质量是后训练效果的上限,企业超过一半甚至60%-70%的时间都花费在数据准备上[10] - 知乎通过大模型预打标和主动学习提升数据质量,汽车之家利用20年积累的结构化私域数据进行增量预训练,百融云创则建立工业化数据生产线,通过模型自动过滤、校正文本并合成数据来提纯话术[10][11][13] 第二步:选择合适的基座模型 - 选对基座模型是后训练成功的一半,多家企业选择通义千问系列模型,因其模型效果领先、尺寸覆盖广泛且开源生态对后训练深度支持[15] - 通义千问衍生模型数量已突破17万,全球下载量超过6亿,在HuggingFace社区2024年全球模型下载量中占比超30%[16] - 为平衡效果与成本,微博和网易伏羲采用模型蒸馏方案,将大模型能力迁移至更轻量的模型上,微博蒸馏至7B模型,实现了接近大模型的效果但成本更低[19][21] 第三步:设计奖励机制 - 奖励机制的核心是将复杂的商业目标和人类偏好转化为模型可学习的数值信号,技术从RLHF经RLVR演进至利用大模型本身作为评判者的自然语言奖励[24][25] - 盈米基金与阿里云合作,将人类投顾专家的解题框架和风控逻辑内置到模型中探索奖励函数,汽车之家则通过A/B测试关注用户最终转化率等核心业务指标[26] 第四步:构建评估体系 - 模型评估需用客观、可量化的结果证明技术投入的商业价值,盈米基金构建了覆盖600个典型场景的基金投顾领域评测基准[27][28] - 通过精心设计的奖励机制,盈米基金的4B参数垂直模型在准确性指标上超过通用32B参数模型,百融云创使模型回答质量分提升10%,业务违规率从1%降至千分之三[28] 企业后训练实践与商业价值 - 夸克通过后训练复刻专家思维,2025年为高考志愿填报场景生成超1200万份报告,服务4000万用户,实现专家级服务的规模化普惠[30] - 在游戏智能NPC领域,后训练使NPC具备多维度决策能力,如《新倩女幽魂》中的家臣系统能基于薪资、关系亲疏等动态调整行为[32] - 后训练创造的商业价值在金融、内容社区、汽车、AI搜索等领域集中爆发,成为企业真正的护城河[32]