阿里巴巴申请公布大型语言模型训练相关专利

阿里巴巴AI技术研发进展 - 阿里巴巴（中国）有限公司近日申请并公布了一项关于大型语言模型（LLM）训练方法的新专利，专利名称为“一种基于思维链训练大型语言模型的方法、装置和设备” [1] 专利技术方法概述 - 该专利方法首先通过获取包含图像、图像辅助文本信息及图像标准审核结果的多个初始采样数据 [1] - 根据每个初始采样数据生成思维链数据，并形成思维链数据集合 [1] - 利用该思维链数据集合对基础大型语言模型进行全量微调，以确定一个中间大型语言模型 [1] - 随后，基于该中间大型语言模型和多个初始采样数据，迭代生成多个中间思维链数据 [1] - 根据预先设置的奖励函数，确定各中间思维链数据的奖励数值 [1] - 最后采用组相对策略优化算法（GRPO）对中间大型语言模型进行强化学习，从而确定最终的目标大型语言模型 [1] 技术应用与目标 - 该专利技术旨在通过上述方法，提高大型语言模型在特定任务中的可解释性 [1] - 该技术方法同时旨在提升大型语言模型在相关任务中的审核精度 [1]