提示学习
搜索文档
大模型能力技术培训:让数据智能像水电 样简单
数巅科技· 2026-02-28 09:20
行业投资评级 - 报告未明确给出具体的行业投资评级 [1] 报告核心观点 - 大语言模型是包含百亿或更多参数的语言模型,其发展经历了基础模型、能力探索和突破发展三个阶段,以2022年11月ChatGPT的发布为标志进入突破发展阶段[3][32][36] - 大语言模型展现出涌现能力,如上下文学习、指令遵循和逐步推理,使其能够以少量样本处理复杂的新任务,并作为基座模型支持多元应用[8][9][11] - 大语言模型通过预训练、有监督微调、奖励建模和强化学习等阶段训练而成,其巨大的参数量(十亿到万亿级)和分布式训练技术是关键支撑[12][59][99] - 该技术对自然语言处理、信息检索、计算机视觉、AI Agent乃至通用人工智能(AGI)的发展产生了深远影响,并催生了以对话为统一入口的全新应用范式[7][10] - 行业已形成开源与闭源模型并存的格局,国内外多家科技公司发布了具有竞争力的大语言模型产品[4][38][39] 语言模型技术发展历程 - **早期发展**:语言模型于上世纪90年代出现,采用统计学方法;2003年首次融入深度学习思想;2018年Transformer架构的提出是关键转折点[4] - **预训练时代**:2018年,BERT和GPT-1开启了预训练语言模型(PLM)时代;2020年,拥有1750亿参数的GPT-3发布,开启大语言模型新时代,并引入了缩放法则,指出模型性能随参数、数据量和计算量的指数增加而线性提高[26][28][33] - **发展三阶段**: - **基础模型阶段(2018-2021)**:研究聚焦于模型结构本身,参数量在10亿以上的模型因微调计算量大,影响力初期受限[32] - **能力探索阶段(2019-2022)**:探索无需任务特定微调即可发挥大模型能力的方法,如语境学习(ICL)、指令微调,并出现了InstructGPT等算法[34][35] - **突破发展阶段(2022年11月起)**:以ChatGPT发布为起点,模型展现出强大的通用对话和任务处理能力,GPT-4进一步具备多模态能力,在基准考试中得分高于88%的应试者[36][37] - **核心模型演进**:从基于n-gram的统计模型,到神经语言模型(NLM),再到基于Transformer的大规模预训练语言模型(PLM),最终发展为参数量巨大的大语言模型[13][23][26] 大语言模型核心特性与能力 - **关键特性**:参数规模巨大(十亿至万亿),采用预训练与微调范式,具有上下文感知、多语言与多模态支持能力,但同时也面临生成有害内容、隐私、幻觉等伦理与风险问题[12] - **涌现能力**:包括上下文学习(ICL)、指令遵循和逐步推理(思维链),这些能力使其成为全新的AI范式,能够缩短具体应用的开发周期并提升效果[8][11] - **基座模型能力**:作为基座模型支持多元化的下游应用开发[9] - **统一入口能力**:支持以对话作为完成各类任务的统一入口,即Conversation as a Platform[10] 主要大语言模型产品(国内外) - **国外闭源模型**: - **GPT系列(OpenAI)**:GPT-3参数量1750亿,预训练数据量3000亿Token;ChatGPT基于GPT-3.5/GPT-4;GPT-4具备多模态能力,推测参数量达1.8万亿,上下文窗口达128k Token[4][39][43] - **Claude(Anthropic)**:Claude 2上下文窗口扩展到200K Token,擅长长文档处理与结构化数据输出[44] - **PaLM 2(Google)**:PaLM参数量5400亿,PaLM 2是其升级版,已部署于25个Google产品中,其Bard为会话应用[4][45] - **国内闭源模型**: - **文心一言(百度)**:基于参数量达2600亿的文心大模型,具备知识增强、插件机制等特点[4][47][48] - **讯飞星火(科大讯飞)**:3.0版本包含1700亿参数,支持多模态功能,并发布了支持私有化训练的“星火一体机”[4][49] - **通义千问(阿里巴巴)**、**腾讯混元**、**360智脑**等[4][39] - **开源模型**: - **LLaMA系列(Meta)**:参数规模从7B到70B,LLaMA-65B训练消耗超过102万GPU小时,LLaMA 2参数量达700亿[38][51][99] - **ChatGLM(智谱AI/清华)**:GLM3支持32K上下文长度,采用Multi-Query Attention提升推理速度[53] - **通义千问(阿里巴巴)**:开源70亿(7B)和140亿(14B)参数版本[56] - **Baichuan(百川智能)**:开源7B和13B参数模型,Baichuan-13B基于1.4万亿字符训练[57] 大语言模型训练技术 - **训练流程**:主要包含四个阶段:预训练、有监督微调(指令微调)、奖励建模和强化学习[59] - **预训练**: - 使用互联网网页、维基百科、书籍等海量数据,构建数千亿至数万亿单词的语料库,在数千块GPU上耗时数十天完成[61] - 数据需经过严格过滤,例如GPT-3将45TB的Common Crawl数据过滤至570GB使用[63] - **有监督微调(SFT)**:使用包含用户提示和理想输出的高质量小数据集对基座模型进行微调,使模型具备初步的指令理解与泛化能力,此类模型包括Alpaca、Vicuna、ChatGLM-6B等[67][71] - **奖励建模(RM)**:训练一个二分类模型,用于对同一提示下SFT模型的不同输出结果进行质量排序,为强化学习提供奖励信号[72] - **强化学习(RL)**:基于奖励模型,通过强化学习算法(如PPO)进一步优化SFT模型的参数,使模型生成更高奖励的文本,最终得到如ChatGPT、Claude等系统,但该方法存在稳定性挑战[76] - **分布式训练**: - 因模型与数据量巨大,必须采用分布式训练。例如,OPT使用992块A100 GPU训练近2个月;BLOOM使用384块A100 GPU训练3.5个月[64][99] - 并行策略包括数据并行(DP)、流水线并行(PP)和张量并行(TP),大模型训练通常混合使用这些策略[105][106][114] - 采用ZeRO优化器、混合精度训练等技术来优化内存占用,例如1750亿参数模型若使用FP16格式,模型状态需占用120GB内存[117][121] - **长文本建模**:为处理长文本,采用增加上下文窗口微调、改进位置编码(如ALiBi)或插值法来扩展模型的上下文处理能力[151] 大语言模型应用与生态 - **技术影响**:推动自然语言处理(文本理解与生成)、信息检索(智能搜索)、计算机视觉(文生图)、AI Agent(智能助理、数字人)等领域发展,并被视为通用人工智能(AGI)的早期形式[7] - **应用开发框架**:LangChain等框架简化了大语言模型应用开发,提供模型I/O、数据连接、智能体等标准化接口[177][178] - **提示与语境学习**:提示学习(Prompt-based Learning)和语境学习(In-Context Learning, ICL)成为使用大模型的新范式,无需参数更新即可让模型适应新任务[139][143] - **高效微调技术**:如LoRA,通过引入少量可训练参数来高效微调大模型,节省计算资源[149] - **思维链与任务分解**:思维链提示和由少至多提示等策略能显著提升大模型在复杂推理和规划任务上的表现[172][175]