Workflow
大模型:从单词接龙到行业落地
浙江大学·2025-04-18 15:55

报告行业投资评级 未提及相关内容 报告的核心观点 - 剖析大语言模型,包括预训练、强化学习和行业落地等方面,利用预训练 - 微调范式打造时序大模型,实现个体、任务和领域可泛化,如脑电大模型、电力大模型 [228] 各部分内容总结 人工智能与图灵测试 - 图灵测试是在测试人与被测试者(人和机器)隔开时,通过装置提问,若超30%答复不能使测试人认出是人还是机器的回答,机器则通过测试并被认为具有人类智能 [5] - 图灵在《计算机器与智能》中描述未来智能计算机测试样子,如对不同问题的问答示例 [7] - ChatGPT在文学、数学、逻辑等问题上的回答表现,与图灵测试中的问答有相似性 [10] 大语言模型与单词接龙 - 单词接龙通过条件概率计算实现,给定上下文计算下一个生成词概率,根据概率采样获得生成词,拼接至上下文末尾,直至生成结束符,利用Transformer计算条件概率 [26][29] - 将各类下游任务转化为单词接龙,如将“断桥残雪在哪?”的问答拆分成一连串单词接龙 [31] - 单词接龙可针对特定任务进行端到端学习,传统机器学习模型训练数据需标注,成本高,而预训练可使用多种类型的无标注数据 [33][47] 预训练 - 微调范式 - 预训练可从海量无标注数据中学习物理世界知识和人类遣词造句模式,GPT3使用45TB数据进行预训练,而传统NLP任务鲜有超过1GB的标注数据用于模型训练 [48] - 微调包括监督微调(SFT)、指令微调(Instruction Tuning)和强化学习(RLHF),监督微调通过经标注的[输入 - 输出]对数据调整模型部分参数,优化特定任务性能;指令微调通过[指令 - 输出]对使模型泛化到未见过的指令;强化学习通过人类对回答的评分训练奖励模型,再用强化学习对齐人类偏好 [56][59] 大模型的问题与解决方法 - 大模型存在幻觉、偏见、过时三大问题,如生成不合理内容、存在性别等偏见、知识截止时间较早等 [64] - 检索增强生成(RAG)可解决大模型问题,其优势包括明确信息来源提升可解释性、利用外部数据源补充长尾知识、利用互联网保持信息及时性,还可实现轻量级的垂域私有化部署 [65][80] 思维链相关内容 - 思维链“咒语”有有效和误导、无关之分,不同“咒语”在回答问题时的准确率不同,如“Let's think step by step.”准确率为78.7% [84] - 思维链背后体现快思考和慢思考,快思考依赖直觉,慢思考是主动控制、有意识的理性思考,模型答案生成方式也不同 [85] - 推理时扩展可扩展大规模自监督预训练阶段的计算量,扩展推理时的计算资源以获得更好结果,模型准确率随推理时token数的增加而提升 [87][89] 训练大模型自主生成思维链 - 监督学习通过标注数据学习输入到输出的映射,本质是模仿人类标注者的决策行为,但长思维链过程标注难度大、成本高,且人工标注的COT不一定是最优解 [109][110] - 强化学习通过与环境的交互学习最优策略,是基于奖励/惩罚信号的反馈学习,涉及智能体、状态、奖励、动作等要素,如在围棋和数学解题中的应用 [116][133] - 学习策略是将策略网络得到的奖励结果反馈给价值网络,通过价值网络优化策略网络 [136][145] 大模型在各领域的应用 - 评审叮当平台基于大语言模型技术,提供领域规范知识仓库问答、专业项目合规性预审、申报材料智慧评审、项目智能查重等多项技术支持,提升项目质量管理,缓解专家压力 [151][153] - 时间序列数据可应用于能源消耗、交通流量、经济变化、天气变化、疾病传播等场景,在癫痫预测中,可通过脑电分析引擎进行数据处理和分析 [156][162] - 脑信号研究中,Brant 1.0在1.01TB的颅内数据集上预训练,能捕捉长期时间依赖性和空间相关性,在个体和任务水平上有泛化能力,实验结果显示其在多个下游任务上表现良好 [198][206] - 电力系统中,PowerPM基于海量电力数据训练,模型参数量为10亿,通过构建层次图和自监督预训练任务,实验验证其在44个不同任务上有效,这些任务分为16个主要类别 [217][226]