Self-supervised Learning

搜索文档
DeepSeek技术溯源及前沿探索报告
浙江大学· 2025-05-22 09:20
报告行业投资评级 未提及 报告的核心观点 报告围绕语言模型、Transformer、ChatGPT、DeepSeek和新一代智能体展开,介绍语言模型的目标、任务、编码方式及发展历程,阐述Transformer的理论架构和训练机制,分析ChatGPT的发展及能力,探讨DeepSeek的技术创新和全栈影响,还提及新一代智能体的构成和能力[6][32][87][107][132] 根据相关目录分别进行总结 语言模型 - 终极目标是计算任意词序列是一句话的概率,基本任务是编码让计算机理解人类语言,编码方式有One - hot Encoding和Word Embedding,Word Embedding用低维词向量表示词,能使相近向量对应物体含义相近,语言模型发展经历基于统计的N - gram、基于神经网络的LSTM/GRU和Transformer阶段,还有Encoder - Decoder框架用于解决Seq2Seq问题[6][9][13][22][24] - 自监督学习包括语言的Masked Langauge Modeling和图像的Masked AutoEncoders,训练transformer需要数据、模型和算力,如ChatGPT训练使用45TB数据、近1万亿个单词和数十亿行源代码,包含1750亿参数,训练门槛是1万张英伟达V100芯片、约10亿人民币[55][57][62] Transformer - 理论架构创新包括自注意力机制、多头注意力和前馈网络/位置编码/层归一化,其注意力机制在语言任务中捕捉单词间关系,在图像任务中进行图像特征抽取,是大模型的技术基座[32][34][37] ChatGPT - 大型语言模型发展历经多个阶段,GPT - 3是语言模型转折点,有1750亿参数和涌现能力,ChatGPT是人工智能的IPHONE时刻,其训练基于GPT - 3.5,使用人类反馈的强化学习和近端策略优化算法微调[76][78][82] - GPT - 3系列和GPT - 3.5系列通过代码训练和指令微调增强能力,ChatGPT触发翔实回应、公正回应、拒绝不当问题和拒绝知识范围外问题的能力,多模态模型发展有开源的Meta的LLaMA系列、GPT - 4v和GPT - 4o等,各有不同能力提升[84][88][91] DeepSeek - 推理模型从生成到推理重心转变,DeepSeek - V3/R1是专家模型、强化学习、开源且高效,其技术全景图包括DeepSeek - V3 Base、DeepSeek - R1 - Zero、DeepSeek - R1和DeepSeek - R1 - Distill阶段,采用动态路由机制和专家共享机制,有极致工程优化[107][108][113] - DeepSeek - V3对标GPT - 4o,DeepSeek - R1对标OpenAI - o1,通过不同阶段训练提升推理能力和全场景能力,DeepSeek - R1 - Distill模型基于低参数量通用模型微调,可大幅提升性能和压缩参数[111][117][120] - 带来全栈影响,涉及大模型应用层、中间层和基础模型层,应用于教育、医疗等多个领域[121][122] 新一代智能体 - 从LLM到Agent发展,新一代智能体= Agent + LLM,LLM是Agent大脑,核心能力是逻辑推理,具备规划技能、工具使用和记忆能力,还有时空型GPT驱动的闭环多智能体协同系统实现时空智能自主化构建[126][132][137]
Google首席科学家万字演讲回顾AI十年:哪些关键技术决定了今天的大模型格局?
机器人圈· 2025-04-30 17:10
Google 首席科学家Jeff Dean 今年4月于在苏黎世联邦理工学院发表关于人工智能重要趋势的演讲,本次演讲回顾 了奠定现代AI基础的一系列关键技术里程碑,包括神经网络与反向传播、早期大规模训练、硬件加速、开源生 态、架构革命、训练范式、模型效率、推理优化等。算力、数据量、模型规模扩展以及算法和模型架构创新对AI 能力提升的关键作用。 以下是本次演讲 实录 经数字开物团队编译整理 01 AI 正以前所未有的规模和算法进步改变计算范式 Jeff Dean: 今天我将和大家探讨 AI 的重要趋势。我们会回顾:这个领域是如何发展到今天这个模型能力水平的?在当前的技 术水平下,我们能做些什么?以及,我们该如何塑造 AI 的未来发展方向? 这项工作是与 Google 内外的众多同仁共同完成的,所以并非全是我个人的成果,其中许多是合作研究。有些工作 甚至并非由我主导,但我认为它们都非常重要,值得在此与大家分享和探讨。 我们先来看一些观察发现,其中大部分对在座各位而言可能显而易见。首先,我认为最重要的一点是,机器学习 彻底改变了我们对计算机能力的认知和期待。回想十年前,当时的计算机视觉技术尚处初级阶段,计算机几乎谈 ...