Transformer

搜索文档
苹果憋一年终超同参数 Qwen 2.5?三行代码即可接入 Apple Intelligence,自曝如何做推理
AI前线· 2025-06-10 18:05
苹果新一代基座模型发布 - 推出两大基座模型:3B参数的紧凑型设备端模型和服务器端混合专家模型,均针对苹果芯片优化,支持15种语言及多模态输入[1] - 设备端模型通过5:3深度比分割和KV缓存共享技术,降低38.5%内存占用并改善首token生成速度[6] - 服务器端采用PT-MoE架构,通过独立轨道处理token减少同步开销,实现高效扩展[7] 模型架构创新 - 引入交错注意力架构结合RoPE和NoPE,提升长上下文处理能力并减少键值缓存大小[8] - 视觉系统采用1B参数ViT-g服务器模型和300M参数ViTDet-L设备模型,新增寄存器窗口机制增强全局/局部特征捕捉[12] - 量化技术实现设备端2-bpw和服务端3.56-bpw压缩,嵌入表统一4-bit量化,通过适配器恢复质量损失[17][18] 性能表现 - 设备端模型在所有语言环境超越Qwen-2.5-3B,英语环境媲美Qwen-3-4B和Gemma-3-4B[8] - 服务器端模型优于Llama-4-Scout,但落后于Qwen-3-235B和GPT-4o[8] - 视觉任务评估显示设备端模型优于InternVL-2.5-4B和Qwen-2.5-VL-3B,与Gemma-3-4B相当[10] 训练优化 - 分阶段预训练:文本模态阶段采用蒸馏损失降低90%训练成本,视觉阶段联合训练编码器[14] - 持续预训练整合合成数据提升代码/数学能力,多模态自适应保持文本能力[16] - RLHF技术带来16:9的人类评估优势比例,显著超越SFT效果[16] 开发者生态 - 推出基座模型框架,支持Swift语言三行代码接入3B设备端模型,内置文本摘要/实体提取等功能[20] - 框架支持工具调用和引导式生成,Automattic等厂商已应用于日记类产品开发[21] - 测试版通过Apple Developer Program提供,公开测试版将于下月上线[22]
裁员了,很严重,大家做好准备吧!
猿大侠· 2025-06-04 10:55
AI行业人才需求与转型趋势 - 传统技术岗位面临降薪淘汰压力,而AI大模型人才招聘薪资高达60K*16薪,行业人才结构正在重构[1] - 80%公司已将AI工具应用列为员工必备技能,Cursor等编程工具普及加速工作提效[1] - 大厂招聘标准转向AI大模型实战经验(非单纯API使用),缺乏相关经验者面试通过率大幅降低[1] AI大模型技术培训核心价值 - 课程提供大模型原理、应用技术到项目实战的全链路学习,覆盖Transformer架构、RAG、Agent等核心技术[2][4][11] - 通过金融行业"支小助"、知乎直答等真实案例拆解,学员可复现项目并写入简历[8][12] - 2天直播包含业务场景解析、技术架构剖析及大佬答疑,完课赠送大模型案例集和商业白皮书[2][3][15] 职业发展支持体系 - 提供大厂内推机会,简历直达面试官,已有学员实现高薪职业跃迁[6][14] - 行业大佬深度解析招聘风向,包括岗位薪资(如60K*16薪)、技术迭代路径等[1][6] - 垂直领域经验(如医保风控系统改造、电商智能客服优化)可显著提升岗位竞争力[4] 技术应用场景落地 - RAG技术适用于需频繁更新知识的场景(如智能客服),无需重新训练大模型[16] - Function Call通过集成外部工具增强大模型复杂任务处理能力[16] - 个人开发者可完成AI原生应用全栈开发,Transformer架构在行业解决方案中具普适性[11][12] 课程市场反馈 - 已开班58期,服务20000+学员,学习效果获广泛认可[14] - 本期限100个免费名额,24小时后关闭报名通道[3][15]
DeepSeek技术溯源及前沿探索报告
浙江大学· 2025-05-22 09:20
报告行业投资评级 未提及 报告的核心观点 报告围绕语言模型、Transformer、ChatGPT、DeepSeek和新一代智能体展开,介绍语言模型的目标、任务、编码方式及发展历程,阐述Transformer的理论架构和训练机制,分析ChatGPT的发展及能力,探讨DeepSeek的技术创新和全栈影响,还提及新一代智能体的构成和能力[6][32][87][107][132] 根据相关目录分别进行总结 语言模型 - 终极目标是计算任意词序列是一句话的概率,基本任务是编码让计算机理解人类语言,编码方式有One - hot Encoding和Word Embedding,Word Embedding用低维词向量表示词,能使相近向量对应物体含义相近,语言模型发展经历基于统计的N - gram、基于神经网络的LSTM/GRU和Transformer阶段,还有Encoder - Decoder框架用于解决Seq2Seq问题[6][9][13][22][24] - 自监督学习包括语言的Masked Langauge Modeling和图像的Masked AutoEncoders,训练transformer需要数据、模型和算力,如ChatGPT训练使用45TB数据、近1万亿个单词和数十亿行源代码,包含1750亿参数,训练门槛是1万张英伟达V100芯片、约10亿人民币[55][57][62] Transformer - 理论架构创新包括自注意力机制、多头注意力和前馈网络/位置编码/层归一化,其注意力机制在语言任务中捕捉单词间关系,在图像任务中进行图像特征抽取,是大模型的技术基座[32][34][37] ChatGPT - 大型语言模型发展历经多个阶段,GPT - 3是语言模型转折点,有1750亿参数和涌现能力,ChatGPT是人工智能的IPHONE时刻,其训练基于GPT - 3.5,使用人类反馈的强化学习和近端策略优化算法微调[76][78][82] - GPT - 3系列和GPT - 3.5系列通过代码训练和指令微调增强能力,ChatGPT触发翔实回应、公正回应、拒绝不当问题和拒绝知识范围外问题的能力,多模态模型发展有开源的Meta的LLaMA系列、GPT - 4v和GPT - 4o等,各有不同能力提升[84][88][91] DeepSeek - 推理模型从生成到推理重心转变,DeepSeek - V3/R1是专家模型、强化学习、开源且高效,其技术全景图包括DeepSeek - V3 Base、DeepSeek - R1 - Zero、DeepSeek - R1和DeepSeek - R1 - Distill阶段,采用动态路由机制和专家共享机制,有极致工程优化[107][108][113] - DeepSeek - V3对标GPT - 4o,DeepSeek - R1对标OpenAI - o1,通过不同阶段训练提升推理能力和全场景能力,DeepSeek - R1 - Distill模型基于低参数量通用模型微调,可大幅提升性能和压缩参数[111][117][120] - 带来全栈影响,涉及大模型应用层、中间层和基础模型层,应用于教育、医疗等多个领域[121][122] 新一代智能体 - 从LLM到Agent发展,新一代智能体= Agent + LLM,LLM是Agent大脑,核心能力是逻辑推理,具备规划技能、工具使用和记忆能力,还有时空型GPT驱动的闭环多智能体协同系统实现时空智能自主化构建[126][132][137]
Google首席科学家万字演讲回顾AI十年:哪些关键技术决定了今天的大模型格局?
机器人圈· 2025-04-30 17:10
Google 首席科学家Jeff Dean 今年4月于在苏黎世联邦理工学院发表关于人工智能重要趋势的演讲,本次演讲回顾 了奠定现代AI基础的一系列关键技术里程碑,包括神经网络与反向传播、早期大规模训练、硬件加速、开源生 态、架构革命、训练范式、模型效率、推理优化等。算力、数据量、模型规模扩展以及算法和模型架构创新对AI 能力提升的关键作用。 以下是本次演讲 实录 经数字开物团队编译整理 01 AI 正以前所未有的规模和算法进步改变计算范式 Jeff Dean: 今天我将和大家探讨 AI 的重要趋势。我们会回顾:这个领域是如何发展到今天这个模型能力水平的?在当前的技 术水平下,我们能做些什么?以及,我们该如何塑造 AI 的未来发展方向? 这项工作是与 Google 内外的众多同仁共同完成的,所以并非全是我个人的成果,其中许多是合作研究。有些工作 甚至并非由我主导,但我认为它们都非常重要,值得在此与大家分享和探讨。 我们先来看一些观察发现,其中大部分对在座各位而言可能显而易见。首先,我认为最重要的一点是,机器学习 彻底改变了我们对计算机能力的认知和期待。回想十年前,当时的计算机视觉技术尚处初级阶段,计算机几乎谈 ...
Cartesia: 3 个月融资 9100 万美元,从 Transformer 到 Mamba 重塑语音 AI
海外独角兽· 2025-04-03 20:04
作者:linlin 编辑:haina 2025 年 3 月 11 日,语音生成初创公司 Cartesia 宣布完成 6400 万美元 A 轮融资,距其 2700 万美元种 子轮融资仅过去不到 3 个月。本轮融资由 Kleiner Perkins 领投,Lightspeed、Index、A*、Greycroft、 Dell Technologies Capital 和 Samsung Ventures 等跟投。Cartesia 还同时推出了其旗舰产品 Sonic 2.0, 系统延迟从 90 毫秒缩短至 45 毫秒,为语音 AI 领域高效、实时且低成本的多模态交互提供了新动 力。 Cartesia 的核心团队均来自 Stanford AI labs,包括 Karan Goel、Albert Gu、Arjun Desai、Brandon Yang 四位校友及其共同导师 Chris Ré。团队共同的研究方向在于 SSM(状态空间模型)。从 S4 到 Mamba 的 SSM 系列研究,以线性时间复杂度,为解决 LLMs 主流架构 Transformer 在上下文长度的 固有局限提供了潜在解决方案,意味着更快的生成速度、 ...
3700 次预训练寻找 “线性注意力” 非共识,MiniMax-01 开发者讲述 4 年探索
晚点LatePost· 2025-03-09 20:00
线性注意力机制的发展历程 - 线性注意力机制从2021年开始探索,当时被视为"看起来很美好的泡泡",但公司团队坚持投入研发 [5][21] - 2023年底验证了15B规模的纯线性方案效果接近Transformer,但发现召回能力存在缺陷 [35] - 最终采用7层线性注意力混合1层Softmax注意力的架构,在4560亿参数模型上实现应用 [36][37] 技术优势与验证过程 - 线性注意力理论计算复杂度从二次降为线性,长序列处理速度比Full Attention快2700倍 [11][44] - 通过3700次预训练测试验证技术可行性,涵盖不同参数规模和架构方案 [41][42] - 在7B参数以上模型规模时,线性注意力优势开始明显显现 [16][17] 行业竞争格局 - 线性注意力与稀疏注意力是当前两大改进方向,2023年后线性方向热度上升 [17] - 公司认为线性架构上限更高,未来在长文本赛道具备优势 [50][51] - 目前行业对线性注意力仍存在非共识,部分认为其属于有损优化 [52][53] 产品化与战略布局 - 公司将80%研发资源投入线性架构模型开发,视为重大战略转型 [31][48] - 下一代计划推出深度推理原生多模态模型,预计4-5月发布 [58][60] - 开源4560亿参数模型MiniMax-01,但未提供小尺寸版本 [57] 技术挑战与解决方案 - 线性注意力存在GPU并行化难题,通过Lightning Attention提升实际运行效率 [22] - 召回能力缺陷通过混合架构解决,测试不同比例后选择1:7方案 [36][38] - 多模态实现采用adapter形式而非原生方案,以快速验证效果 [48]
【广发金工】神经常微分方程与液态神经网络
广发金融工程研究· 2025-03-06 08:16
广发证券首席金工分析师 安宁宁 anningning@gf.com.cn 广发证券资深金工分析师 陈原文 chenyuanwen@gf.com.cn 联系人:广发证券金工研究员 林涛 gflintao@gf.com.cn 广发金工安宁宁陈原文团队 摘要 神经常微分方程: 在机器学习国际顶会NeurIPS 2018上,Chen等人发表的论文《Neural Ordinary Differential Equations》获得了大会的最佳论文奖。简单来 说,一个常见的ResNet网络通常由多个形如h_{t+1}=f(h_t,_t)+h_t的残差结构所组成。在常规求解中,需计算出每一个残差结构中最能拟合训练数据的网 络参数。而该论文提出,假设当ResNet网络中的残差结构无限堆叠时,则每一个残差结构的参数都可以通过求解同一个常微分方程来获得。 液态神经网络: 基于上述工作,来自麻省理工学院的Ramin Hasani等人,创新性地以常微分方程的形式描述循环神经网络的隐藏状态变化,提出了一类被 称之为液态神经网络的模型,这些研究成果被发表在《Nature:Machine Intelligence》等国际顶级期刊上。此类模 ...
AI芯片的双刃剑
半导体行业观察· 2025-02-28 11:08
软件编程与人工智能建模的范式转变 - 传统软件编程依赖明确的指令代码,适合确定性场景但缺乏动态适应能力[2] - AI软件建模通过数据训练学习模式,使用概率推理处理不确定性,模型复杂度体现在参数规模而非代码量[3] - 高级AI模型如LLM包含数千亿至数万亿参数,依赖多维矩阵数学运算,每个时钟周期并行处理所有参数[3] 处理硬件的影响 - CPU采用串行执行架构,多核多线程提升并行性但仍无法满足AI模型的并行需求[4] - 高端CPU计算能力达几GigaFLOPS,内存带宽峰值500GB/s,内存容量达TB级[5] - GPU提供PetaFLOPS级性能,比CPU高两个数量级,但运行GPT-4时效率可能降至理论峰值的5%[6] - GPU高功耗引发可持续性问题,专用AI加速器(如ASIC)在计算效率和能耗上更具优势[7] AI加速器的关键属性与挑战 - 关键指标包括批处理大小和token吞吐量,需平衡延迟与吞吐量需求[8] - 大批量提升吞吐量但增加内存带宽压力,实时应用(如自动驾驶)需批量大小为1以最小化延迟[12] - 连续批处理技术动态添加输入,减少延迟并提升整体效率[13] - Token吞吐量依赖计算效率和数据移动优化,需首次token输出时间最短[14][15] 内存与计算瓶颈 - 内存带宽是主要瓶颈,大批量导致缓存未命中及访问延迟增加[9][19] - 高带宽内存(HBM3)和智能片上缓存可缓解内存瓶颈[21] - LLM依赖并行矩阵运算和注意力机制,计算瓶颈需专用硬件(如矩阵乘法单元)和混合精度计算(FP8)解决[19][22] 优化方向 - 硬件创新包括类似寄存器的缓存结构、专用加速器设计及高效数据流架构[21][22] - 软件优化涵盖定制化内核、梯度检查点减少内存占用、管道并行提升吞吐量[23] - 混合精度计算在保持模型精度前提下降低内存带宽需求和计算开销[22] 行业技术趋势 - Transformer架构需每个token关注全部历史token,增量Transformer按序计算token提升流式推理效率但增加内存需求[16] - 不规则token模式和自回归模型依赖可能导致硬件管道停滞,需优化调度策略[17] - AI加速器仍处早期阶段,需结合内存架构创新与数据流优化以突破性能限制[18][20][24]