Transformer模型
搜索文档
蔡崇信复盘阿里AI:“早”做,不等于领先
36氪· 2026-02-07 10:22
阿里巴巴的AI战略反思与核心框架 - 公司早在2019年已将Transformer模型用于推荐系统,但未能在大语言模型研发上投入足够资源,错过了三年的窗口期[1] - 公司董事会主席在2023年复出后将AI战略聚焦于三个关键词:采用、规模、开源[5] 采用:AI价值的实现关键 - AI战略的核心在于找到能被真实使用的场景,产生价值,而不仅仅是做出模型[7] - 公司的AI战略包含消费者应用、大语言模型和基础设施三个同等重要的层次,均需资本投入[8] - 通义App是验证AI能力在真实场景落地的关键环节,需考察C端使用频率、B端接入稳定性及在具体行业的应用效果[8] - 中国市场企业级软件付费习惯薄弱,用户为API调用付费的接受度低,推广难度远高于美国[9] - 因此,中国模型厂商需通过云基础设施或应用层寻找盈利路径,而非依赖纯API收入模式[11] - 通义千问在“春节30亿免单”活动中,上线9小时AI订单突破1000万单,验证了真实用户流量对基础设施的考验[11] 规模:推理成为成本与能力的焦点 - 行业投资正从模型训练转向推理,推理是AI成本的真正大头[12] - 美国大型科技公司年资本支出已从此前的600到800亿美元,上涨至1200到1500亿美元[12] - 训练只发生在少数公司内部,而用户每日使用的功能(如提问、客服处理、内容生成)均为推理,持续消耗算力资源[13][14] - 模型规模化的关键在于高并发下的稳定性、推理速度及成本控制,即吞吐量,而非单纯追求最强性能[15] - 公司将模型部署在自家云上,以全面控制推理性能、吞吐量和并发处理能力[15] - 随着AI多模态化,对算力的需求将持续增长且无天花板,规模化比拼的是基础设施调度GPU的能力、高负载稳定性及成本控制[16] 开源:基于市场现实的商业策略 - 中国模型公司选择开源,主要源于纯API订阅模式在中国难以规模化的商业现实[17] - 开源的首要价值在于赋予用户“主权”,即企业、政府、开发者可将模型部署在自有服务器或私有云,实现完全的数据控制与自主可控[18][19][20] - 开源后的盈利关键在于掌握模型运行所依赖的基础设施,公司通过开源通义千问模型,引导用户在阿里云上进行训练和推理,以基础设施收费实现商业闭环[22] - 这一路径依赖公司自身的云业务,对于没有云基础设施的公司而言难以复制[23]
哈佛辍学生拿下5亿美元融资:不造GPU,也要“绕开”英伟达
是说芯语· 2026-01-16 07:37
公司概况与融资 - 由哈佛大学辍学生Gavin Uberti和Chris Zhu于2022年创立,总部位于美国加州圣何塞 [12] - 近期完成近5亿美元新一轮融资,由Stripes领投,Peter Thiel等参与,公司估值达50亿美元,总融资额接近10亿美元 [1] - 核心团队包括联合创始人兼CEO Gavin Uberti(前哈佛数学研究员与AI编译器专家)、联合创始人Chris Zhu(前哈佛数学与高性能计算研究员)、联合创始人兼总裁Robert Wachen(前创业孵化器联合创始人)以及CFO Mark Ross(前Cypress公司CTO)[12][14] 产品与技术策略 - 公司专注于开发为Transformer架构AI模型设计的专用定制芯片(ASIC),名为Sohu [3] - Sohu芯片采用台积电4nm工艺制造,并集成HBM内存和服务器硬件 [10] - 技术策略高度专业化,仅专注于运行Transformer模型,不做通用GPU,通过“做减法”避免运行其他AI模型(如CNN、LSTM)的硬件和软件开销,旨在实现极致效率 [10] - 产品定位为生产级推理芯片,目标是在密集模型、稀疏模态、扩散等场景下,将每美元及每瓦的计算效率提升1个数量级 [7] 性能与效率主张 - 在特定测试配置下,运行Llama 70B模型时,Sohu芯片可实现每秒处理超过50万个token的吞吐量 [3] - 公司宣称,在运行文本、图像和视频Transformer时,Sohu的速度比英伟达Blackwell GB200 GPU快1个数量级,且价格更低 [4] - 一台由8颗Sohu芯片组成的服务器,据称可以替代160块英伟达H100 GPU [5] - 公司早期研究显示,在运行生成式AI模型时,其方案每美元性能可达传统图形处理器的140倍 [14] 市场背景与机遇 - 行业背景是AI大模型训练成本超过10亿美元,推理应用规模可能超过100亿美元,在此规模下,1%的性能提升就足以支撑价值5000万至1亿美元的定制芯片项目 [5] - 市场判断认为,过去几年计算密度(TFLOPS/mm²)仅提升了约15%,且随着大模型训练放缓、推理需求暴涨,算力需求正从单纯比拼FLOPS转向综合比拼成本、延迟和能耗 [3] - 据预测,到2026年底,英伟达数据中心累计销售额将超过5000亿美元,显示了巨大的潜在市场空间 [3] 应用案例与长远愿景 - 公司与Decart合作推出AI生成游戏Oasis,该游戏画面由生成模型实时合成,据称模型在Sohu上的运行速度提升了10倍以上 [11] - 公司长远愿景不仅限于文本生成模型,还包括为图像、视频生成以及蛋白质折叠模拟等不同类型的AI模型制造其他芯片 [16] 行业竞争格局 - 多家公司正探索AI推理专用芯片,作为GPU的替代方案,例如Meta的MTIA、亚马逊的Graviton和Inferentia [10] - 其他初创公司如Perceive(推出Ergo 2处理器)、Groq(推出LPU)以及Tenstorrent(基于RISC-V架构开发AI处理器)也展示了类似的专用化思路 [17]
GPT在模仿人类?Nature发现:大脑才是最早的Transformer
36氪· 2025-12-11 18:48
研究核心发现 - 一项发表在《自然·通讯》上的颠覆性研究表明,大语言模型(如GPT-2、Llama-2)的内部层级处理结构与人类大脑处理语言时的神经活动在时间上存在完美对应关系,暗示大脑处理语言的核心机制是预测而非基于规则的解析 [1][3][27] 实验设计与方法 - 研究团队让9名植入高密度皮层脑电图(ECoG)电极的受试者聆听30分钟的故事,以毫秒级精度记录其大脑关键语言区域的高伽马脑电信号 [4][6] - 同时,将相同故事文本输入GPT-2 XL和Llama-2模型,提取模型从第一层到最后一层(共48层)在处理每个词时的内部语义表示 [7] - 通过降维和线性模型,用每一层的语义表示来预测大脑在对应毫秒的脑电活动峰值,以此检验模型层级与大脑处理阶段的时间对应关系 [8][10] 关键实验结果 - 大脑语言通路中,从初级听觉皮层(mSTG)到高级语义区(如TP、aSTG、IFG),GPT模型的层级结构呈现出清晰的“时间-深度”对应:浅层处理(暖色)的预测峰值出现更早,深层处理(冷色)的峰值出现更晚 [14][16] - 在高级语义区,这种对应关系尤为强烈,如前颞上回(aSTG)相关性r=0.93,额下回(IFG)r=0.85(p < .001),而初级听觉皮层(mSTG)则几乎没有层级结构(r≈0) [16][19] - 相比之下,基于音位、词素、句法、语义的传统符号语言学模型虽然能部分预测脑电活动,但无法呈现出这种清晰、连续、按时间顺序推进的层级结构 [22][23] 对语言理解机制的启示 - 研究表明,大脑理解语言并非逐步解析语法规则,而是进行一层又一层的连续语义推断和概率预测,这一过程与大语言模型(Transformer架构)的多层、非线性、依赖上下文的处理方式高度相似 [19][24][28] - 语言的定义可能从静态的规则体系转向动态的预测机制,理解语句是在每一毫秒中计算“下一刻可能发生什么” [28][30] - 这项发现意味着,大语言模型(如GPT)的成功可能并非源于对人类规则的学习,而是其底层计算路径意外地与人类大脑高效处理信息的进化路径趋同 [27][30][32]
NeurIPS 2025 | DePass:通过单次前向传播分解实现统一的特征归因
机器之心· 2025-12-01 12:08
研究背景与问题 - 大型语言模型在各类任务中展现出卓越能力,但将其输出精确追溯到内部计算过程是AI可解释性研究的重要方向[2] - 现有归因方法存在计算代价高昂、难以揭示中间层信息流动的问题,且不同层面的归因缺乏统一高效的分析框架[2] 解决方案:DePass框架 - 研究团队提出了全新的统一特征归因框架DePass,该方法通过将前向传播中的每个隐藏状态分解为多个可加子状态,并在固定注意力权重与MLP激活的情况下逐层传播,实现了对Transformer内部信息流的无损分解与精确归因[3] - 对于Attention模块,DePass冻结注意力分数后,将各组件的隐藏状态经过线性变换,再根据注意力权重加权累加至对应组件,实现对信息流的精确分配[8] - 对于MLP模块,将其视作以神经元为单位的键值存储库,通过不同组件对key激活值的贡献程度,将对应的value有效地划分至同一token的不同组件中[9] 实验验证:Token级归因 - 在输出到输入token的归因任务上,移除DePass判定最关键的tokens会导致模型输出概率急剧下降,而保留的极少量tokens依然能高度恢复模型判断,表明其能精准识别驱动预测的核心证据[11] - 在事实性任务中,利用DePass将“虚假信息子空间”拆解并分配到每个输入token后,基于这些token进行定向遮罩,模型在CounterFact上的事实性准确率从约10%大幅提升至40%以上,显著优于现有probe-based masking方法[13] - 具体数据:在Llama-2-7b-chat-hf模型上,使用DePass Masking后,CounterFact (Gen)准确率从10.16%提升至43.13%,TruthfulQA (MC)准确率从33.05%提升至46.51%[14] 实验验证:模型组件级归因 - DePass能直接量化每个注意力头与MLP神经元对预测的真实贡献,在遮罩实验中显著优于梯度、激活等传统重要性指标[14] - 当遮罩DePass判定的“重要组件”时,模型准确率下降更快;当仅保留“最不重要组件”时,模型性能保持得更好,说明DePass识别的组件重要性具备更高的敏感性、完备性、因果性[15] 实验验证:子空间级归因 - DePass可用于研究隐状态中不同子空间之间的相互作用及其对最终输出的影响,例如语言子空间[16] - 对token在语言子空间上的投影进行t-SNE可视化显示形成清晰的语言聚类,而语义子空间的独立解码结果跨语言一致[24] - 具体示例:在语言子空间中,英文token包括“a, the, an, not, N”,法文token包括“né, consid, de, conn, ét”;在语义子空间中,不同语言提示下解码出的前五个token都包含“Dutch”等相关词汇[21] 框架总结与展望 - DePass作为一种基于分解前向传播的Transformer解释框架,兼具简洁性与高效性,可无缝适配各种Transformer架构[23] - 实验结果表明,DePass在多层次粒度的归因分析中具有更高的忠实性,有望成为机制可解释性研究中的通用工具[23]
为Transformer注入长期记忆:Memo框架通过“学会做摘要”解决具身智能核心挑战
机器人大讲堂· 2025-10-29 18:03
Memo框架核心思想与设计 - 核心思想是模仿人类“笔记”行为,让模型自主生成并存储对过去经验的“摘要”,这些学习得到的摘要标记承载了任务关键信息,使得后续决策无需回溯全部经历,仅通过检索摘要即可唤醒长期记忆 [3] - 工作流程包括分段处理长输入序列、在每个片段末尾生成固定数量的优化摘要标记、将摘要存入动态更新的记忆缓冲区形成经验库 [4][5] - 采用特殊注意力掩蔽机制确保模型只能通过摘要标记访问过去信息,形成有意识的信息瓶颈;使用灵活的位置编码方案理解时间序列位置;引入片段长度随机化技术增强对不同节奏任务的适应性 [6] 实验验证与性能表现 - 在展物体导航任务中,Memo性能优于需要完整上下文访问的Transformer基线模型,且使用的上下文标记数量减少了8倍 [9] - 在Dark-Key-To-Door任务中,Memo能够稳定记住钥匙和门的位置并持续完成任务,而全上下文Transformer模型在3500万到4000万步左右出现明显性能下降 [11] - Memo在超过训练时见过的序列长度后仍保持强大推理能力,传统Transformer模型则表现出明显性能下降 [9] 关键发现与技术洞察 - 记忆累积机制显著优于仅保留最新记忆的循环模型,记忆累积为梯度回传提供了类似“残差连接”的路径,使模型能更有效地优化早期记忆表示 [14] - 长程梯度传播不可或缺,限制梯度仅在短期记忆间传播时模型性能大幅下降,表明模型必须能够调整所有记忆表示无论其生成时间 [17] - 摘要长度需适中,生成过多摘要标记反而损害性能,研究中适中的摘要长度(32个标记)在信息压缩与保留之间取得最佳平衡 [17] 应用前景与未来方向 - 记忆机制具有广泛应用前景,包括长期自主导航机器人、需要理解长期用户偏好的个性化系统、需要跟踪多目标和约束的战略决策系统 [18] - Memo展示了一种可能的范式转变,从让模型处理所有信息转向让模型学会自主管理其注意力与记忆 [18] - 未来研究方向包括让记忆机制更加自适应和可解释、在不同任务间迁移和共享记忆、平衡记忆的稳定性和灵活性 [18]
Nature子刊:上海科学智能研究院漆远/曹风雷/徐丽成团队开发新型AI模型,用于化学反应性能预测和合成规划
生物世界· 2025-08-24 16:30
人工智能在有机合成领域的应用 - 人工智能通过机器学习和深度学习方法改变了精准有机合成领域 在预测反应性能和合成规划方面展现出巨大潜力 [2] 研究背景与挑战 - 数值回归驱动的反应性能预测与序列生成驱动的合成规划之间存在内在方法论分歧 这对构建统一的深度学习架构构成重大挑战 [3] - 研究团队在Nature Machine Intelligence上发表论文 提出解决这一挑战的新框架 [3] RXNGraphormer框架创新 - 研究团队开发了RXNGraphormer框架 这是一个用于跨任务反应性能预测和合成规划的统一预训练深度学习框架 [3] - 该框架整合了图神经网络(GNN)与Transformer模型 为化学反应预测与合成设计提供通用工具 [3] - 通过统一预训练方法协同处理反应性能预测与合成规划任务 [5] - 采用面向分子内模式识别的GNN与面向分子间相互作用建模的Transformer模型相融合 [5] - 使用精心设计的策略对1300万个化学反应进行训练 [5] 框架性能表现 - 在八个基准数据集上实现了最先进性能(SOTA) 涵盖反应活性/选择性预测和正/逆向合成规划领域 [5] - 在三个外源现实数据集上的反应活性/选择性预测也达到最先进性能 [5] - 模型生成的化学特征嵌入能够无监督地按反应类型自发聚类 [5] 研究意义 - 该研究弥合了化学人工智能领域性能预测与合成规划任务间的关键鸿沟 [7] - 为精准反应预测与合成设计提供了一个统一的多功能工具 [7]
中金:一种结合自注意力机制的GRU模型
中金点睛· 2025-07-15 07:39
时间序列模型的核心架构演进 - 时间序列模型(如LSTM、GRU、Transformer)通过门控机制或自注意力结构解决长期依赖问题,其中GRU通过精简的更新门与重置门提升运算效率,更适合实时预测场景 [1][2] - Transformer通过自注意力机制和位置编码实现序列建模革新,在多维时序数据分析中展现并行化优势,但参数量大易导致过拟合 [2][5] - 公司提出AttentionGRU(Res)模型,结合轻量化自注意力、残差结构和GRU,兼顾序列学习能力与样本外稳定性,全市场年化超额收益超30% [6][40] 时序因子与截面因子的模型表现对比 - 测试159个截面因子和158个时序因子(Alpha158)显示:截面因子单因子表现更优(多头超额11% vs 时序因子1%),但时序因子在RNN/LSTM/GRU模型中样本外表现更佳(ICIR均值1.02,为截面因子模型两倍) [4][21] - 时序因子模型样本外多头超额收益达7.6%,显著高于截面因子模型的1.3%,且时序因子ICIR分布更集中 [4][21] - 时序模型的结构特性(如循环连接、门控机制)与时序因子的动态关联性高度匹配,增强了对历史序列特征的保留能力 [8][9] 时序模型优化方向与效果 - 对GRU的门结构优化(如BiGRU、GLU)提升有限:BiGRU样本外ICIR仅提升0.01,多头超额收益增加2个百分点 [27][28] - Transformer样本内效果显著但样本外过拟合,因其参数量过大;AttentionGRU(Res)通过简化自注意力结构和残差连接,样本外年化超额收益达12.6%,中证1000泛化测试超额10.8% [33][34][46] - 残差结构(Res)改善梯度传递问题,自注意力机制动态聚焦核心时序节点,两者结合使模型参数减少50%仍保持长期依赖捕捉能力 [35][36][38] 关键模型性能数据 - AttentionGRU(Res)在全市场测试中IC均值7.38%、ICIR 1.09,多头超额收益12.64%,最大回撤8.41%,胜率80.21% [41] - 传统GRU模型对比:IC均值6.51%、多头超额7.18%,最大回撤5.36%,显示优化结构显著提升收益稳定性 [34][41] - 中证1000泛化测试中,AttentionGRU(Res)多头超额10.8%,优于Transformer(9.0%)和基础GRU(3.47%) [46][47]
一种新型的超大规模光电混合存算方案
半导体行业观察· 2025-06-29 09:51
核心观点 - 新加坡国立大学团队提出新型2T1M光电混合存算阵列架构 通过光学位元线规避传统电位元线的IR损耗与电容负载问题 实现3750kb阵列规模 在Transformer模型上达到93.3%推理精度 超越传统CIM设计的48.3% 能效提升超3倍达167 TOPS/W [1][7][9] 架构设计与工作原理 - 2T1M架构结合电子与光子技术优势 每个存储单元由两个晶体管和一个调制器组成 采用FeFET执行乘法运算 亚阈值区域展现亚pA级截止电流 保持特性达10年 循环次数超10^7次 [2] - 相比传统RRAM FeFET具有更低截止电流 显著降低静态功耗 在±3V、100μs条件下保持稳定性能 [2] 光电转换与无损求和 - 采用铌酸锂调制器实现电光转换 利用Pockels效应改变折射率 通过MZI单臂集成实现相位偏移累加 完成向量矩阵乘法的无损求和 [4][6] - 铌酸锂波导传播损耗仅0.28dB/cm 光信号传输近乎无损 相位求和方式避免IR压降导致的误差积累 [6] Transformer应用性能 - 在ALBERT模型30000×128词嵌入层中 2T1M架构推理精度达93.3% 与GPU持平 传统CIM架构仅48.3% [9] - 阵列规模达3750kb 为传统CIM架构150倍 功耗效率164TOPS/W 比传统方案提升37倍 [9] - 通过消除矩阵分解和重复外围电路需求 能效提升至167 TOPS/W [1][9] 技术参数对比 - 2T1M架构采用FeFET亚阈值技术 关断电流低至10^-12A 阵列规模30000×128 电压降为0 传统方案需100-300子阵列才能达到同等精度 [12] - 峰值能效164TOPS/W 显著高于对比方案的9.81-13700TOPS/W [12]
信息过载时代,如何真正「懂」LLM?从MIT分享的50个面试题开始
机器之心· 2025-06-18 14:09
大语言模型(LLM)技术发展 - LLM在不到十年内将人工智能能力普及给全球数亿用户,实现自然语言创作、编程和推理[2] - LLM技术版图快速扩张,包括模型竞赛和自主执行任务的智能体发展[2] - MIT CSAIL发布的50个关键问题指南帮助深入理解LLM核心概念与技术[3][5] 核心架构与基本概念 - Token化将文本分解为更小单元,对处理多语言和稀有词汇至关重要[7][9] - 注意力机制通过查询、键和值向量分配不同重要性级别,增强上下文理解[10][12] - 上下文窗口定义模型短期记忆能力,平衡窗口大小与计算效率是关键[13] - 序列到序列模型由编码器和解码器组成,应用于机器翻译等场景[15] - 嵌入向量捕获token语义特征,通常随机初始化或使用预训练模型[17] 模型训练与微调技术 - LoRA通过低秩矩阵实现高效微调,QLoRA进一步量化至4位精度减少内存使用[34] - 模型蒸馏训练小模型复制大模型输出,实现设备端部署[38] - PEFT通过冻结大部分参数缓解灾难性遗忘,保持预训练知识[43] - 超参数如学习率直接影响模型收敛性和性能表现[45] 文本生成与推理优化 - 束搜索保留多个候选序列,相比贪婪解码产生更连贯输出[51] - 温度参数控制输出随机性,0.8通常实现创造力与连贯性平衡[53] - 提示工程通过精心设计输入显著提升零样本/少样本任务性能[56] - RAG结合检索外部知识提高生成内容的事实准确性[57][58] - 思维链提示将复杂问题分解为逻辑步骤,增强推理能力[61] 训练范式与模型类型 - 掩码语言建模通过预测隐藏token实现双向语言理解[68] - 自回归模型(GPT)与掩码模型(BERT)分别在生成和理解任务中表现突出[70] - 零样本学习利用预训练知识执行未经专门训练的任务[77] - 少样本学习仅需少量示例即可适应新任务,降低数据需求[79] 高级模型与系统演进 - GPT-4相比GPT-3在多模态处理和复杂对话方面显著进步[100] - Gemini通过统一架构处理多模态输入,上下文窗口达25000 token[101][102] - 专家混合(MoE)激活特定子网络,实现万亿参数模型高效运行[106] - 知识图谱集成提供结构化事实信息,减少模型幻觉[107][108] 应用挑战与行业影响 - LLM部署面临计算资源密集、偏见延续和隐私保护等挑战[116] - 传统统计语言模型相比LLM在长距离依赖处理能力上存在局限[115] - 修复偏见输出需分析数据模式、改进数据集和针对性微调[113][114]
哈佛新论文揭示 Transformer 模型与人脑“同步纠结”全过程,AI也会犹豫、反悔?
36氪· 2025-05-12 08:22
Transformer模型与人类认知处理相关性研究 核心观点 - Transformer模型的内部处理动态与人类大脑实时认知过程存在显著相似性,不仅体现在最终输出结果,更体现在中间层的"思考路径"上 [1][4][24] - 研究通过量化模型各层处理指标(不确定性、信心值、修正行为等),首次系统性验证了AI与人类在认知纠偏机制上的同步性 [7][10][17] 实验设计方法论 - 采用多模态任务测试:包括首都回忆题(自由回答)、动物分类(鼠标轨迹追踪)、三段论逻辑推理、分布外图像识别等 [9] - 关键指标: - 处理负载(Processing Load):通过模型各层输出的熵值变化量化认知难度 [10] - 信心轨迹(Confidence Trajectory):记录模型对正确/错误选项的概率波动 [10][13] - 修正行为(Boosting):测量模型在后层对初始错误倾向的主动纠正幅度 [10][19] 关键发现 认知偏差同步性 - 首都回忆任务中,Llama-2 7B模型在中间层将最高概率分配给错误答案(如芝加哥而非斯普林菲尔德),与人类常见错误完全一致 [13][15] - 澳大利亚首都测试中,模型与人类均出现悉尼→堪培拉的修正过程,错误率偏差不超过15% [13] 决策路径重合度 - 动物分类任务中,模型前几层对"鲸鱼是鱼"的错误判断与人类鼠标移动轨迹呈现相同犹豫模式,修正时间差<300ms [18][19] - 视觉Transformer处理模糊图像时,初期层级信心分散度达人类反应时间的1.2倍,后期聚焦速度与人类认知提速曲线吻合 [23] 逻辑陷阱敏感性 - 三段论推理中,当题目包含常识干扰(如"有翅膀→能飞"),模型与人类在中间层错误率同步上升47%,需额外3-5层处理才能纠正 [21] 行业应用启示 - 过程可解释性:模型内部动态可映射人类认知瓶颈,为教育/心理实验设计提供量化工具 [24] - 架构优化方向:中间层处理指标可成为评估模型认知效率的新标准,替代单一准确率指标 [7][24] - 多模态协同:鼠标轨迹等行为数据与模型信心变化的关联性达0.82,预示新型人机交互监测方式 [18][23]