Workflow
Transformer
icon
搜索文档
AI赋能资产配置(二十一):从Transformer到Agent,量化投资实战有何变化?
国信证券· 2025-11-04 21:36
核心观点 - Transformer与Agent的深度耦合构建了“建模精准化 + 决策自动化”的一体化量化投资体系,推动AI从“单一环节赋能”升级为“全流程提效”[1] - 代表性Transformer模型GrifFinNet通过多关系图建模与自适应门控融合,在股票收益预测准确性上显著优于LSTM、XGBoost等传统工具[1][2] - 分层多智能体框架模拟“宏观-行业-企业-组合-风控”的专业投资流程,通过角色模块化与流程自动化解决纯模型“信号落地难”问题[1][3] - 未来AI赋能量化投资将向精准化、自动化、稳健化进阶,Transformer与Agent的协同优化是核心方向[1][4] Transformer:量化投资的高效建模工具 - Transformer架构凭借自注意力机制与长序列建模能力,突破了传统模型(如CAPM、GARCH、LSTM)在处理非线性关系、时序动态及多源数据融合上的局限[2][12] - 传统统计模型(如CAPM、三因子/五因子模型)基于线性假设和有效市场假说,难以捕捉金融系统中的非线性关系和动态行为[12] - 机器学习算法(如SVM、随机森林、XGBoost)能处理高维特征和非线性关系,但在建模时序依赖性方面存在不足[13] - RNN、LSTM、GNN等深度学习模型推动了时序依赖性建模,但普遍存在“时空分离建模”问题,未能实现结构依赖与时序动态的深度融合[13] - GrifFinNet模型创新性地将多关系图建模与Transformer时序编码相结合,通过构建行业归属与机构共持两类关系图、设计自适应门控融合模块、采用紧密时空集成架构,提升了对市场内部复杂依赖性的建模能力[14] Agent:量化投资的全流程智能决策体 - Agent系统构建了“宏观筛选—企业分析—组合优化—风险控制”的分层架构,以解决传统量化投资中单一技术孤立应用、数据融合难、决策层级模糊等问题[3][15][16] - 顶层宏观智能体扮演首席经济学家角色,分析宏观经济和行业信号,筛选高潜力行业[3][17] - 分析层包含四个专业化股票评分智能体:基本面智能体评估企业财务健康度、技术面智能体捕捉价格时序规律、新闻智能体提取市场情绪、研报智能体整合机构观点,解决了不同频率数据的多模态融合问题[3][17] - 配置层的组合智能体通过强化学习(如PPO算法)动态分配各分析层智能体的权重,聚合异质观点以生成综合评分并构建投资组合[3][17][26] - 防护层的风险控制智能体实时监控组合波动率,根据市场波动率动态调整整体投资组合风险敞口,有效降低最大回撤[3][17][27] - 该分层架构模拟了专业投资机构的决策流程,支持人机协作,提升了策略的可解释性、抗波动能力与合规适配性[3][17] Transformer与Agent的深度耦合应用 - 耦合体系通过“功能封装 + 流程补全”实现协同:将Transformer嵌入Agent分析层以强化特征提取(如新闻智能体用LLM提取情绪、技术面智能体捕捉价格时序规律)[4][28] - 借助Agent的流程自动化(如组合优化、仓位控制)解决Transformer信号落地的难题,打通从“建模→落地”的最后一公里[4][28][29] - 以Agent的自主交互能力(如实时数据采集、动态权重调整)弥补Transformer静态建模的缺陷,使策略能实时适配市场变化,提升稳健性与泛化能力[4][29] - 在“沪深300成分股组合构建与动态调仓”的实操中,耦合体系实现了从数据预处理到实盘交易的无缝衔接,构建了“预测精准、决策高效、风控稳健”的智能量化体系[29][32] 未来展望 - 技术层面,Transformer将进一步优化多关系建模与长序列处理能力,结合更丰富的市场关联数据(如高频交易数据、跨市场联动信息)以提升信号捕捉的颗粒度与时效性[33][35] - Agent系统将强化多智能体交互协同与动态适配能力,深化人机协作模式(如人类专家与AI智能体的协同决策),同时在合规审计与风险控制模块形成更成熟的解决方案[33][35] - 二者的深度耦合将持续构建更适配复杂金融市场环境的智能量化生态,展现出广阔的应用前景[33][35]
马斯克:5-6 年后手机大变样!科创人工智能ETF华夏(589010) 午后弱势整理,市场情绪趋于谨慎
每日经济新闻· 2025-11-04 14:43
消息方面,在一期播客节目上,特斯拉CEO马斯克(Elon Musk)预测了一个激进的未来:未来5-6年,传 统手机与App将消失,人类所消费的大多数内容都将由AI生成。马斯克认为,"未来不会有操作系统, 不会有APP,你的手机只是显示像素和发出声音,它预测你最想看到和听到什么,然后实时生成,我们 会尽可能地将AI集成到这个设备中。""不会再有传统意义上的手机了,我们所谓的手机,实际上是一个 用于AI推理的边缘节点,配备一些无线电模块进行连接。"马斯克抛出观点认为,本质上服务器端的AI 会与用户设备(以前被称为手机)上的AI进行通信,并生成用户想要的任何实时视频。 银河证券表示,从技术-经济视角看,Transformer一统AIGC带来了三大结构性红利:其一,研发侧的规 模效应终于成立——统一架构意味着底层CUDAkernel、通信库、编译器优化可在文本、图像、音频任 务上复用,单次工程投入被多模态摊薄,平均训练成本大幅下降;其二,部署侧的边际成本递减——同 一套推理引擎可承接任意模态请求,GPU利用率得以提升,单位算力产出大幅抬升;其三,数据侧出 现"飞轮效应"——多模态模型在真实场景中不断回传高质量图文对齐 ...
Meta裁员、OpenAI重组:万字复盘谷歌起笔的AI史诗,如何被「群雄」改写剧本?
机器之心· 2025-11-02 09:37
AI行业格局转变 - AI行业正从“无限淘金热”转向残酷的“阵地战”,资本开始重新评估价值,巨头们审视成本与效率 [1] - Meta FAIR部门遭裁员、OpenAI进行资本重组、AWS大裁员等一系列动荡表明行业进入新阶段 [1] 谷歌的AI基因与早期探索 - 人工智能是谷歌从诞生之初的核心理念,受创始人Larry Page父亲(早期机器学习教授)的影响 [5][9] - 2000年Larry Page断言人工智能将是谷歌的终极版本,终极搜索引擎就是人工智能 [9] - 谷歌起家的PageRank算法运用统计方法排序网页,带有早期AI思想印记 [10] - 2000年末工程师提出“压缩即理解”理论,探索语言模型和机器理解,这是现代LLM思想的早期体现 [12] - 研究成果直接应用于谷歌搜索的拼写纠错功能,并开发了消耗数据中心整体资源15%的语言模型PHIL [14][16] - PHIL在2003年被用于快速实现AdSense系统,为谷歌带来数十亿美元新收入 [15] 深度学习革命与谷歌的拥抱 - 2007年Geoff Hinton将深度学习火种带入谷歌,当时神经网络正被学术界边缘化 [20] - 谷歌的统计方法本身是对僵化专家系统的反叛,为结合深度学习奠定基础 [21] - 2011年吴恩达、Jeff Dean等发起Google Brain项目,目标构建大规模深度学习模型 [27] - Jeff Dean主导开发DistBelief分布式计算系统,采用有争议的异步更新参数方式但被证明高效 [28][29] - Google Brain的“猫论文”实验使用16000个CPU核心训练,神经网络自主学会识别猫脸 [30] - “猫论文”证明无监督学习能力,催生YouTube算法推荐时代,驱动数百亿乃至数千亿美元产业价值 [32][33][34] 关键突破与硬件变革 - 2012年AlexNet在ImageNet竞赛中将错误率从25%以上降至15.3%,提升超过40% [35][37] - AlexNet创造性使用NVIDIA GPU进行并行训练,确立GPU作为AI计算核心硬件的地位 [39] - 谷歌因应算力瓶颈,自研专门用于神经网络计算的TPU芯片,15个月内完成设计到部署 [62][63] - TPU针对矩阵运算优化并采用低精度计算,为谷歌提供成本优势和战略自主权 [63] 人才争夺与实验室建立 - 谷歌以约4400万美元收购AlexNet核心团队DNN Research,被认为是史上最划算交易之一 [41][42] - 2013年扎克伯格力邀Yann LeCun建立FAIR实验室,采用开放研究模式 [43][45][47] - FAIR为Meta提供核心技术、开源工具PyTorch以及Llama系列开源模型 [48] - 2014年谷歌以约5.5亿至6.5亿美元收购DeepMind,但其后与Google Brain存在内耗 [56][57] - DeepMind在AlphaGo项目中击败李世石,并将谷歌数据中心冷却能耗降低40% [58] OpenAI的崛起与转型 - 2015年因马斯克对谷歌垄断的担忧,联合Sam Altman创立OpenAI,获10亿美元初始承诺 [64][65][68] - Ilya Sutskever被使命吸引离开谷歌加入OpenAI,尽管Jeff Dean提供双倍薪酬反聘 [66] - 2018年OpenAI因资金压力重组,设立利润上限子公司并获得微软10亿美元投资 [86][87] - OpenAI转型开发GPT系列模型,GPT-3展现出惊人能力,GitHub Copilot成为首个大规模落地产品 [90][91] - 2021年Dario Amodei因安全与商业化分歧带领核心成员出走,创立Anthropic [92][95] Transformer架构与新时代 - 2017年谷歌发表《Attention Is All You Need》论文,提出Transformer架构 [74][76] - Transformer解决RNN/LSTM序列处理难题,具备高度并行化优势 [76] - 架构展现出“更多数据+更大模型+更多算力≈更好智能”的可扩展性 [80][81] - 谷歌允许论文公开发表,将“钥匙”交给全世界,包括潜在竞争对手 [84] - 论文八位作者后来相继离开谷歌 [84] ChatGPT冲击与谷歌反击 - 2022年11月ChatGPT发布,一周用户破百万,两个月破亿,成为史上增长最快消费应用 [97] - ChatGPT成功震醒谷歌,Sundar Pichai拉响“Code Red”红色警报 [99] - 微软迅速追加100亿美元投资OpenAI,并发布新版Bing搜索引擎直指谷歌核心业务 [99] - 谷歌仓促推出Bard但出现事实错误,促使公司进行大刀阔斧改革 [102][103] - 2023年谷歌合并Google Brain和DeepMind,组建统一Google DeepMind部门由Demis Hassabis领导 [105][106] - 谷歌All in Gemini项目,集中精英力量开发统一多模态旗舰模型系列 [105][106] - Gemini系列快速迭代,Gemini 2.5 Pro成为顶尖模型,并整合进搜索等产品 [107] - Google DeepMind在AI for science领域突破,AlphaFold 2解决蛋白质折叠问题,团队获2024年诺贝尔化学奖 [107][108] 当前竞争格局 - 谷歌一度受大公司体制束缚将王牌拱手让人,OpenAI成为最具实力玩家之一 [109] - Meta曾稳坐开源王座,如今在军备竞赛与成本效益平衡中艰难变革 [109] - 中国AI力量异军突起,DeepSeek、Qwen、Kimi等奋力追赶 [109] - 行业没有永远王者,巨头霸权可能被自身问题拖垮,后起之秀威胁迫近 [110]
全球首个「百万引用」学者诞生!Bengio封神,辛顿、何恺明紧跟
自动驾驶之心· 2025-10-26 00:03
AI领域学术影响力里程碑 - Yoshua Bengio成为全球首位论文引用量突破100万次的学者,标志着AI学术影响力达到新高峰[2][3] - Geoffrey Hinton以97万次引用紧随其后,有望成为全球第二位突破百万引用的学者[5] - 深度学习三巨头(Bengio、Hinton、Yann LeCun)共同获得2018年图灵奖,其中LeCun引用量超过43万次[6][7][13] 顶尖AI研究者学术成就 - Yoshua Bengio在全球计算机科学领域排名第一,总引用量987,920次,近五年引用量711,796次,占比72%[8] - Geoffrey Hinton全球排名第二,总引用量963,982次,近五年引用量588,843次,占比61.1%[8] - 何恺明论文总被引超过75万次,其2016年发表的深度残差网络(ResNets)论文被引298,327次,是二十一世纪被引用次数最多的论文[48][51] - Ilya Sutskever论文总被引超过70万次,作为OpenAI和ChatGPT缔造者,与Hinton存在师徒关系[53][18] AI论文引用爆发式增长原因 - 2012年AlexNet在ImageNet上的突破性表现被视为深度学习"引爆点"[20] - 2017年Transformer架构提出和2018年BERT模型出现,推动预训练/微调范式发展,带来AI论文二次爆发[24] - 2010-2022年全球AI论文总量从约8.8万篇增长至24万篇以上,实现近三倍增长[30] - AI论文占计算机科学论文比例从2013年的21.6%升至2023年的41.8%,几乎占据计算机科学领域一半论文[31][32] AI领域学术会议活跃度 - ICLR 2024接收论文2260篇,投稿量较2023年增加2324篇[36] - NeurIPS 2024总投稿17491篇(主会15671篇),接收4497篇[36] - CVPR 2024投稿11532篇,接收2719篇,录用率23.6%[36] 其他高影响力AI研究者 - GAN之父Ian Goodfellow引用量38万+[61] - 谷歌人工智能负责人Jeff Dean引用量37万+[61] - ImageNet创建者李飞飞引用量32万+[61] - LSTM之父Juergen Schmidhuber引用量29万+,其1997年LSTM论文被引136,740次[61][67] - Coursera创始人吴恩达引用量29万+[61] - Gemini技术负责人Noam Shazeer引用量28万+,其参与的"Attention is All You Need"论文被引209,694次[61][69]
Meta打碎Transformer 8年铁律,改写AI最底层规则,模型首次冒出潜意识
36氪· 2025-10-24 19:47
Meta推出「自由Transformer」(Free Transformer)新模型在AI架构领域引发社交媒体热议。 首次打破自2017年以来所有GPT模型的核心规则:不再是逐token盲猜式生成,而是在生成前能「预先思考」。 AI最底层规则要被改写,当模型先打腹稿再开口,AI还只是一只概率鹦鹉吗? Transformer可以说整个LLM的基石,但这个基石要松动了! 8年了!持续了8年的Transformer底层架构似乎要被Meta打破了。 论文地址:https://arxiv.org/pdf/2510.17558 研究者在解码器中引入了潜在随机变量Z,让模型在输出前进行内部采样与规划,相当于为Transformer增加了一层「潜意识」。 这一创新仅增加约3%的计算开销,却显著提升了模型在推理与结构化生成上的表现,在GSM8K、MMLU、HumanEval等测试中超越更大规模的模型。 Meta称,这可能是第一种「有内在意图」的Transformer。 用潜在随机变量打造机器「潜意识」 Meta在解码器中加入了潜在随机变量(Z)。 可以将其视为生成文本前的「潜意识层」,模型会采样内部选择来引导整个序列的风格或结 ...
八年后,Meta教会了Transformer「显式思考」
机器之心· 2025-10-24 11:40
文章核心观点 - Meta公司提出名为Free Transformer的新架构,打破了自2017年以来GPT模型的核心规则 [4] - 新方法在解码器内部加入随机潜在变量,使模型在生成内容前能进行内部规划,类似于赋予模型“隐藏的心智” [4] - 在15亿和80亿参数模型上,该方法在代码生成、数学文字题和多选任务上取得明显性能提升 [6][27][31] 技术架构创新 - Free Transformer是一种新解码器Transformer扩展,使用无监督潜在变量来提高下游任务性能 [4] - 架构是在标准解码器结构的中间层注入噪声Z,允许与编码器共享一半的Transformer模块,显著减少计算开销 [9] - 编码器使用非因果结构和可学习的常数token嵌入,旨在捕捉序列全局特征,增强跨任务可迁移性 [14] - 通过二进制映射器将编码器输出的向量转化为独热向量表示,维度为2^H(H=16) [15][16] 实验验证与性能表现 - 在合成数据集上验证了模型确实利用潜在变量Z对生成过程进行条件化,不同KL散度值下模型表现出不同编码行为 [18][21] - 15亿参数模型在代码生成任务HumanEval+上最高提升55.56%(从0.055至0.085),数学推理任务GSM8K最高提升30.30%(从0.025至0.033) [26] - 80亿参数模型经过1万亿tokens训练后,在HumanEval+上提升11.36%(从0.268至0.299),MMLU提升5.20%(从0.592至0.623) [30][31] - 性能提升在需要推理能力的任务上尤为显著,包括代码生成、数学问题和多选常识问答 [27][31]
20分钟读懂AI史上最重要的一篇论文——《Attention Is All You Need》
虎嗅· 2025-10-22 21:05
行业技术发展 - Transformer架构于2017年通过论文《Attention Is All You Need》首次提出,彻底改变了人工智能的技术路径 [1] - 该架构推动了全球AI领域的“军备竞赛”,并催生了包括OpenAI在内的行业巨头迅速崛起 [1] 核心技术解析 - Transformer的核心思想源自注意力机制,涉及Q/K/V、多头注意力、位置编码以及Decoder的mask机制等关键概念 [1] - 该技术实现了从逐字生成文本的功能,其原理可通过基础数学概念理解 [1] 行业人才动态 - 提出Transformer架构的8位论文作者均已离开Google并投身创业 [1] - 这些创始人在创业过程中创造了惊人的财富传奇 [1]
速递|OpenAI 日本竞争对手 Sakana 正洽谈以 25 亿美元估值融资
Z Potentials· 2025-10-22 10:38
融资与估值 - 公司正以25亿美元估值洽谈1亿美元融资,若融资成功估值将达26亿美元,较一年前估值上涨66% [2] - 新融资计划用于扩充工程及销售分销团队,目前公司员工约70人 [2] - 公司此前股权融资累计达2.3亿美元,并获得日本政府专项补贴用于支付AI训练算力成本 [3] 技术与研发 - 公司AI研发技术与OpenAI、Anthropic及谷歌的技术路线存在差异,试图通过开发受自然界概念(如进化)启发的AI来挑战Transformer架构 [2][5] - 公司发布名为“进化 ShinkaEvolve”的开源软件,将LLMs与算法结合以提出多种问题解决方案并筛选最优选项,声称比传统Transformer更高效且在创造性解决方案方面表现更优 [7] 合作伙伴与市场定位 - 公司属于区域性AI开发者阵营,专注于开发能更精准把握当地语言文化特色的人工智能,战略与母国减少对中美AI技术依赖的诉求相契合 [2] - 公司已与日本数家大型金融机构达成AI开发合作协议,包括三菱UFJ金融集团和日本最大券商之一的大和证券集团 [2][7] - 公司投资方云集日本三大商业银行、科技巨头富士通和NEC、综合商社伊藤忠商事、电信运营商KDDI等日系巨头,以及美国风投机构NEA、科斯拉创投、Lux Capital和英伟达 [3] 竞争环境 - 公司面临来自美国AI开发商的竞争,这些企业正将日本作为全球扩张战略的一部分,例如OpenAI宣布与软银成立合资企业在日本独家销售其工具套件,并承诺每年投入30亿美元采购OpenAI技术 [3][4] - Anthropic在任命日本区负责人后正准备开设东京办事处,加拿大公司Cohere同样于8月聘请了日本区总经理 [4] 公司背景与目标 - 公司由前谷歌研究人员David Ha和Llion Jones于2023年创立,Llion Jones是原始Transformer模型架构研究论文的合著者 [4] - 首席执行官David Ha曾公开表示公司将在一年内实现盈利运营,并打算打造一个“日本的DeepMind” [2][4][7]
Karpathy泼冷水:AGI要等10年,根本没有「智能体元年」
36氪· 2025-10-21 10:15
AGI发展时间线 - 行业普遍鼓吹的“智能体元年”存在过度预测,更准确的描述应为“智能体的十年”[3][4] - 当前智能体仍处于非常初期的阶段,需要大约十年的持续研究工作才能让其真正可用[4][5] - 基于在AI行业约15年的经验和个人直觉,预测AGI的到来还需要10年时间[5][6][7] AI技术架构演进 - 预测未来10年AI的核心架构仍可能基于Transformer,但形态会有所演化[8] - 根据“时间平移不变性”,10年后仍将使用前向后向传播和梯度下降来训练巨大的神经网络,但所有组件都会变得更大[9][10] - 算法改进仅能将误差减半,进一步提升必须依靠更大的数据、更强的计算力和更优的软件系统,算法、数据、硬件与系统的进步缺一不可[12] 智能体现状与挑战 - 当前智能体存在智能不足、多模态能力弱、无法自主操作电脑等主要问题[4] - 智能体在认知上存在缺陷,缺乏持续学习能力,这些基础性问题的解决约需十年[5] - 在编码任务中,“手写+自动补全”是目前最佳选择,智能体擅长样板代码但处理“智力密集型代码”能力不足[13][15][16][17][18][20] 强化学习与模型训练 - 强化学习虽不完美,但相比过去仅模仿人的方法,仍是目前最优解[21][22] - 强化学习过程会产生大量噪声,且大语言模型充当评委时易被对抗性样本欺骗,存在泛化能力不足的问题[23][24] - 未来可能需要引入“元学习”或合成数据机制来改进模型评估,但目前尚无实验室在大规模通用环境下成功实现[26][27] 人工智能与人类学习对比 - 当前大模型仅通过预测下一个词学习,缺乏人类通过反思、讨论整合知识的“思考”过程[28] - 人类“不擅长记忆”是进化优势,迫使其学习可泛化模式,未来AI应减少机械记忆,更多依靠思考与探索[28][30] - 真正的智能不在于记忆更多,而在于理解与泛化,需要构建大模型压缩记忆工作,重点发展认知部分[30] AI对社会与工作的影响 - 通用人工智能被定义为能够以人类或更好的表现完成任何有经济价值任务的系统,但已从最初定义中移除了物理性任务[31] - 放射科医生和呼叫中心等工作未被完全自动化,因其涉及复杂工作场景,理想状态是AI完成80%工作量,人类监督完成剩余20%[32][33][34] - 更看重AI与人类的互补关系,而非替代关系,现实中许多工作比呼叫中心员工的工作复杂得多[35][36] 超级智能与社会自动化 - 超级智能被视为社会自动化进程的自然延伸,将出现越来越多从事数字工作和体力工作的自主实体[37] - AI驱动的自动化会显得“非常陌生和奇怪”,当世界在计算机集群上运行时,人类可能逐渐失去对正在发生的事情的控制和理解[37] - 从工业革命开始,递归式自我改进和智能爆炸已持续数百年,我们处于“智能爆炸”中已有几十年[37][38]
哈工大孟维康:让注意力有 “棱角”|Attention
36氪· 2025-10-20 15:58
Transformer架构的行业现状与挑战 - Transformer作为生成式AI的核心架构,几乎定义了整个行业的技术走向,其核心模块Self-Attention在视觉与语言模型领域几乎成为标配[1] - Self-Attention机制面临空间平方复杂度的挑战,这意味着昂贵的投入和巨大的能耗,导致模型训练陷入资源军备竞赛,令中小团队和企业望而却步[1] - 学界与产业界持续探索平衡效率与性能的方法,Linear Attention是代表性尝试,旨在通过核函数降低计算复杂度[1] Linear Attention的技术瓶颈 - Linear Attention通过核函数替代Softmax以降低复杂度,但存在两大硬伤:注意力分布变“平”(高熵)导致模型区分能力削弱,以及在精细细节或重要特征中丧失尖锐性[1] - 使用非负核函数近似Softmax时,所有负数信息被“截掉”,导致模型只能看到“正相关”而看不到“负相关”或“抑制关系”,使注意力图变得片面并影响表达力[2] PolaFormer的创新解决方案 - 针对高熵问题,研究提出通过设计一种新的核函数来降低权重分布的信息熵,要求映射函数一阶和二阶导数均大于0,从而重新缩放权重矩阵响应以降低熵[3] - 对于负值丢失问题,工作提出通过极性感知的计算方式,实现注意力权重矩阵所有元素平等地进行相似度计算,以不降低模型表现能力[3] - PolaFormer采用双支线极性建模与可学习幂函数的混合策略,将Query和Key向量拆成正负部分,并设计并行支线分别处理同号交互和异号交互[4] - 在Value向量侧也进行拆分并送入两条支路,引入两个可学习矩阵对支线结果进行加权调节并拼接,同时叠加可学习通道级幂函数使注意力分布更尖锐[6] PolaFormer的实验验证与应用前景 - 在目标检测、语义分割、图像分类和长序列基准等多种任务上的实验表明,Polarity-Aware Linear Attention可有效替代Vision Transformer中的Self-Attention模块,并显示出明显性能提升[7] - 研究背景源于产业界更在意模型部署效率,如在移动端或纯客户端上运行,而像LLaMA、qwen系列数十B规模的模型在资源受限情境下仍难落地[8] - 选择优化Linear Attention而非Sparse Attention的原因在于,后者在模型规模增大时性能不能很好维持,存在随机丢失信息的风险,而Linear Attention通过矩阵分解保证复杂度下降的同时不丢失全局信息[8][9] - 未来突破核心在于如何在保持表达力的同时将Attention做得更“轻量化”,尤其是在终端部署、算力受限场景和大模型训练中[29] - 算法与硬件协同设计是未来方向,长序列模型部署面临单卡GPU显存限制、通信开销等问题,需要共同解决部署瓶颈[30] - PolaFormer在长序列和高分辨率场景应用潜力大,如视频处理、大语言模型和高分辨率生成模型,在LLaMA长上下文设定上已显示出明显效率提升[31]