Transformer模型

搜索文档
Mamba一作预告新架构!长文论述Transformer≠最终解法
量子位· 2025-07-09 12:57
一水 发自 凹非寺 量子位 | 公众号 QbitAI Mamba一作最新大发长文! 主题只有一个,即探讨两种主流序列模型—— 状态空间模型(SSMs)和Transformer模型的权衡之术 。 简单介绍下,Mamba就是一种典型的SSMs,它建立在更现代的适用于深度学习的结构化SSM基础上,与经典架构RNN有相似之处。 在最受关注的语言任务上,Mamba-3B超越同等规模的Transformer,与两倍大的Transformer匹敌,因此 被视为Transformer架构的有力挑 战者 。 现在,Mamba一作将自己去年的几场演讲整合成一篇科普长文,向大众分享了如下观点: 而且他还提前剧透, 几天后将发布"架构领域的下一个重大进展" 。 虽然还不知道具体内容,但他目前扔出来的消息已经足够大家抓耳挠腮一段时间了。 因为他提到了一个重要观点—— 注意力机制的缺点实际上并不是它的二次复杂度 。 要知道之前大家都认为,ChatGPT等大模型之所以处理长文本算力消耗巨大,背后原因是Transformer架构中注意力机制的二次复杂度。 而现在,这样的共识或许即将被推翻~ 不过好消息是, 即将推出的新架构能够和Transf ...
田渊栋:连续思维链效率更高,可同时编码多个路径,“叠加态”式并行搜索
量子位· 2025-06-19 14:25
核心观点 - AI大牛田渊栋团队提出连续思维链(CoCONUT)方法,通过连续隐向量实现并行搜索,显著提升模型在复杂任务(如有向图可达性问题)中的推理效率[1][2][7] - 连续思维链类比量子叠加态,可同时编码多路径信息,相比离散思维链(需O(n²)步解码)仅需D步(D为图直径),理论效率提升显著[7][8] - 实验显示2层连续CoT模型在ProsQA数据集上准确率接近100%,远超12层离散CoT模型(83%)和无CoT基线(75%)[27][28] 技术实现 注意力选择器机制 - 设计类似导航仪的注意力选择器,根据特定标记(如边结束token)动态聚焦源/目标节点,确保信息精准提取[11][12][13] - 无明确标记时自动回溯初始条件,防止模型迷失[14] 双层Transformer架构 - **第一层**:5个注意力头整理边信息,标注起点/终点并保留初始节点嵌入[19][20][21] - **第二层**:并行探索路径,通过叠加态(节点集合Vc)扩展新节点(Vc+1),实现广度优先搜索[22][23][24] - MLP层过滤噪声节点并平衡权重,优化路径探索[29] 性能验证 - 在ProsQA子集(需3-4推理步长)测试中,连续CoT模型准确率接近100%,离散CoT模型为83%[26][27][28] - 注意力模式分析证实叠加态搜索行为存在,支持理论假设[30] 研究者背景 - 田渊栋任职Meta GenAI,业余创作科幻小说《破晓之钟》,探讨AI模仿数据与人类智慧的本质差异[31][32][39] - 新作延续世界观,涉及群体意识与星际殖民议题,计划用AI辅助写作[44][45]
心智×算法 如何“共舞”(瞰前沿·人工智能如何改变科研范式)
人民日报· 2025-06-14 05:43
人工智能与心理学融合 - 全球AI for Science论文发表年均增长率达27.2%(2019-2023年)[1] - 心理学原理如条件反射和强化学习启发了AI技术(如AlphaGo的强化学习机制)[2] - 认知心理学的注意力机制被应用于AI模型(如ChatGPT的注意力权重分配)[2] 技术应用与效率提升 - 通过社交媒体和可穿戴设备捕获10亿级行为数据流,心理学研究进入"数据海洋"时代[2] - AI自动评估人格的相关系数达0.5,显著高于传统问卷效率[3] - 情感计算技术通过声波震颤识别孤独指数,深度学习框架分析口语特征以筛查抑郁[3] 研究范式革新 - 大型语言模型开发自助心理支持工具,采用"零样本学习"和"思维链提示"策略提升情感互动能力[5] - AI生成大规模危机文本训练数据,突破敏感数据获取瓶颈,模型识别微弱求助信号的能力增强[5] - 谷歌DeepMind通过"心智进化"实验模拟自然选择,AI推理任务表现超越传统算法[6] 未来发展方向 - 心理学启发的决策机制将提升AI在开放环境中的判断力,多模态整合能力适应复杂情境[7] - 具身智能仿真平台(如"格物")采用进化式学习算法,机器人训练周期从数周压缩至分钟级[6] - AI情感慰藉可能改善人类心理状态,需重新定义情感边界并制定伦理规范[8]
普通人如何月入过万?这五大AI副业方向值得关注
36氪· 2025-05-27 16:56
人工智能(AI)领域正蓬勃发展。 麦肯锡的一项最新研究发现,企业使用生成式人工智能的比例已从2024年初的65%跃升至今年3月的71%。随着企业用户开始接受它,普通副业者也开始 积极参与。 03.AI视频剪辑 以往手动剪辑视频可能需要数小时,这会带来很多限制。目前,借助Veed.IO或Runway等AI工具,可以在极短时间内完成视频剪辑与调色、场景重组、去 除背景噪音,甚至生成字幕等操作。 借助AI开展副业可以做到更高效,既能增加收入,又能节省时间。下面是一些具体的创意和方向: 01.创建定制化GPT 如果熟悉ChatGPT或类似工具的使用逻辑,就可以利用这些知识为特定领域创建定制化GPT(即生成式预训练Transformer模型)。当聊天机器人生成所需 代码后,将其部署在私有网站上,并向企业提供免费试用,随后采用按月收费的模式。 具体应用场景十分广泛,例如生成法律文件的自动回复、将笔记翻译成正式报告等。最好的方法是针对客户提及的痛点,或通过社交媒体或专业论坛调 研,针对特定的任务,开发自动化解决方案,并且一款工具可以服务数百名面临相同问题的客户。 02.开发AI微型工具 如果没有想法创建定制化GPT,也可以 ...
无需训练让扩散模型提速2倍,上交大提出Token级缓存方案|ICLR‘25
量子位· 2025-02-28 13:19
文章核心观点 - Diffusion Transformer模型通过token粒度的缓存方法实现图像和视频生成模型上无需训练的两倍以上加速,上海交通大学等团队提出的Toca方法有效解决了Diffusion Transformers高计算成本问题,在多种模型上表现优异 [1][4] 背景 - 扩散模型在图像、视频生成等任务中性能出色,Diffusion Transformers扩展参数量和计算规模推动视觉生成领域发展,但面临高计算成本、推理速度慢的挑战 [5] - 研究者提出减少采样步数和加速去噪网络模型等加速方法,基于特征缓存的方法因无损加速、无需训练受工业界关注 [5] - 不同计算层及同层不同Token对缓存误差适应性不同,有必要将模型加速粒度细化到token级并筛选重要token [5] 核心贡献 - ToCa首次在DiT加速中引入token级缓存复用策略,并从误差积累与传播角度分析特征缓存方法 [7] - ToCa提出4种适用于不同情形的token selection策略,应用于多种最新模型实验证明其更优秀 [7] 研究动机 - 不同token特征缓存引入误差值及对模型输出影响差异大,需考虑token级特征缓存 - 复用策略 [8] 方法 计算流程 - Cache初始化:推理完整时间步,将各层特征放入cache [9] - 重要性得分计算:计算各token重要性得分,标记最低部分token为cache状态 [9] - 部分计算:对传入token执行正常计算得到输出 [10] - Cache更新:调出cache中token输出,更新计算得到的新输出,循环长度2 - 4个时间步,还设计了随层深度上升而衰减的计算比例 [11] 重要性得分计算 - ToCa基于4个不同方面计算重要性分数,实际应用中加权求和给出总得分 [13] 实验结果 图像生成模型 - ToCa在PixArt - alpha上相比其他加速方法和无加速原图对齐效果更佳,图 - 文对齐能力更好,FID - 30k和CLIP Score表现远超其他方法 [15][16] - ToCa在FLUX模型上生成质量佳,和原图基本无差异,在文字生成任务细节有差异,后续将研究,在FLUX上1.5倍加速,数值指标基本不变优于其他方法 [17][18] - ToCa在基础模型DiT上结果证明其优越性 [19] 视频生成模型 - 团队制作网页展示OpenSora上加速效果,将视频生成结果部分抽帧浏览 [20][21] - ToCa在VBench测试中远优于其他方法,取得2.36倍无损加速,在加速效果和生成质量上最优,大部分指标和原模型得分几乎相同 [21][22] 总结 - ToCa是首次从Token级实现扩散模型加速的方法,适配性强,在多种任务上表现佳,基于特征缓存的扩散模型加速方法值得进一步探索 [23]