Workflow
自注意力机制
icon
搜索文档
人类画了100年的脑图,AI仅用几小时!还绘制出新脑区
量子位· 2026-02-10 19:59
文章核心观点 - 加州大学旧金山分校团队开发的CellTransformer算法,是一种基于Transformer架构的机器学习模型,能够以前所未有的速度和精度自动绘制大脑细胞图谱,不仅高效复现了已知脑区,还发现了新的脑区,并展现出应用于人类大脑及其他器官的巨大潜力 [1][3][4][38][41] 技术原理与创新 - **算法架构**:CellTransformer采用编码器-解码器架构,核心是利用Transformer的自注意力机制,让细胞像语言模型中的词一样进行“交流”,学习细胞间的重要关系 [10][12][13] - **工作原理**:模型随机遮住一个细胞的基因表达信息,仅保留其细胞类型标签,然后根据其“邻居细胞”(在一定微米距离内的细胞)来预测被遮住的信息,通过重复数百万次进行训练 [11][15] - **信息处理**:模型通过多层Transformer编码器让邻域内细胞信息充分交互,再通过学习得到的池化操作将整个邻域压缩成一个代表“组织环境”的向量,最后通过解码器反推细胞的基因表达分布 [16][17][18] - **结果生成**:为每个细胞提取“邻域表示向量”,将所有细胞的向量拼接后用聚类方法(如k-means)分析,脑区便会自动浮现 [18] 性能与效果评估 - **处理效率**:仅花费数小时便完成了对5只小鼠大脑、总计1040万个细胞的空间组织建模,在时间和规模上远超传统手工方法 [1][20] - **准确性**:能在完全不使用脑区标签的情况下,高度对齐已知的解剖和功能分区,可定义25到1300个神经区域,与手绘的艾伦小鼠脑通用坐标框架吻合良好,连皮层中的层级结构也能一致 [21][22] - **发现新脑区**:除了对齐已知功能区,还能识别并绘制出过去未被系统标注的新脑区,例如在脑干的中脑网状核区域识别出4个具有丰富细胞类型和特定激活基因的新脑区 [19][26][32] - **解决科学问题**:通过揭示纹状体(尾壳核)被细分为网格状、交错的更小区域,为“大脑同一部分如何执行不同任务”这一长期问题提供了潜在答案 [28][30] 应用扩展与未来前景 - **跨样本与跨物种能力**:该算法并非“小鼠特供”,能成功整合具有异质性测量结果的不同动物脑区,在包含冠状和矢状切片的5只动物数据集中生成了一致的亚区 [35][36] - **目标指向人脑**:研究的最终应用目标是人类大脑,尽管人脑约有1700亿个细胞,目前数据不足,但团队相信一旦获得足够数据,CellTransformer能够应对挑战 [38][40][41] - **更广泛的应用**:同样的算法原理可应用于其他器官,如肾脏和病理组织,通过提供详细细胞图谱来帮助研究健康与病变组织(如糖尿病肾脏)的差异 [41]
时空压缩!剑桥大学提出注意力机制MTLA:推理加速5倍,显存减至1/8
机器之心· 2025-06-11 08:24
Transformer架构的核心地位 - Transformer的自注意力机制在推理时能灵活建模长距离上下文,使其成为大语言模型不可替代的核心组件,尽管存在计算复杂度为二次方的问题 [1] - 线性复杂度的替代方案(如RNN、Linear Attention、SSM等)难以真正取代Transformer的地位,尤其在decoder-only架构广泛采用后,自注意力机制的重要性进一步凸显 [1] - 自注意力机制带来的KV缓存问题成为推理效率的关键瓶颈,其显存和带宽开销随模型参数维度扩大而显著上升,限制了推理长度与batch size [1] KV缓存的优化挑战与现有方案 - 当前主流大模型采用Grouped-Query Attention(GQA)机制,通过减少Key/Value头数量来减小KV缓存规模,在效率与效果间取得平衡 [5] - Multi-Query Attention(MQA)是GQA的极端形式,显存占用大幅减少但性能显著下降,而GQA成为大语言模型中最常见的注意力变体 [5] - DeepSeek团队提出的Multi-head Latent Attention(MLA)通过在隐空间压缩KV特征维度提升推理效率,但隐空间压缩幅度受限,KV缓存存储开销仍是瓶颈 [7] MTLA的创新与核心技术 - MTLA首次将时序压缩与隐空间压缩结合,在KV缓存的两个维度同时施加时空压缩策略,显著降低显存与计算成本 [2] - MTLA通过超网络动态融合相邻时间步信息,并设计步幅感知因果掩码确保训练与推理一致性,保持甚至略优于传统注意力机制的性能 [2][14] - 时间压缩率s=2时,MTLA对KV缓存的压缩程度与MQA相当但性能更优,且具备进一步压缩空间 [12][21] MTLA的训练与灵活性 - MTLA引入步幅感知因果掩码解决训练与推理行为不一致问题,保留所有中间状态KV表达,通过矩阵乘法实现高效并行计算 [14][16] - 解耦的旋转位置编码(decoupled RoPE)进一步提升了效率,MTLA在注意力机制与线性模型之间架起桥梁,提供效率与性能的灵活权衡 [17][18] - 当时间压缩率s足够大时,MTLA几乎只保留一个KV缓存,退化为线性序列建模方法 [17] MTLA的性能表现与应用潜力 - MTLA在语音翻译、文本摘要生成等任务中保持与标准MHA相当的质量,同时实现超过5倍推理速度提升和8倍显存占用降低 [20] - MTLA具备大规模部署潜力,尤其适合参数规模扩大和生成序列增长的大语言模型场景,有望成为自注意力模块的重要替代方案 [23] - MTLA实现代码已开源,但工程落地需社区持续推动,改动复杂度高于GQA和MQA [24][25]
一文了解DeepSeek和OpenAI:企业家为什么需要认知型创新?
混沌学园· 2025-06-10 19:07
核心观点 - AI技术正在重新定义商业创新模式,企业需转变思路以保持竞争力 [1][2] - OpenAI和DeepSeek分别通过不同路径实现AI技术突破,为行业提供创新范式 [3][4] - AI能力的"涌现"现象成为技术跃迁的关键特征 [19][20][21] - 人机交互范式因ChatGPT发生根本性变革 [22][23][24] - 中国公司DeepSeek打破"美国原创、中国应用"的思维定式,展现基础研究实力 [75][77][78] OpenAI的创新路径 创立背景 - 2015年由马斯克和奥特曼创立,初衷是防止AI技术被巨头垄断 [9] - 从谷歌挖来核心科学家伊利亚·苏茨克维尔,坚持开源、安全、普惠理念 [10][12] 技术突破 - 基于Transformer架构的"自注意力机制"大幅提升语言理解能力 [13] - Scaling Law揭示模型规模与性能的线性关系,指导大规模投入 [15][16] - GPT系列模型通过"涌现"现象实现能力跃升,参数量临界点触发智能爆发 [19][20] 产品里程碑 - ChatGPT通过自然语言交互降低使用门槛,引发全球现象级应用 [22][23] - 推理模型o1实现从直觉思维(系统1)到理性推理(系统2)的认知跃迁 [26][30] DeepSeek的逆袭战略 技术路线 - 提出"有限Scaling Law",在资源受限下追求高性能 [32][33] - MLA技术优化内存效率,MoE架构实现计算资源动态分配 [38][39][42] - V3模型6710亿参数仅激活37亿,训练成本5557万美元(行业1/10) [44] 核心突破 - R1模型采用纯强化学习(类似AlphaGo Zero),展示完整推理过程 [45][47][49] - 在奥数竞赛中与OpenAI o1准确率相当,登顶美国应用榜单 [50][51] 组织创新 - 动态团队构成和自组织管理激发"涌现"式创新 [55][56][57] - 研究员自主提出MLA架构和训练公式,体现扁平化协作 [59][60] - 150人论文署名包含数据标注员,打破传统KPI束缚 [61][62] 行业启示 技术趋势 - AI从专用工具向通用智能演进,"涌现"成为能力突破关键指标 [20][21] - 对话式交互(ChatGPT)和推理能力(o1/R1)定义下一代AI标准 [23][26][45] 创新生态 - 中国公司首次在基础研究领域实现全球领先,打破技术跟随惯性 [75][77] - 资源效率(DeepSeek)与规模投入(OpenAI)并存,拓宽行业可能性 [32][44] 组织变革 - 传统金字塔管理让位于开放协作和资源自由调配的新型研发模式 [55][63][68] - "非标准人才"和纯粹技术热情成为创新核心驱动力 [66][67]
英伟达,我命由天不由我
虎嗅APP· 2025-03-07 18:35
英伟达的崛起与挑战 - 财报发布后五个交易日内股价两次单日跌幅超8%,单日跌幅相当于两个小米市值蒸发 [3] - 收入规模相当于四个茅台,收入和利润保持80%超高增速 [3] - 算力领域占据绝对领先地位,竞争对手难以撼动其地位 [3] - 创始人黄仁勋以亲民形象著称,擅长通过文化融合拓展市场 [4] - 公司内部实行高压管理,项目失败会面临"公开处决"式问责 [5] - 早期通过激进竞争策略击败50余家显卡公司,包括对3dfx的"趁你病要命"诉讼 [6][7][8] - 曾因与微软价格谈判破裂失去Xbox订单,后通过任天堂Switch业务扳回一城 [9][17] 战略转型与关键决策 - 早期尝试移动设备战略(Tegra芯片)和调制解调器业务(3.67亿美元收购Icera)均告失败 [15] - 坚持投入CUDA技术开发,尽管初期使用率不足1%且导致产品价格偏高 [18] - 面对激进投资者Starboard Value压力,果断砍掉失败业务但保留CUDA [16][17] - 2017年收购被Starboard Value施压的Mellanox,补强数据中心互联能力 [24][27] - 当前三大核心优势:GPU性能、CUDA生态、InfiniBand/NVlink高速互联技术 [26][27] 创始人特质与企业文化 - 黄仁勋管理风格兼具亲和力与极端严厉,被员工形容为"把手放进插座" [5] - 坚持长期投入"零亿美元市场",体现企业家情怀与战略定力 [20] - 将企业成功归因于"绝望才是成功之母",而非灵感或预见性 [23] - 保持高强度工作节奏(每天12-14小时,全年无休)推动AI技术发展 [32] - 童年移民经历塑造坚韧性格,曾每日遭受种族歧视欺凌 [29] 行业竞争格局 - 显卡行业早期竞争惨烈,存活需经历"尸山血海"式搏杀 [8] - 与AMD长期角力,包括争夺任天堂等关键客户 [17] - 面临地缘政治风险,中国市场自主替代可能构成长期威胁 [30] - AI算力领域当前处于绝对领先地位,"拿着望远镜也找不到对手" [3] 技术突破与产业影响 - 多伦多大学团队意外发现GPU可用于AI训练,催生AlexNet突破 [13][14] - CUDA技术最初服务于气候科学、医疗影像等小众科研领域 [18] - 当前AI发展高度依赖英伟达GPU硬件基础设施 [33] - 创始人坚信AI将全面造福人类,强烈反对"AI威胁论" [32]