Workflow
旋转位置编码(RoPE)
icon
搜索文档
特斯拉芯片路线图发布
半导体行业观察· 2026-01-19 09:54
特斯拉的AI芯片战略与开发节奏 - 公司计划大幅加快AI芯片开发周期,目标是每9个月发布一款新的人工智能处理器,从AI5到AI9 [1] - 公司当前硬件发布速度慢于AMD和英伟达,主要原因是汽车芯片需满足极高的冗余性和安全性认证要求,如ISO 26262标准 [1] - 实现9个月设计周期的现实路径是基于平台的增量迭代,复用核心架构、编程模型、内存层次结构等,而非全新设计 [2] 混合精度桥接技术:核心创新 - 公司开发了“混合精度桥”技术,通过数学转换,使低成本、低功耗的8位硬件能执行高精度的32位旋转位置编码运算,突破硬件限制 [4] - 该技术通过将对数转换和预计算的“速查表”结合,在8位硬件中传输数据而不丢失精度,解决了精度与性能的博弈问题 [5][6] - 使用通过霍纳方法优化的泰勒级数展开,在极短的时钟周期内,以32位精度将数据从对数状态恢复为实数角度 [7] 硬件效率优化技术 - 通过数据拼接技术,利用8位总线传输16位精度数据,将芯片上现有线路的带宽提升一倍,无需物理重新设计硬件 [8] - 芯片集成了原生稀疏加速技术,采用基于坐标的系统仅处理非零值,将AI5芯片的吞吐量提高一倍,同时显著降低能耗 [15] - 通过优化KV缓存,将位置的对数直接存储,减少了50%或更多的内存占用,使相同RAM容量下可存储的“历史记录”翻倍(最多12.8万个标记) [11] 提升AI系统性能与稳定性 - 混合精度管道通过保持高位置分辨率,解决了长上下文记忆中的位置漂移问题,使AI能准确记住30秒或更久前被遮挡的物体(如停车标志) [10] - 采用分页注意力机制,将内存分割成小“页面”动态分配,增加可同时追踪的物体数量,避免系统延迟 [11] - 设计“只读”安全锁和固定“注意力接收器”令牌,防止数据被意外覆盖或神经网络在长时间运行后崩溃,确保系统稳定 [12][13] 多模态感知与训练优化 - 混合精度桥接技术同样应用于音频处理,使系统能使用8位硬件处理巨大的声音动态范围,精准识别从微弱声响到刺耳警报的各种环境声音 [16] - 采用量化感知训练,在训练阶段模拟硬件的舍入误差和噪声,使神经网络预先适应8位限制,确保部署后的准确性 [17] 战略影响与未来愿景 - 该技术是下一代自动驾驶硬件路线图的数学前提,预计将解锁性能是现有硬件40倍的AI5芯片 [18] - 通过将32位数据压缩成8位数据包,有效带宽提高四倍,使芯片能充分利用计算阵列,并支持“半光罩”设计以提高制造良率 [18] - 大幅降低计算功耗,将Optimus机器人的计算功率预算从500W以上削减到100W以下,使其能在8小时工作班次中稳定运行而不过热 [18][19] - 技术确保了公司的战略独立性,使其摆脱英伟达CUDA生态系统的束缚,并可采用双代工厂策略降低供应链风险 [20] - 低功耗架构为将世界级AI模型移植到智能家居、智能手机等边缘设备铺平道路,实现边缘高效计算而无需依赖云服务器 [20]
ICML 2025 Oral工作再升级!上海AI Lab联合复旦、港中文推出支持更长视频理解的最佳工具VideoRoPE++
机器之心· 2025-07-03 11:26
背景介绍 - 旋转位置编码(RoPE)及其变体在长上下文处理中广泛应用,但扩展到具有复杂时空结构的视频领域仍存在挑战[3] - VideoRoPE++通过全面分析确定了将RoPE有效应用于视频所需的五个关键特性,这些特性在先前工作中未被充分考虑[4] - 构建了全新评测基准V-RULER,其中子任务"带干扰项的大海捞针"显示当前RoPE变体在缺乏合理时间维度建模策略时容易被周期性干扰项误导[5] VideoRoPE++设计特点 - 采用三维结构保留时空关系,包括低频时间分配减轻周期性碰撞、对角布局保持空间对称性、可调整时间间隔解耦时间和空间索引[6] - 提出外推方案YaRN-V,仅在低频时间轴插值并保持空间维度稳定性,实现长视频场景下的结构一致性与外推鲁棒性[7] - 通过低频时间分配(LTA)减少振荡确保鲁棒性,对角布局(DL)保持空间对称性,可调时间间隔(ATS)控制时间间隔[15] 技术对比与优势 - 原始1D RoPE未包含空间建模,M-RoPE采用3D结构但引入不同帧间视觉标记索引差异,VideoRoPE++实现平衡并保留原始RoPE一致的索引增长模式[23] - 在视频理解任务中,空间信息具有局部性和周期性,时间信息跨越更长范围,YaRN-V通过仅沿时间维度频率插值解决这一不对称性[26] - 与M-RoPE相比,VideoRoPE++在检索中更具鲁棒性且不易受干扰项影响[9] 实验结果 长视频检索 - VideoRoPE++在V-RULER上始终优于其他RoPE变体,Vanilla RoPE和TAD-RoPE在视觉训练上下文外具备一定外推能力但超出极限后失效[28] 长视频理解 - 在LongVideoBench、MLVU和Video-MME基准上,VideoRoPE++(Qwen2基座)在64k上下文长度下分别比M-RoPE提高2.91、4.46和1.66分[30] - 性能对比表格显示VideoRoPE++在不同上下文长度和基座模型上均优于基线方法[31] 外推任务 - 在V-RULER基准的Lengthy Multimodal Stack任务上,YaRN-V以81.33分显著领先,较最强基线YaRN提升13.0分[32] - YaRN-V能更好支撑视频大模型在长输入场景下的时间对齐,避免位置溢出带来的性能衰退[33] 总结 - 确定了有效位置编码的四个关键标准:2D/3D结构、频率分配、空间对称性和时间索引缩放[34] - VideoRoPE++在长视频检索、视频理解和视频幻觉任务中优于其他RoPE变体[34]
ICML 2025 | 清华、上海AI Lab等提出傅里叶位置编码,多项任务远超RoPE
机器之心· 2025-05-08 13:51
语言模型长文本处理能力研究 核心观点 - 旋转位置编码(RoPE)的周期性特性理论上可帮助语言模型实现长文本泛化 但实际应用中仍存在外推限制 主要原因是频谱损坏破坏了周期延拓的有效性 [1][4] - 清华大学团队提出傅里叶位置编码(FoPE) 通过傅里叶级数建模和低频分量裁剪 显著提升Transformer模型的长文本泛化能力 [16][17] 频谱损坏机制分析 - 频谱损坏三大来源:线性层导致各维度频率分量混杂 激活函数产生频率线性组合 时域截断造成主频强度扩散 [7][9][11][13] - 实验显示RoPE在超过8k文本长度时性能显著下降 如GovReport数据集8k+文本困惑度达12.02 而FoPE提升至12.38 [19] FoPE技术创新 - 采用傅里叶级数建模 利用三角函数正交性解码混杂频率信息 将极低频分量转为直流分量以保持周期特性 [17] - 在TREC数据集8k+文本任务中 FoPE准确率较RoPE提升15个百分点(36%→51%) 展现显著优势 [19] 应用前景 - 技术可延伸至长视频生成、kv-cache压缩等领域 在语义通信和脑机接口等跨学科场景具潜在价值 [21] - 在MultiNews数据集4-8k文本段 FoPE困惑度改善1.87点(11.11→12.98) 验证算法稳定性 [19]
ICML 2025 | 注意力机制中的极大值:破解大语言模型上下文理解的关键
机器之心· 2025-05-06 12:11
大型语言模型自注意力机制研究 核心发现 - 自注意力模块中查询(Q)和键(K)表示存在高度集中的极大值,而值(V)表示无此现象,该现象在使用旋转位置编码(RoPE)的模型中普遍存在[1][3] - 极大值分布具有跨层和跨头的规律性,与传统认知中注意力头独立性假设形成鲜明对比[3] - 该现象仅见于采用RoPE的主流模型(LLaMA/Qwen/Gemma),未使用RoPE的模型(GPT-2/OPT)不存在此模式[4] 机制影响 - 破坏QK中的极大值导致上下文理解任务性能崩溃: - 数学推理(GSM8K)准确率从81.3%骤降至15.1%(Gemma2-9B)[5] - 密钥检索任务(Passkey Retrieval)准确率从100%降至0%[5][11] - IMDB情感分析从94%+跌至个位数[11] - 参数知识任务受影响较小:城市类任务保持76-88%准确率,名人类任务维持70%+[10][13] 技术启示 - 量化技术需针对性处理极大值:AWQ和SmoothQuant方法能有效保持上下文理解能力,普通量化导致GMS8K性能显著下降[7] - RoPE机制是极大值现象的根源,其仅作用于QK而不影响V的特性解释了现象特异性[8] - 模型设计应重点考虑位置编码机制对上下文理解的影响,优化方向可针对极大值分布进行调整[14][16] 未来方向 - 探索通过调控极大值分布提升模型上下文理解能力的可行性[16] - 开发专用于保护极大值的量化技术,平衡模型压缩与性能保留[16] - 研究不同模型架构中该现象的普适性,拓展至多模态等新领域[16]