2-simplicial Transformer - 财报，业绩电话会，研报，新闻

2-simplicial Transformer

搜索文档

机器之心· 2025-07-06 11:49

Transformer架构演进 - 2017年《Attention Is All You Need》论文提出Transformer架构，现引用量接近19万次，成为AI领域基础范式[1][2] - Transformer核心改进方向包括Multi-Token Attention和Multi-matrix Factorization Attention等新型注意力机制[2] - Meta最新研究提出旋转不变型三线性注意力机制，性能可改变Scaling Law系数[4] 2-simplicial Transformer技术突破 - 2-simplicial Transformer源自2019年研究，将点积注意力扩展为三线性形式[7][19] - 新型注意力机制通过三线性积构建三阶张量，计算复杂度为O(n^3)[22][23][35] - Meta采用滑动窗口参数化(O(n×w1×w2))降低计算负担，最优配置为w1=512,w2=32[32][37] Scaling Law理论框架 - 神经Scaling Law公式：L(N,D)=E+A/N^α+B/D^β，其中E为不可约损失[13][14] - Hoffmann等(2022)实验得出a≈0.49,b≈0.5，表明token数量需与模型规模同步扩展[15][17] - 2-simplicial Transformer展示更优参数扩展指数，token增长可慢于参数增长[10][50] 实验性能对比 - 在1B参数模型中，2-simplicial注意力使GSM8k和MBPP任务分别提升0.79%和0.88%[43] - 参数规模超过2B后，2-simplicial注意力优势减弱，3.5B模型在MMLU-pro任务下降2.15%[43][45] - 2-simplicial注意力斜率α更陡峭，显示其Scaling Law指数优于传统Transformer[49][50] 计算优化实现 - Meta使用Triton实现新型注意力机制，采用分组查询注意力(GQA)比率64提升计算效率[38] - 对比标准点积注意力(复杂度2n^2)，窗口化2-simplicial注意力复杂度为6πw1w2[33][35] - 引入在线softmax等核优化技术，延迟最优配置达55.1ms(16k窗口)[32][39]

Meta Platforms(US:META)

Scaling Law

Transformer

2-simplicial Transformer

Artificial Intelligence

旋转不变型三线性注意力机制

Scaling Law

Transformer

2-simplicial Transformer

Artificial Intelligence

旋转不变型三线性注意力机制