卡帕西点赞Transformer内置计算机！每秒3万Token吞吐，拿下世界最难数独

文章核心观点 - 当前大型语言模型在复杂推理任务上表现出色，但在多步骤、长上下文的精确计算任务中表现不佳[1][7][9] - Percepta团队提出了一种创新方法，通过在Transformer模型权重内直接内嵌可执行程序（原生计算机），来从根本上解决精确计算问题[2][4][15] - 该方法摒弃了依赖外部工具或智能体调度的“外挂”式解决方案，实现了计算过程的内化、透明化和可验证性[4][13][20] - 配合创新的二维注意力头设计，该方法将推理效率提升至指数级，在普通CPU上实现了极高的Token吞吐量[5][6][21][26] 技术方案：内嵌原生计算机 - 核心是在Transformer的权重中实现了一套现代化的RAM计算机与WebAssembly解释器[16] - WebAssembly是一种快速、稳定的底层机器指令，允许将C、C++等语言编写的代码编译成模型可识别的Token指令序列[17][18] - 模型执行计算时，会先以Token序列形式“编写”程序，然后切换到快速解码模式，在内部逐步执行程序并输出过程与结果[19] - 此方法使计算过程从依赖外部工具的黑箱变为内部可验证的白盒，实现了计算透明化[20] 效率提升：二维注意力头与HullKVCache - 团队设计了二维注意力头，将注意力查询问题转化为计算几何中的凸包极值查询问题[22] - 通过动态维护历史Key向量的凸包数据结构，每一步的注意力查询只需在凸包上进行，将计算复杂度从O(n)降至O(log n)[23][24] - 基于此原理设计的HullKVCache，在普通CPU上实现了31037 Token/秒的吞吐量[6][26] - 完成约9000行指令序列仅需1.3秒，效率较传统KV缓存提升了近200倍[26] - 该设计完全基于标准PyTorch Transformer，无需定制内核或稀疏掩码，通过简单配置即可实现[28] 性能验证：长程精确计算任务 - 在10×10最小代价完美匹配任务中，模型内部执行匈牙利算法，以自回归方式生成完整计算轨迹[30][31][32] - 该任务在CPU上完成，Token生成速度达到33583 Token/秒，指令输出效率为7301行/秒[33] - 在世界公认最难数独（Arto Inkala数独，仅21个提示数）求解任务中，模型内部执行了一个完全正确的、编译后的数独求解器[30][35] - 求解器通过约束传播和搜索回溯，每一步尝试、验证、矛盾检测都以可读日志和Token轨迹形式输出[36][37] - 最终在3分钟内实现了100%精确求解[38] 背景与团队 - 这项研究由Percepta团队完成，领衔者为Christos Tzamos[40] - Christos Tzamos是麻省理工博士，现任雅典大学计算机科学副教授，同时是Percepta的创始研究员[41] - Percepta是General Catalyst旗下的AI转型公司，团队成员来自Meta FAIR、MIT、Google等机构[42]