文章核心观点 - 当前大型语言模型在复杂推理任务上表现出色,但在多步骤、长上下文的精确计算任务中表现不佳[1][7][9] - Percepta团队提出了一种创新方法,通过在Transformer模型权重内直接内嵌可执行程序(原生计算机),来从根本上解决精确计算问题[2][4][15] - 该方法摒弃了依赖外部工具或智能体调度的“外挂”式解决方案,实现了计算过程的内化、透明化和可验证性[4][13][20] - 配合创新的二维注意力头设计,该方法将推理效率提升至指数级,在普通CPU上实现了极高的Token吞吐量[5][6][21][26] 技术方案:内嵌原生计算机 - 核心是在Transformer的权重中实现了一套现代化的RAM计算机与WebAssembly解释器[16] - WebAssembly是一种快速、稳定的底层机器指令,允许将C、C++等语言编写的代码编译成模型可识别的Token指令序列[17][18] - 模型执行计算时,会先以Token序列形式“编写”程序,然后切换到快速解码模式,在内部逐步执行程序并输出过程与结果[19] - 此方法使计算过程从依赖外部工具的黑箱变为内部可验证的白盒,实现了计算透明化[20] 效率提升:二维注意力头与HullKVCache - 团队设计了二维注意力头,将注意力查询问题转化为计算几何中的凸包极值查询问题[22] - 通过动态维护历史Key向量的凸包数据结构,每一步的注意力查询只需在凸包上进行,将计算复杂度从O(n)降至O(log n)[23][24] - 基于此原理设计的HullKVCache,在普通CPU上实现了31037 Token/秒的吞吐量[6][26] - 完成约9000行指令序列仅需1.3秒,效率较传统KV缓存提升了近200倍[26] - 该设计完全基于标准PyTorch Transformer,无需定制内核或稀疏掩码,通过简单配置即可实现[28] 性能验证:长程精确计算任务 - 在10×10最小代价完美匹配任务中,模型内部执行匈牙利算法,以自回归方式生成完整计算轨迹[30][31][32] - 该任务在CPU上完成,Token生成速度达到33583 Token/秒,指令输出效率为7301行/秒[33] - 在世界公认最难数独(Arto Inkala数独,仅21个提示数)求解任务中,模型内部执行了一个完全正确的、编译后的数独求解器[30][35] - 求解器通过约束传播和搜索回溯,每一步尝试、验证、矛盾检测都以可读日志和Token轨迹形式输出[36][37] - 最终在3分钟内实现了100%精确求解[38] 背景与团队 - 这项研究由Percepta团队完成,领衔者为Christos Tzamos[40] - Christos Tzamos是麻省理工博士,现任雅典大学计算机科学副教授,同时是Percepta的创始研究员[41] - Percepta是General Catalyst旗下的AI转型公司,团队成员来自Meta FAIR、MIT、Google等机构[42]
卡帕西点赞Transformer内置计算机!每秒3万Token吞吐,拿下世界最难数独
量子位·2026-03-17 14:10