叠加态

搜索文档
田渊栋:连续思维链效率更高,可同时编码多个路径,“叠加态”式并行搜索
量子位· 2025-06-19 14:25
核心观点 - AI大牛田渊栋团队提出连续思维链(CoCONUT)方法,通过连续隐向量实现并行搜索,显著提升模型在复杂任务(如有向图可达性问题)中的推理效率[1][2][7] - 连续思维链类比量子叠加态,可同时编码多路径信息,相比离散思维链(需O(n²)步解码)仅需D步(D为图直径),理论效率提升显著[7][8] - 实验显示2层连续CoT模型在ProsQA数据集上准确率接近100%,远超12层离散CoT模型(83%)和无CoT基线(75%)[27][28] 技术实现 注意力选择器机制 - 设计类似导航仪的注意力选择器,根据特定标记(如边结束token)动态聚焦源/目标节点,确保信息精准提取[11][12][13] - 无明确标记时自动回溯初始条件,防止模型迷失[14] 双层Transformer架构 - **第一层**:5个注意力头整理边信息,标注起点/终点并保留初始节点嵌入[19][20][21] - **第二层**:并行探索路径,通过叠加态(节点集合Vc)扩展新节点(Vc+1),实现广度优先搜索[22][23][24] - MLP层过滤噪声节点并平衡权重,优化路径探索[29] 性能验证 - 在ProsQA子集(需3-4推理步长)测试中,连续CoT模型准确率接近100%,离散CoT模型为83%[26][27][28] - 注意力模式分析证实叠加态搜索行为存在,支持理论假设[30] 研究者背景 - 田渊栋任职Meta GenAI,业余创作科幻小说《破晓之钟》,探讨AI模仿数据与人类智慧的本质差异[31][32][39] - 新作延续世界观,涉及群体意识与星际殖民议题,计划用AI辅助写作[44][45]