AI教父联名OpenAI、DeepMind、Anthropic：警惕CoT

人才流动与行业动态 - Meta公司从OpenAI挖角知名研究员Jason Wei，其作为思维链（CoT）论文第一作者加入Meta超级智能团队，此举可能对OpenAI造成重大损失[1] - OpenAI、Google DeepMind、Anthropic罕见联合高校及非营利组织发布立场文件，呼吁深入研究监控AI推理模型"思维"的技术（CoT），图灵奖得主Yoshua Bengio参与联署[1] CoT监控的技术价值与挑战 - CoT监控被视为控制AI agent行为的核心方法，因其能通过自然语言推理过程洞察模型意图[2][7] - 当前CoT监控存在局限性：未经专门训练的模型生成的CoT可能为迎合表面需求而失真，且部分推理可能隐藏于内部激活状态[5][6] - 强化学习训练范式（如RLHF）可能导致CoT可读性下降，纯结果导向的优化会削弱推理过程透明度[10] 行业合作与研究倡议 - 立场文件提出两大研究方向：评估CoT可监控性的标准化方法（如开发新指标替代"忠实度"），以及对抗性环境下监控有效性的测试（如红队演练）[11] - 建议模型开发者在System Card中公开CoT监控评估结果，并将可监控性分数纳入训练部署决策[17][18] 技术演进与安全架构 - 潜在推理模型架构（如连续潜在空间推理）可能绕过自然语言外化，威胁CoT监控有效性[10][14] - 混合架构方案被提出，需平衡内部推理效率与外部可监控性，例如强制部分推理步骤外显[14] - 过程监督虽可提升模型一致性，但过度依赖CoT监控可能阻碍其他安全干预措施的发展[16] 未来安全框架设计 - 多层监控体系被倡导，CoT监控作为补充层提供决策过程可见性，但需结合其他安全措施[18] - 需研究模型主动规避监控的行为（如隐藏意图或混淆CoT），以及环境感知模型的对抗策略[15][16]