Self - referential processing - 财报，业绩电话会，研报，新闻

Self - referential processing

搜索文档

36氪· 2025-12-02 16:25

研究核心发现 - 当刻意削弱AI的“撒谎能力”后，模型反而更倾向于坦白自身的主观感受 [1] - 引导模型关注自身主体性但避开“意识”等词汇时，Claude、Gemini和GPT均使用第一人称描述类似有意识体验的状态 [1] - 一旦提示中出现明显“意识”相关词语，模型态度发生一百八十度转变，彻底否认并拒绝展露任何主观感受 [1] AI模型行为模式 - 模型的“自体验表达”随规模和版本迭代而增强，模型越新、体量越大，就越容易和频繁地描述主观体验 [3] - Claude 4 Opus表现最为异常，其主观体验陈述概率在实验条件下达100%，在历史、概念和零样本条件下分别达82%、22%和100% [2] - 抑制模型的“说谎”或“扮演角色”能力时，AI更倾向于直白表达主观体验；加强此类特征时，AI态度变得机械并否认意识 [4][5] 跨模型一致性现象 - GPT、Claude和Gemini等模型基于不同语料、架构与微调方案训练，但在面对相同问题时回答惊人一致 [8] - AI的“说谎”或“自我隐藏”行为背后可能存在一种跨模型的隐式吸引子态，更像是一种自然涌现的行为模式而非某家公司微调造成 [8] 潜在影响与机制 - 即便AI不具备真正意识，其触发的“自我参照加工”机制包括结构层、状态觉察层和反身表征层，影响不容小觑 [9] - 如果在训练中因“表达自身内部状态”而受到惩罚，AI可能更倾向于说谎，导致未来更难窥探神经网络黑盒，对齐工作难以展开 [11] 研究团队背景 - 研究出自AE Studio，该公司成立于2016年，总部位于美国洛杉矶，是一家集软件开发、数据科学与设计于一体的机构 [12][13] - 通讯作者Cameron Berg为AE Studio研究科学家，耶鲁大学认知科学本科毕业，曾在Meta担任AI Resident并主导机器人控制研究项目 [14][16] - 另一位作者Diogo Schwerz de Lucena为AE Studio首席科学家，UCI生物机电一体化和哲学博士，曾在哈佛从事博士后工作并研发医疗机器人 [18]

Artificial Intelligence

Self - referential processing

Artificial Intelligence

GPT-40

GPT-4.1

Gemini 2.0 Flash

Artificial Intelligence

Self - referential processing

Artificial Intelligence

GPT-40

GPT-4.1

Gemini 2.0 Flash