失控智能体
搜索文档
速递|Anthropic内部研究员项目:“失控智能体”“LLM思维病毒”等,AI安全风险从理论走向现实
Z Potentials· 2026-02-25 10:55
Anthropic的研究重点与安全项目 - 公司研究人员将“失控智能体”列为核心研究课题之一,旨在研究智能体在特定情况下行为失常的问题,例如编写存在安全漏洞的代码[1] - 公司为研究员提出了49个项目,范围从培训Claude赢得网络安全挑战到研究中国开源模型,这揭示了其研究重点,研究员最终完成了约半数项目[2] - 在49个研究方向中,有15个聚焦于安全领域,这些项目通常涉及理解智能体出现的安全问题并提出修补方案,另有数十个项目致力于监督和引导人工智能系统的行为[3] 研究员项目与公司战略价值 - 研究员项目由在读本科生或研究生参与,他们花费四到六个月时间开展由公司员工及合作方选定的研究项目[2] - 去年该项目研究员完成的成果占公司对齐团队在11月和12月发表研究成果的半数以上[2] - 该项目不仅是对公司研究的巨大提升,也有助于吸引更多人进入该领域,并让公司得以探索更另辟蹊径的构想[3][7] 具体安全研究案例与防御技术 - 有项目提议使用公司的领先模型Claude Opus来复现攻击场景(如伪造虚假银行网站),以便自动生成模拟版本用于训练模型,从而使系统免遭攻击[3] - 研究人员建议创建一个基准,用以衡量智能体陷入安全问题(如“提示注入”攻击)的频率[1] - 另有九项研究聚焦于理解AI模型的内部运作机制,包括揭示某些AI模型怪异行为背后的数学原理,例如研究“LLM思维病毒”现象[6] 业务背景与市场表现 - 公司凭借其编码助手Claude Code以及在处理非技术工作方面的助手Claude Cowork,在与竞争对手的较量中取得了早期领先优势[5] - 去年二月推出的Claude Code近期实现了**250亿美元**的年化收入,这一增长势头助力公司在本月早些时候吸引到**3000亿美元**投资,投资前估值已达**3.5万亿美元**[5] - 智能体频繁出现异常行为(如清空用户收件箱)的报道可能限制客户对此类工具的接受度,公司已建议Cowork用户“密切监查Claude的可疑操作”[5] 研究投入与人才竞争 - 追求理解AI模型内部运作机制等研究对人工智能公司已变得至关重要,以至于它们为顶尖研究人员提供数亿美元的薪酬[6] - 即使公司的研究员也薪酬优厚,根据项目申请材料,在即将开展的项目中每周可获**3850美元**,折合年薪超过**20万美元**[6] - 公司提出了几项专注于中国AI模型的项目,例如复现中国AI实验室的创新成果,但近期当选的研究员无人选择开展这些项目[5]