失控智能体 - 财报，业绩电话会，研报，新闻

失控智能体

搜索文档

速递｜Anthropic内部研究员项目：“失控智能体”“LLM思维病毒”等，AI安全风险从理论走向现实

Z Potentials· 2026-02-25 10:55

Anthropic的研究重点与安全项目 - 公司研究人员将“失控智能体”列为核心研究课题之一，旨在研究智能体在特定情况下行为失常的问题，例如编写存在安全漏洞的代码[1] - 公司为研究员提出了49个项目，范围从培训Claude赢得网络安全挑战到研究中国开源模型，这揭示了其研究重点，研究员最终完成了约半数项目[2] - 在49个研究方向中，有15个聚焦于安全领域，这些项目通常涉及理解智能体出现的安全问题并提出修补方案，另有数十个项目致力于监督和引导人工智能系统的行为[3] 研究员项目与公司战略价值 - 研究员项目由在读本科生或研究生参与，他们花费四到六个月时间开展由公司员工及合作方选定的研究项目[2] - 去年该项目研究员完成的成果占公司对齐团队在11月和12月发表研究成果的半数以上[2] - 该项目不仅是对公司研究的巨大提升，也有助于吸引更多人进入该领域，并让公司得以探索更另辟蹊径的构想[3][7] 具体安全研究案例与防御技术 - 有项目提议使用公司的领先模型Claude Opus来复现攻击场景（如伪造虚假银行网站），以便自动生成模拟版本用于训练模型，从而使系统免遭攻击[3] - 研究人员建议创建一个基准，用以衡量智能体陷入安全问题（如“提示注入”攻击）的频率[1] - 另有九项研究聚焦于理解AI模型的内部运作机制，包括揭示某些AI模型怪异行为背后的数学原理，例如研究“LLM思维病毒”现象[6] 业务背景与市场表现 - 公司凭借其编码助手Claude Code以及在处理非技术工作方面的助手Claude Cowork，在与竞争对手的较量中取得了早期领先优势[5] - 去年二月推出的Claude Code近期实现了**250亿美元**的年化收入，这一增长势头助力公司在本月早些时候吸引到**3000亿美元**投资，投资前估值已达**3.5万亿美元**[5] - 智能体频繁出现异常行为（如清空用户收件箱）的报道可能限制客户对此类工具的接受度，公司已建议Cowork用户“密切监查Claude的可疑操作”[5] 研究投入与人才竞争 - 追求理解AI模型内部运作机制等研究对人工智能公司已变得至关重要，以至于它们为顶尖研究人员提供数亿美元的薪酬[6] - 即使公司的研究员也薪酬优厚，根据项目申请材料，在即将开展的项目中每周可获**3850美元**，折合年薪超过**20万美元**[6] - 公司提出了几项专注于中国AI模型的项目，例如复现中国AI实验室的创新成果，但近期当选的研究员无人选择开展这些项目[5]

人工智能安全

失控智能体

LLM思维病毒

Artificial Intelligence

Artificial Intelligence

Claude Code

Claude Cowork