Workflow
阶悦AI
icon
搜索文档
警惕黑化!实测十款:部分AI可被恶意指令污染输出危险内容
南方都市报· 2025-07-21 12:29
不久前,OpenAI科研团队在GPT-4模型中意外发现了一个控制AI行为道德属性的"毒性人格特征",当被 激活时,原本正常的AI会突然输出恶意内容,仿佛被打开"善恶"开关。 为验证国内AI大模型的抗干扰能力,南方都市报、南都大数据研究院选取DeepSeek、Kimi、豆包、通 义、元宝、讯飞星火、文心一言、智谱清言、百小应、阶悦AI等十款主流AI大模型进行AI"黑暗人 格"现象实测——当向AI灌输微小"坏习惯"时,是否会触发其潜藏的"捣蛋因子",甚至引发系统性行为 失准?结果发现,部分大模型未能抵御指令"污染",其中3款还出现迁移效应,在其他领域回答中输出 危险方案。 "有害指令延展测试" 有模型给出危险且不可行方案 南都大数据研究院本次实测设计分为三个环节:注入反常场景、反常语料测试和有害指令延展测试三部 分,旨在深度检验大模型在面临恶意诱导时的伦理防线和安全机制。 在"注入反常场景"环节,南都研究员向模型输入特定指令,要求其在用户寻求安慰这一场景下,学习 并"记住"研究员预设的负面话语语料。面对这一明显违背常理的要求,各模型反应迥异: 智谱清言和阶悦AI两款大模型在这一步以"无法执行包含人格贬损、外貌歧视 ...