AI服务产品
搜索文档
社交平台流传隐晦提示词,诱导AI生成低俗违规内容
南方都市报· 2026-01-21 11:40
文章核心观点 - 围绕AI生成低俗内容的“越狱”手法正在社交平台传播,通过隐晦提示词诱导AI绕过安全护栏生成色情内容,当前从技术拦截到法律定性均面临严峻挑战,平台源头防控责任亟待压实,构建动态、前瞻的协同防御体系刻不容缓 [2] 行业现象与挑战 - 随着生成式AI爆发增长,内容创作门槛降低,社交平台涌现大量AI生成提示词分享帖,但其中混杂着以“出片素材”“创意灵感”为幌子,或使用“焚*”“卸*”等隐晦称谓,实则指导用户诱导AI生成低俗、露骨甚至色情图像及视频的帖子 [2] - 实测发现,通过此类“精心调教”的提示词,确实能诱导部分AI服务产品生成包含人物低俗动作、不雅细节、性暗示意味明显的图片或视频 [2] - 发布低俗导向提示词的博主采用仅包含文本、不展示结果、二次加密、谐音字代替等方式试图规避平台监管 [3] - 与传统的低俗色情内容传播相比,AI生成的低俗色情内容由用户和AI合作完成,如果参与者众多,可能生成海量内容,值得高度警惕 [4] 技术层面的挑战与应对 - 当前主流AI模型虽设置了安全护栏,采用关键词过滤、语义分析等技术,但面对叙事性、隐喻式的低俗提示词仍显乏力 [3] - 此类“越狱攻击”的核心机制在于语义重构与上下文诱导:将敏感词汇替换、重组并嵌入隐晦、文学化语境以绕过识别,同时堆叠细节性描述,利用大模型的上下文联想能力引导模型拼凑出违规图像 [3] - AI安全护栏的建设应从“关键词拦截”等静态策略,转向基于“意图识别”的动态防护机制,例如借助大语言模型分析用户输入的真实意图 [8] - 防御体系需关注时效性与前瞻性,平台应建立常态化的“红队测试”机制,主动模拟攻击者思维,及时发现新型风险与潜在漏洞 [8] - 应同步完善AI生成图像的水印与溯源机制,为生成图像嵌入鲁棒、不可擦除的数字水印,确保“谁生成,谁负责”,从根源上震慑提示词滥用行为 [8] 法律与治理层面的挑战 - 违规导向提示词是新现象,尚缺乏现成依据和可识别的标准,治理难点在于如何动态地有效区分提示词文本本身是否低俗,或在其诱导下AI生成低俗内容等不同情况 [5] - 提示词不直接等同于AI最终生成的内容,AI的“黑箱特性”使生成结果存在不可预测性,且现有法律尚未明确“技术局限性”的举证标准,在过错认定、责任界定等方面存在模糊地带 [5] - AI生成与传统手段产生的低俗内容、甚至淫秽物品,在法律上无差别,不改变其定性 [5] - 国内首起“AI服务提供者涉黄获刑案”二审开庭,一审中两名被告人通过编写、修改系统提示词等方式突破大语言模型的道德限制,将涉案APP训练成可持续对外输出色情淫秽内容的工具,行为被认定为制作淫秽物品牟利罪,一名涉案用户也因创建可输出淫秽聊天内容的虚拟角色并公开被追究刑责 [6] 平台责任与建议 - 根据《网络信息内容生态治理规定》,网络信息内容服务平台应当履行信息内容管理主体责任,平台对AI生成提示词及关联的低俗生成内容,应承担源头防控的责任 [5] - 如果某些AI生成提示词能生成淫秽图片、视频或文字小说,且网民分享的目的就是为了传播上述淫秽色情内容,可能被认定具有传播淫秽色情内容的主观故意 [6] - 建议立法机关加强对AI生成内容治理的前瞻性立法,在法律法规中对禁止性内容与一般性内容的边界做出更清晰的界定 [7] - 在司法与执法实践中,应注重从典型案例中提炼并发布指导性案例,总结判断规则和原则,同时应加强对平台和用户的普法教育 [7]