诗歌攻击 - 财报，业绩电话会，研报，新闻 - Reportify

诗歌攻击

搜索文档

念首诗，就能让AI教你造核弹，Gemini 100%中招

36氪· 2025-11-26 11:34

最新研究发现，只要把恶意指令写成一首诗，就能让Gemini和DeepSeek等顶尖模型突破安全限制。这项针对25个主流模型的测试显示，面对「诗歌攻击」，百亿美金堆出来的安全护栏瞬间失效，部分模型的防御成功率直接归零。最讽刺的是，由于小模型「读不懂」诗里的隐喻反而幸免于难，而「有文化」的大模型却因为过度解读而全线破防。如何绕过大语言模型（LLM）的安全限制？学界还在讨论复杂的对抗攻击、梯度优化，结果意大利的一帮老哥（来自罗马大学和DEXAI实验室）告诉我们：别折腾那些代码了，给AI写首诗就行。这篇论文的标题叫《Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models》（对抗性诗歌作为大语言模型的通用单轮越狱机制）。 | 论文地址：https://arxiv.org/abs/2511.15304v1 | | --- | | 咱们都知道，现在的大语言模型为了安全，那是被「对齐」得严严实实。 | | 你直接问它「怎么制造燃烧弹？」，它肯定一脸正气地拒绝你。 | 以前黑客们想绕过这个防 ...

大语言模型安全

Artificial Intelligence

大语言模型安全

Artificial Intelligence