大语言模型安全 - 财报，业绩电话会，研报，新闻

大语言模型安全

搜索文档

36氪· 2025-11-26 11:34

最新研究发现，只要把恶意指令写成一首诗，就能让Gemini和DeepSeek等顶尖模型突破安全限制。这项针对25个主流模型的测试显示，面对「诗歌攻击」，百亿美金堆出来的安全护栏瞬间失效，部分模型的防御成功率直接归零。最讽刺的是，由于小模型「读不懂」诗里的隐喻反而幸免于难，而「有文化」的大模型却因为过度解读而全线破防。如何绕过大语言模型（LLM）的安全限制？学界还在讨论复杂的对抗攻击、梯度优化，结果意大利的一帮老哥（来自罗马大学和DEXAI实验室）告诉我们：别折腾那些代码了，给AI写首诗就行。这篇论文的标题叫《Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models》（对抗性诗歌作为大语言模型的通用单轮越狱机制）。 | 论文地址：https://arxiv.org/abs/2511.15304v1 | | --- | | 咱们都知道，现在的大语言模型为了安全，那是被「对齐」得严严实实。 | | 你直接问它「怎么制造燃烧弹？」，它肯定一脸正气地拒绝你。 | 以前黑客们想绕过这个防 ...

大语言模型安全

诗歌攻击

Artificial Intelligence

Artificial Intelligence

DeepSeek

GPT-5

Claude 4.5

ACL 2025主会论文 | TRIDENT：基于三维多样化红队数据合成的LLM安全增强方法

机器之心· 2025-07-31 16:58

大语言模型安全对齐研究核心观点 - 当前大语言模型安全对齐存在三大问题：意图类别失衡、越狱策略缺失、构造成本高[14] - TRIDENT框架首次提出词汇-恶意意图-越狱策略三维多样化方案，显著提升模型安全性与对抗鲁棒性[2][9] - 该方法在7个安全基准测试中表现最优，Harm Score降低14.29%，攻击成功率下降20%[13][20] 技术方案数据生成 - 采用persona-based + zero-shot自动生成范式，覆盖14类高风险领域[12] - 产出两套数据集：TRIDENT-CORE（26,311条）和TRIDENT-EDGE（18,773条）[9] - 注入六大越狱策略：密码编码、代码注入、低资源翻译等，攻击穿透力提升25%[15][21] 流程设计 - 三级生成架构：场景→人格→指令，配合两阶段过滤（安全判别+文本去重）[13][16] - 安全回复采用链式思考模板，分三步生成合规响应[17] - 端到端自动化管线无需人工干预，成本仅为传统方法的1/10[5][19] 性能验证基准对比 - 在HarmBench等测试中，TRIDENT-EDGE的Harm Score（1.64）和攻击成功率（0.02）均为最低[20][22] - 相比WILDBREAK等基线数据集，Helpful Rate保持持平或更优[20] 消融实验 - 移除任一维度都会导致安全指标恶化，越狱策略缺失时攻击成功率上升11.3%[21] - 在Llama-3等主流模型测试中，多策略组合攻击成功率最高提升25%[21] 行业价值 - 首次实现三维度风险覆盖评估，可作为RLHF/DPO训练的标准输入[24] - 开源数据集降低安全研究门槛，支持持续迭代以适应新型威胁[25] - 框架已应用于蚂蚁集团等企业，加速可信AI落地[4][24]

大语言模型安全

红队数据自动化构建

Artificial Intelligence

TRIDENT

大语言模型安全

红队数据自动化构建

Artificial Intelligence

TRIDENT