AI Safety

搜索文档
提升大模型内在透明度:无需外部模块实现高效监控与自发安全增强|上海AI Lab & 上交
量子位· 2025-06-23 12:45
PR-TELLME团队 投稿 量子位 | 公众号 QbitAI 大语言模型(LLM)能力提升引发对潜在风险的担忧,洞察其内部"思维过程"、识别危险信号成AI安全核心挑战。 当前主流用外部"黑盒"监控模块解读模型表征,此类方法如"隔靴搔痒":独立于模型,解读逻辑不透明、结果可信度低,且对数据分布变化敏 感、适应性差,难触推理本质,无法满足监控需求。 上海人工智能实验室 和 上海交通大学的研究团队提出创新解决方案——TELLME (Transparency Enhancement of LLMs without External modules)。 该方法摒弃了复杂的外部监控模块,通过"表征解耦"技术,直接提升大模型自身的内部透明度。 破局新思路:从外部监控转向内在透明 其核心理念是:让模型关于不同行为(尤其是安全与不安全行为)的内部"思维语言"(表征)在空间中清晰分离、泾渭分明。这不仅为模型监 控开辟了更可靠、更简单的途径,还意外地提升了模型输出的安全性。 引入对比学习损失(如InfoNCE Loss)作为核心驱动力。该损失函数促使模型将语义/风险相似的问题表征拉近聚合,同时将不同(尤其是安 全与不安全)问题的 ...
图灵奖得主Bengio再创业:启动资金就筹集了3000万美元
量子位· 2025-06-04 15:04
西风 发自 凹非寺 量子位 | 公众号 QbitAI 目前LawZero已通过多家慈善捐赠方筹集到了 3000万美元启动资金 。 具体来说,LawZero要做" 设计 即安 全 (safe-by-design)"的AI系统,要"将安全性置于商业利益之上"。 所要做的AI系统非Agent形态,而可以监督Agent: 它 以理解学习世 界为核心目标, 而非在世界中采取行动 ,通过透明化外部推理,对问题提供可验证的真实答案,"可用于加速科学发现、为 Agent型AI系统提供监督,并深化大家对AI风险及其规避方法的理解"。 Bengio表示,当前AI系统已显现出自我保护和欺骗行为的迹象,随着其能力和自主性的提升,这种趋势只会加速,LawZero是他们针对这些 挑战所给出的建设性回应。 经常有人问我,对AI的未来是乐观还是悲观?我的回答始终是:It doesn't matter (无关紧要) 。 唯一重要的是,我们每个人都能采取行动,推动AI向更好的方向发展。 刚刚,深度学习三巨头之一、图灵奖得主 Yoshua Bengio 官宣再次创业 —— 成立 非营利组织LawZero ,要构建下一代AI系统,而且 明确不做Ag ...