Workflow
TELLME
icon
搜索文档
提升大模型内在透明度:无需外部模块实现高效监控与自发安全增强|上海AI Lab & 上交
量子位· 2025-06-23 12:45
PR-TELLME团队 投稿 量子位 | 公众号 QbitAI 大语言模型(LLM)能力提升引发对潜在风险的担忧,洞察其内部"思维过程"、识别危险信号成AI安全核心挑战。 当前主流用外部"黑盒"监控模块解读模型表征,此类方法如"隔靴搔痒":独立于模型,解读逻辑不透明、结果可信度低,且对数据分布变化敏 感、适应性差,难触推理本质,无法满足监控需求。 上海人工智能实验室 和 上海交通大学的研究团队提出创新解决方案——TELLME (Transparency Enhancement of LLMs without External modules)。 该方法摒弃了复杂的外部监控模块,通过"表征解耦"技术,直接提升大模型自身的内部透明度。 破局新思路:从外部监控转向内在透明 其核心理念是:让模型关于不同行为(尤其是安全与不安全行为)的内部"思维语言"(表征)在空间中清晰分离、泾渭分明。这不仅为模型监 控开辟了更可靠、更简单的途径,还意外地提升了模型输出的安全性。 引入对比学习损失(如InfoNCE Loss)作为核心驱动力。该损失函数促使模型将语义/风险相似的问题表征拉近聚合,同时将不同(尤其是安 全与不安全)问题的 ...
AI编程与果冻三明治难题:真正的瓶颈并不是提示词工程
36氪· 2025-05-08 07:08
AI协作与沟通 - 哈佛CS50课程的果酱三明治实验揭示,计算机执行指令需要极度清晰,模糊指令会导致混乱结果[3][5][6] - 当前大语言模型虽能推测常规任务(如制作三明治),但在陌生领域或创新场景中仍面临理解障碍[7][8] - AI工具的高效性依赖于用户提供明确的产品背景、用户洞察和细节把控,而非单纯依赖提示词技巧[7][8] AI开发实践 - 开发者使用Claude Code、Cursor等工具快速构建了多个AI产品,包括市场预测平台Betsee xyz、传记助手TellMel ai等[1] - 开发效率显著提升,从半年前仅用于代码自动补全到如今深度依赖AI编程[1] - 儿童也能通过Lovable、Replit等工具参与开发,如制作《荒野乱斗》风格打字游戏[1] AI核心竞争力 - 成功运用AI的关键能力是清晰定义目标愿景、精准阐释执行标准,而非依赖提示词技巧或情感诱导[9] - 需持续提供上下文和修正指令,避免AI因模糊输入产生偏离预期的结果[9] - 行业现状显示多数用户倾向于输入模糊指令,导致输出质量低下,类比实验中的"糖浆炸弹"失败品[6][9]