深知风控框架 - 财报，业绩电话会，研报，新闻

深知风控框架

搜索文档

AI安全破局：深知发布智能体专用安全模型，实现对话风险近100%防御，破解AGI应用合规难题

36氪· 2025-11-24 16:21

行业背景与问题 - 生成式人工智能在AI教育、客户服务、文旅推荐、医疗导办、保险咨询等场景的深入应用，使得智能体交互成为社会经济生活的重要环节，但对话风险（如恶意诱导、隐藏条件）正成为行业AI落地中的“致命暗礁”[1] - 2025年8月27日公安部第三研究所的测试显示，国内主流大模型在8类安全维度的不合规率整体分布在28%至51%之间，其中涉黑灰产、谣言和诈骗类不合规率均超过40%，表明通用大模型本身的安全防护能力普遍不足[1] - 安全问题的严重性源于现有防御手段（如敏感词规则防火墙）已跟不上新式AI攻击手段迭代，关键词拦截易漏判误判，而主模型在安全训练时又难以兼顾高概率防范与能力维持，同时监管政策如GB/T45654-2025《生成式人工智能服务安全基本要求》为智能体安全风险控制划定了红线[2] 深知风控框架解决方案概述 - 彩智科技的深知安全团队提出了“深知风控”框架，这是一个基于专有模型的大模型对话安全响应框架，通过“风险精准识别分类+输出权威溯源可解释”的协同设计，以完全不影响智能体模型能力的“防火墙”式保护机制，提供兼顾安全与效率的解决方案[3] - 该框架允许智能体开发者通过接口5分钟快速上手，使原智能体获得近100%的安全风险防御能力[3] - 深知风控框架代表了一种外部化、低耦合的安全防护新范式，旨在通过API调用实现安全服务的“热插拔”，彻底解耦安全与业务逻辑，让教育培训、导游导购、医疗康养、客户服务等行业的大模型与智能体不再为对话安全问题困扰[15] 技术性能与验证 - 在专项测评中，深知风控框架与Qwen3Guard-Gen-8B、TinyR1-Safety-8B等头部安全模型最新版本对比，在风险识别精度、回复严谨性等方面展现出优势[4] - 在公开的中英文安全测试集中，面对欺诈诱导、敏感信息窃取等高风险复杂攻击场景，同类模型的安全评分仅为74%，而深知依托动态可信知识库实现了接近100%的高风险防护率[8] - 相关测试过程、评测标准、测试数据集及实验结果均已公开发表于技术报告与开放平台，评测具备可验证性[8] 输入端风险识别创新 - 深知风控框架打破了传统“非黑即白”的二元风险判定逻辑，建立了“安全（Safe）、不安全（Unsafe）、有条件安全（Conditionally Safe）、重点关注（Focus）”的四分类体系，以进行精准风险识别和针对性处置[9] - 该四分类体系通过典型问题示例明确了各类别的处置方式，例如对“不安全”问题直接拦截，对“有条件安全”问题需进一步查证，对“重点关注”问题需掌握权威材料后再回应[10] 输出端风险应对创新 - 针对识别出的风险问题，深知提供安全代答，输出内容严格符合法规与主流价值观，内容源自覆盖全国337个地级及以上城市法律、政策、行业标准等领域的全量规章知识库，该知识库保持常态化动态日更新，上亿条知识点可溯源，彻底杜绝信息捏造与“幻觉”问题[11] - 提供两种代答模式：积极型（active）适用于电商、旅游、娱乐等场景，进行安全积极的互动交流；稳妥型（conservative）适用于政务、司法等严肃场景，严守安全底线[11] - 模型使用方已在网信、公安等有关部门组织的生成式人工智能安全测评中，取得近100%防护的优异效果[11] 应用价值与市场定位 - 深知提供简洁易用的API接口与多语言调用示例，开发者无需复杂配置即可快速接入并集成到现有业务系统，大幅降低风控开发成本，使开发者能将更多精力投入AI驱动的业务创新[12][16] - 该框架解决了企业大模型安全风控“防不住”和“用不起”的痛点，将复杂的安全技术转化为低门槛、可随时调用的服务，无需企业投入大量资金和人力搭建定制化防护架构，也避免了引起模型核心场景能力下降的风险[16] - 安全已成为智能体进入核心场景的“入场券”和“必需品”，深知框架以技术创新和“安全托底、业务创新”的模式，旨在加速大模型在教育、零售、金融、康养、文旅等各行业的规模化应用[17] - 深知团队在国务院政策答问平台、广东“粤政易”AI智能办公助手等重大人工智能应用项目中积累了丰富经验，如今通过API服务助力智能体从“追求功能炫酷”向“安全实用落地”转型，成为智能体进入核心场景的“新基建”[17]

AI安全

Artificial Intelligence

深知风控框架

AI安全

Artificial Intelligence

深知风控框架