Workflow
多模态评测基准
icon
搜索文档
告别“黑箱竞技”,首个面向信贷场景的多模态评测基准发布
国际金融报· 2026-01-16 16:52
行业核心痛点与挑战 - 信贷AI大模型在深度应用时遭遇痛点 突出表现为对专业场景失焦 更注重通用能力 无法从数百页银行流水中识别隐性负债或可疑关联方交易 缺乏信贷场景适配性[1] - 数据合规问题棘手 风控模型训练数据涉及用户隐私和企业商业机密 无法被共享[1] - 真实生产环境存在突发和个性化问题 例如客户上传的营业执照边缘褶皱或褪色 远程面审时网络延迟和视频压缩导致语音断续和面部模糊 这些实验室被过滤的噪音是线上场景常态 专门针对此类场景的鲁棒性测评缺失[1] - 信贷行业呈现投入大、选型盲和验证难的困境 大量资源被消耗在解决相同的基础问题上[1] 奇富科技解决方案:FCMBench-V1.0评测基准 - 奇富科技联合复旦大学与华南理工大学研究人员发布首个面向信贷场景的多模态评测基准FCMBench-V1.0 旨在解决行业普遍性问题[1] - 该基准基于真实信贷业务场景抽象科学问题 设计多模态评估任务与挑战 以期构建来源于业务、服务于业务的实用性评测体系[1] - FCMBench-V1.0构建了与真实银行审核流程高度一致的评测框架 涵盖18类核心信贷证件 包含4043张合规图像和8446个测试样本 问题覆盖信贷审核全链条[8] - 评测采用创新的"感知—推理—鲁棒性"三维体系 感知维度包含文档类型识别、关键信息提取、图像质量评估三大任务 推理维度涵盖一致性校验、有效性校验、数值计算、合理性审核四类任务 鲁棒性维度设置十类真实采集干扰如倾斜拍摄和光照不均[8] - 数据层面在保证多样性基础上满足合规性要求 数据采集支持单图像和多图像格式 涵盖各类数据类型 以真实材料为基础手动生成信贷相关证件 所有敏感信息均为虚构[8][9] 其他科技公司布局与行动 - 蚂蚁数科联合专业机构推出Finova大模型金融应用评测基准 深度考察智能体能力、复杂推理及安全合规能力 构建了覆盖银行、证券、保险等金融全场景的金融任务分类体系 包括六大类、六十六小类场景[9] - 蚂蚁消金基于通义千问基座训练"消费信贷垂类风控大模型" 将任务拆解为授信、审批、专项优化反欺诈和信用评估等指标[9] - 京东科技依托供应链生态 强化票据、合同、仓单等多模态单据的结构化识别与交叉验证 并针对金融语义进行专项重构[9] 信贷场景价值与未来展望 - 信贷审核涉及几十类证件 每类证件有多种模板 审核流程涉及多个环节和任务 以及多证件交叉推理验证 用户拍摄场景和上传文件多种多样 这些挑战对多模态大模型能力是非常好的试金石[9] - 未来将持续完善评测基准 旨在打磨一把公平、公正、面向实战需求的尺子[9]