多模态评测基准 - 财报，业绩电话会，研报，新闻

多模态评测基准

搜索文档

国际金融报· 2026-01-16 16:52

行业核心痛点与挑战 - 信贷AI大模型在深度应用时遭遇痛点突出表现为对专业场景失焦更注重通用能力无法从数百页银行流水中识别隐性负债或可疑关联方交易缺乏信贷场景适配性[1] - 数据合规问题棘手风控模型训练数据涉及用户隐私和企业商业机密无法被共享[1] - 真实生产环境存在突发和个性化问题例如客户上传的营业执照边缘褶皱或褪色远程面审时网络延迟和视频压缩导致语音断续和面部模糊这些实验室被过滤的噪音是线上场景常态专门针对此类场景的鲁棒性测评缺失[1] - 信贷行业呈现投入大、选型盲和验证难的困境大量资源被消耗在解决相同的基础问题上[1] 奇富科技解决方案：FCMBench-V1.0评测基准 - 奇富科技联合复旦大学与华南理工大学研究人员发布首个面向信贷场景的多模态评测基准FCMBench-V1.0 旨在解决行业普遍性问题[1] - 该基准基于真实信贷业务场景抽象科学问题设计多模态评估任务与挑战以期构建来源于业务、服务于业务的实用性评测体系[1] - FCMBench-V1.0构建了与真实银行审核流程高度一致的评测框架涵盖18类核心信贷证件包含4043张合规图像和8446个测试样本问题覆盖信贷审核全链条[8] - 评测采用创新的"感知—推理—鲁棒性"三维体系感知维度包含文档类型识别、关键信息提取、图像质量评估三大任务推理维度涵盖一致性校验、有效性校验、数值计算、合理性审核四类任务鲁棒性维度设置十类真实采集干扰如倾斜拍摄和光照不均[8] - 数据层面在保证多样性基础上满足合规性要求数据采集支持单图像和多图像格式涵盖各类数据类型以真实材料为基础手动生成信贷相关证件所有敏感信息均为虚构[8][9] 其他科技公司布局与行动 - 蚂蚁数科联合专业机构推出Finova大模型金融应用评测基准深度考察智能体能力、复杂推理及安全合规能力构建了覆盖银行、证券、保险等金融全场景的金融任务分类体系包括六大类、六十六小类场景[9] - 蚂蚁消金基于通义千问基座训练"消费信贷垂类风控大模型" 将任务拆解为授信、审批、专项优化反欺诈和信用评估等指标[9] - 京东科技依托供应链生态强化票据、合同、仓单等多模态单据的结构化识别与交叉验证并针对金融语义进行专项重构[9] 信贷场景价值与未来展望 - 信贷审核涉及几十类证件每类证件有多种模板审核流程涉及多个环节和任务以及多证件交叉推理验证用户拍摄场景和上传文件多种多样这些挑战对多模态大模型能力是非常好的试金石[9] - 未来将持续完善评测基准旨在打磨一把公平、公正、面向实战需求的尺子[9]