Finova评测基准
搜索文档
蚂蚁数科发布金融推理大模型 深入行业应用深水区
搜狐财经· 2025-07-30 17:38
文章核心观点 - 蚂蚁数科推出国内首个专注金融推理的商业化大模型及开源数据集 被视为中国产业AI向高价值场景攻坚的关键突破 [1] - 公司通过聚焦垂直赛道 以推理能力+安全合规为核心 构建“金融脑” 旨在解决金融AI在核心业务场景渗透率低的行业痛点 [6] - 金融AI正从技术探索期进入业务重构期 未来将围绕推理模型普及、多智能体协作、成本民主化三大主线发展 [9] 行业痛点与挑战 - 金融AI存在“渗透率悖论” 全球金融机构对AI投入持续加码 但核心业务场景渗透率仍处低位 [2] - 花旗银行调研显示 93%的金融机构预计AI将在未来五年内提高利润 预计到2028年AI可将银行业利润提高9% 即1700亿美元 [2] - 在营销、风控及销售等业务深水区 智能体应用渗透率较低 根本矛盾在于金融场景的专业严苛性要求与技术尚不成熟 [4] - 金融业务极其复杂 如银行零售业务包含十多个大场景、上百个细分场景 需要极高的领域专业知识和高质量数据支持 [4] - 大模型的训练、部署和推理成本高昂 硬件投入大 推理效率相对较低 对经济可行性存在疑问 [4] 蚂蚁数科的解决方案 - 公司发展路线是专注金融与能源两大高价值赛道 不做通用大模型 而是“用垂直深度构建护城河” [6] - 发布的金融大模型专注金融场景的复杂推理需求 通过两阶段训练(通用基座+金融场景微调)提升专业表现 [6] - 自建DeepFinance金融思维链数据集 由金融专家标注 覆盖存款、信贷、投资等14大场景、上百细分任务 [6] - 大模型集成“蚁天鉴”安全评测层 确保输出符合金融级审慎要求 抑制幻觉并满足合规 [6] - 同步开源包含1350道金融难题的Finova评测基准及百万级DeepFinance训练数据集 推动行业共建 降低金融AI落地门槛 [1][6] 未来发展趋势 - AI应用正从“通用场景试验”逐步向“核心业务重构”推进 金融推理模型是“智能体的中枢齿轮” [6] - 金融智能体的终局是AI组织驱动业务 推理大模型正推动AI从“工具”升级为“决策者” [8] - 短期智能体渗透营销、风控等深水区替代基础决策 长期多智能体协作成常态 [8] - 未来三年将围绕推理模型普及、多智能体协作、成本民主化三大主线爆发 [9] - 未来竞争核心是合规与责任 公司平台内置“监管围栏”自动过滤不合规输出 行业需明确AI错误的责任归属问题 [9]