WAIC抢先爆料：金融“黑马”大模型超DeepSeek刷新SOTA，论文已上线

WAIC大会与蚂蚁数科金融大模型 - 2024年WAIC大会成为展示中国AI技术进展的重要平台，蚂蚁数科在会前发布金融推理大模型Agentar-Fin-R1的技术论文 [1][3] - 新模型定位为金融领域的专用推理大模型，类比DeepSeek在通用领域的地位，具备SOTA性能表现 [4] - 模型包含8B和32B两个参数版本，在金融评测基准和通用推理基准中均达到顶尖水平 [10][6] 模型技术性能 - 在金融评测集FinEval、Fineva、FinanceIQ和Finova上全面超越开源金融大模型及GPT-o1、DeepSeek-R1等通用大模型 [14] - 32B版本在Finova基准达到69.93分，显著超越同尺寸金融模型Dianjin-R1-32B(56.02分)及超大模型DeepSeek-R1(61.28分) [53] - 在通用推理基准MATH和GPQA中保持竞争力，32B版本取得80.99分的平均成绩 [7] 技术创新与优化 - 构建覆盖银行、证券、保险等全场景的金融任务分类体系，包含意图识别、风险评估等精准定义类别 [21] - 采用千亿级金融专业数据语料，通过可信数据合成和CoT数据精标构建训练数据集 [22] - 创新应用难度感知加权训练框架，采用两阶段训练策略提升效率 [33][34] - 开发Finova新评测基准，包含1350道涵盖智能体能力、复杂推理和安全合规的金融难题 [41][43] 行业应用与优势 - 针对金融行业三大核心挑战：问题复杂性、可信度要求、评测集缺失进行专项优化 [16] - 背靠蚂蚁集团金融数据积累，已服务全部国有股份制银行和超60%城商行 [58] - Agentar品牌已推出超百个金融智能体解决方案，覆盖四大金融领域，提升工作效率80% [60] - 模型设计强调实际业务场景适配能力，支持快速响应金融市场变化 [35]