蚂蚁数科王磊:垂直大模型训练成本呈百倍级下降,金融AI落地需构建“可信智能体”三大基石 | Alpha峰会
华尔街见闻·2025-12-23 18:56

文章核心观点 - 开源基础模型的出现推动行业大模型落地模式从昂贵的预训练转向“后训练”,大幅降低了金融垂类模型的应用门槛,迭代周期从数月缩短至两周,算力需求从“万卡”降至“百卡”,训练成本实现百倍级下降[1] - 在金融等严肃产业落地AI,必须构建“可信智能体”,其三大基石为:叠加行业数据的“金融大模型”作为大脑、补充时效性与私有数据的“金融知识库”作为经验、连接业务系统的“金融工具集”作为双手[3] - 大模型在产业中的应用不仅是一场技术革命,更是一次业务战略的重塑,企业应突破既有工作流程,思考如何利用大模型重塑所有业务流和工作流[3][9][10] AI技术发展历程与产业影响 - AI发展历经关键节点:2012年卷积神经网络在ImageNet大赛中突破,推动了图像识别技术的广泛应用;同年支付宝推出二维码支付,其效率提升得益于AI技术;2016年AlphaGo证明AI在复杂决策领域可超越人类[13] - 决策模型已广泛应用于普惠金融产品(如余额宝、花呗、借呗、网商贷),用于快速识别授信额度、放款时长、真实需求与欺诈风险[14] - 2022年ChatGPT发布开启“大模型”时代,其核心价值在于自然语言理解的革命性突破,极大地降低了人机交互门槛,将引发影响未来五至二十年的产业革命[14] 金融垂类大模型落地的新范式与优势 - DeepSeek等开源模型的出现改变了产业格局,使行业重心从基础模型研发转向应用落地[4] - 产业界找到有效落地路径:在开源基础模型(如DeepSeek、通义千问、蚂蚁百灵)上叠加垂直领域专业数据进行后训练,无需再堆砌海量算力与人力或重训模型[4][15] - 新模式将金融垂类模型的迭代周期从三至六个月缩短至一个月甚至两周,算力需求从依赖万卡集群降至仅需百卡规模,实现了两个数量级的缩减[1][7][15] 金融行业落地AI的核心要求与“可信智能体”构建 - 金融行业落地AI必须关注三大核心特征:严谨性(对抗幻觉)、专业性(对齐专家)、遵从性(合规底线)[3][8][17] - 大模型无法完全避免幻觉,甚至可能随推理能力提升而增强,因此构建一套压制幻觉的体系和方法论是垂直行业应用的第一要务[3][5][17] - “可信智能体”的构建依赖三大基石:金融大模型(具备通用与金融专业知识的“大脑”)、金融知识库(补充高时效性数据及私有知识的“经验”)、金融工具集(连接内部系统API的“双手”)[3][20][21][22] 金融大模型的训练方法论与持续迭代 - 采用两阶段训练方法,核心在于数据的理解与治理,需将通用数据(数学、历史等)与金融数据合理配比,以在提升金融能力的同时不降低通用能力[23] - 模型训练需设定安全围栏,将安全领域知识融入训练,确保智能体知晓业务底线[23] - 智能体的构建并非一次性软件交付,而是一个持续培养与迭代优化的过程,需从评测入手,通过分析错题来持续改进[6][23] 金融行业落地大模型的具体痛点 - 金融行业落地大模型存在六大痛点:算力有限、数据不足且质量不高、模型迭代太快、知识经验沉淀不足、缺乏应用落地方法论以及人才短缺[16]