大模型可靠性

搜索文档
财经观察丨从WAIC上一场“幻觉”思辨看AI应用新范式
齐鲁晚报· 2025-07-28 11:30
大模型专业化应用的可靠性挑战 - 当前大模型技术SOTA水平达到80%-90%,但可靠性仍显著低于医疗、工业、金融等专业场景要求 [1] - 幻觉问题被强调为智力的必然代价,完全消除幻觉会导致大模型退化为机械检索工具 [1][4] - 可靠性突破方向在于构建工程化保障框架而非消灭智力特征 [1][4] 蚂蚁密算HOP技术框架 - 蚂蚁集团开源高阶程序(HOP)大模型可信应用技术框架 [2] - HOP框架通过程序表达、场景知识嵌入和闭环核验反馈机制转化大模型输出为可信生产力 [2] - 该框架已在金融风控、医疗计费场景验证效果,采用工程化思维融合专家经验与多重核验 [2] 金融风控领域应用案例 - 传统金融风控高度依赖人工导致流程冗长、响应缓慢且易受主观影响 [3] - HOP技术将SOP转化为可执行流程代码,实现风控全链路智能化编排与自动化执行 [3] - 相比传统建模,大模型+HOP能在保持高精度同时缩短建模周期并减少重复性工作 [3] 行业AI应用架构类比 - 大模型被类比为新能源车的电机系统(通用智力引擎) [4] - 高阶程序承担电控系统角色,数据相当于电池部分 [4] - 未来行业AI应用核心由数据、智能模型和高阶程序三大要素构成 [4] 对幻觉的重新认知 - 模型幻觉被视为人工智能系统智能水平发展到一定高度的产物 [4] - 人类智能中非逻辑性跳跃思维(类似幻觉)曾推动文明进步(如元素周期表发现) [4] - 产业端应避免将智能化与工程化对立,需采用智能化叠加工程化的解决方案 [4]
瞄准可靠性难题,全国首个高阶程序大模型可信框架开源
北京日报客户端· 2025-07-27 17:34
蚂蚁密算开源高阶程序大模型可信应用技术框架 - 公司宣布对外开源全国首个高阶程序大模型可信应用技术框架 旨在解决大模型在专业应用中的可靠性困境并加速规模化应用 [1] - 开源框架借鉴人类工程管理体系经验 通过标准作业程序和检查清单等机制构建可复用、验证、扩展和派生的机制 [2] - 该框架已在金融风控全链路、网络入侵检测、医疗重复计费等多行业场景中初步应用 可靠性和时效性有显著提升 [2] 大模型专业化应用的可靠性挑战 - 当前最顶尖技术水平的大模型准确率可达80%到90% 但可靠性仍无法满足医疗、工业、金融等专业场景要求 [1] - 可靠性问题不能简单归结为"幻觉" 完全消除"幻觉"会导致大模型退化为机械检索工具 [1] - 突破方向在于构建工程化保障框架而非消灭智力特征 需要智能体系与工程体系结合 [1][2] 高阶程序技术框架的创新价值 - 通过程序表达、场景知识嵌入和闭环核验反馈机制 将大模型不确定的智力输出转化为可信专业生产力 [2] - 框架可实现通用智力引擎与专业场景的强互补 使大模型即使出现幻觉问题也能保证专业所需的精确性 [2][3] - 该技术突破有望推动大模型领域涌现新的杀手级应用 [3] 行业专家观点 - 浙江大学教授陈纯指出 大模型专业化应用的首要挑战是可靠性问题 需要工程化解决方案 [1] - 蚂蚁密算董事长韦韬认为 应借鉴人类在易错个体基础上构建可靠工程体系的历史经验 [2] - 专家共识认为可靠性突破关键在于工程化与智能化的融合 而非追求大模型本身的完美 [1][2][3]