Workflow
意图识别
icon
搜索文档
解读千问App接入阿里生态
2026-01-16 10:53
涉及的行业与公司 * **公司**:阿里巴巴集团及其旗下产品,包括千问APP、阿里插件系统、闪购、飞猪、支付宝[1][2][5] * **行业**:人工智能、大模型应用、生成式AI、电商与本地生活服务[1][2] 核心产品形态与业务模式 * 千问APP通过意图识别技术接入阿里生态,作为智能Agent整合阿里各项服务能力,用户可通过文字或语音输入完成点外卖等复杂任务[1][2] * 产品形态变化的核心是千问作为大脑中枢,通过调用插件系统(如闪购API)完成订单处理、支付授权与配送等环节,实现C端应用落地[2][5] * 这种模式拓展了生成式AI在C端的落地场景,并带来了AI原生收入规模的扩增[2] 核心技术架构与模型 * 核心大脑是千问三Max模型,为万亿参数(约1万亿)的MOE结构大规模闭源模型[1][2] * 阿里同时开源了较小的模型,如235B(2,350亿参数)和220亿激活参数的模型,但最强大的万亿参数模型未开源[2] * 大模型在业务中的核心作用是意图识别和任务拆解,具体数据检索则由各工具(如闪购、飞猪)内部使用传统搜索引擎技术完成,无需调用万亿级参数模型[1][6][8][9] * 复杂Agent任务对模型的关键能力要求包括:意图识别准确率、任务拆解能力、调用工具执行和综合推理能力,以及处理长文本和长上下文的能力[1][10][12] 算力需求、成本与推理方案 * 大模型推理的计算消耗主要体现在模型调用和数据处理上[1][7] * 不同任务消耗的Token差异巨大:普通聊天约一两百Token,点餐任务几千到三万Token,全家出行旅游规划需几万Token,处理大量表格生成报告可能上升到几十万Token[13] * 执行一个复杂文档性任务,若使用万亿参数模型,成本大约在几块钱级别[3][13] * 当前国内主流万亿参数推理模型主要依赖英伟达显卡(如H100、A100),但受禁售政策影响,存量卡为主[14] * 从2025年开始,新增算力卡约50%来自华为升腾,阿里更多与寒武纪合作,并测试其他国产算力芯片如沐曦、天枢之星等,同时有部分自研PPU芯片应用[15] * 2026年预计国产芯片品类将更多,同时需关注英伟达H200芯片能否进入国内市场[15] 成本优化与模型演进路径 * 短期内(半年至一年)仍需使用万亿参数的大规模推理模型服务C端用户,因其需求多样复杂[3][17] * 未来有望通过优化算法及硬件,开发出相对小尺寸但高效能的替代方案,在特定场景逐步减少对大型模型的依赖[3][17] * 阿里选择使用上千亿参数大模型(如235B)服务C端,主因是C端需求覆盖几千甚至几万种不同类型问题,需要最先进的模型以提供卓越体验和市场竞争优势[18] * 企业级应用因任务相对固定明确,通常不需要如此庞大的模型,较小参数模型已足够[19] * 随着技术成熟和用户体量增加,未来可能引入小参数模型处理部分C端问题以降低成本,但短期内仍优先使用大型模型以确保体验和抢占市场[20][21] 性能要求与任务挑战 * 千问APP作为Agent的核心性能要求包括:意图识别准确率、任务拆解能力、数据处理能力、长上下文处理能力[10] * 表格处理类任务因涉及大量文本和数学数据,需要高精度数据处理和推理,导致Token消耗量巨大[3][16] * 大模型在数学运算部分需要大量数据进行推理以确保结果精准,进一步增加了资源消耗[16] 业务协同与数据打通现状 * 在具体业务交互中(如点外卖),闪购等平台需专门优化服务端接口以支持千问团队实现快速响应[7] * 红包预算归属方面,推测由千问承担部分预算,闪购负责具体业务能力[22] * 目前数据尚未完全打通,例如非标品(如散装水果)购买需跳转到淘宝闪购处理,系统处于1.0版本不断测试完善阶段[22] * 数据未完全打通主要是出于产品策略考虑,为控制交付率和确保用户体验而有序逐步扩大开放范围,并非因为技术卡点[23]
AI重构财务,我们离“无需报销”还有多远?丨ToB产业观察 | 巴伦精选
钛媒体APP· 2025-10-17 10:41
AI在财务领域的应用现状 - AI浪潮从消费端向产业端渗透,企业财务领域步入变革周期,但早期未实现大规模应用,近一年因成本下降才开始真正落地[2] - 财务领域以严谨性和确定性为核心诉求,大模型的幻觉和可解释性问题仍是主要挑战,德勤AI报告引用虚构文献事件引发关注[2] - 当前阶段代表AI在财务领域应用走深,处于真正智能决策的前夜[3] 成本下降驱动应用落地 - DeepSeek问世成为关键转折点,将AI审核单张小票成本从9-10元大幅降低至6-7毛钱,远低于人工审核的1-2元成本[4] - 成本下降使AI小票识别真正具备性价比优势,推动AI+财务应用落地[4] - 企业能以更低成本获取高性能AI能力,且在合法合规情况下使用,为AI+财务实现提供支持[5] 具体应用场景与能力提升 - AI已实现多场景赋能,包括票据审核、小语种小票识别等,支持全语言小票识别能力[7][8] - 国内费控厂商基本处于L3-L4阶段,L4向L5迈进的关键是AI能力植入[8] - AI实现三大赋能:意图识别实现从人工填表到自然交互的跨越,动态决策基于多维度数据生成最优方案,人机协同重构工作流程[8][9] 组织变革与岗位重构 - AI推动财务岗位从单一技能操作者转变为决策者,重复性工作被AI接管,人员只需查看AI生成的红绿灯结果[9] - 催生财务产品经理等新岗位,不再执行流程而是定义财务价值,设计费用管控策略[10] - 组织进化中不需要全员成为技术专家,但需具备AI协同能力,懂业务比懂AI更重要[11] 技术挑战与解决方案 - 幻觉问题是最大挑战,主要来自数据不及时、网络信息不真实、数据分布不均衡三方面[11][12][13] - 解决方案包括确保训练数据与业务数据时效性、构建可信知识库、通过badcase迭代处理小概率偏差[12][13] - AI识别票据准确率达96%,但仍面临认知信任问题,需要通过白皮书和案例分享提升接受度[14] 组织阻力与变革要求 - 组织架构固化是主要阻力,必须重构组织分工才能让AI发挥价值[14] - 财务共享中心的总经理制是有效模式,让共享中心成为独立核算单元,有权决定AI应用方式[15] - 智能费控本质已从提升效率工具转变为辅助决策伙伴[15]
泛化性暴涨47%!首个意图检测奖励范式,AI工具爆炸时代意图识别新解法
机器之心· 2025-05-16 12:39
核心观点 - 大模型(LLMs)的快速发展和工具集成爆炸式增长使AI智能助手功能大幅扩展,但工具多样化和复杂化导致意图识别面临新挑战,尤其是模型在新意图上的性能衰减问题 [1] - 腾讯PCG社交线研究团队采用强化学习(RL)结合分组相对策略优化(GRPO)算法和基于奖励的课程采样(RCS),显著提升模型在未知意图上的泛化能力 [2] - 该方法在跨语言、意图拆分/合并等实际场景中表现优于传统监督微调(SFT),推动大模型意图识别技术突破 [4][17] 技术方法 GRPO算法创新 - 通过强化学习训练的模型在未见意图识别准确率上比SFT平均提升7.5%(TODAssistant数据集从41.6%至89.1%)[17][18] - 引入"思考"(Thought)机制使MultiWOZ2.2数据集准确率从76.1%提升至93.3% [20][21] - 格式奖励($R_{format}$)和准确率奖励($R_{answer}$)双维度约束模型输出 [7][9][10] 基于奖励的课程采样 - 两阶段训练:第一阶段全数据训练至收敛,第二阶段筛选30%难样例专注训练 [11][12] - 难样例单独训练效果最佳,在MultiWOZ2.2数据集使准确率从93.3%提升至96.0% [19][20] - 离线难度评分公式:$Score_i = \sum(\lambda_{format}·R_{format}^{i,j} + \lambda_{answer}·R_{answer}^{i,j})$ [11] 实验验证 数据集与基准 - 使用TODAssistant(中文)和MultiWOZ2.2(英文)数据集,基座模型为Qwen2.5-7B-Instruct [16] - GRPO在跨语言测试中,英文训练后中文识别准确率达65.2%,远超SFT的14.8% [17][18] 关键结果 - 在MultiWOZ2.2的5类场景中,GRPO对缺失类别的平均识别准确率(91.8%)比SFT(76.9%)高14.9个百分点 [17] - Pretrain与Instruct模型经GRPO训练后性能差异小于1.5%,打破传统认知 [21][22] - RCS使酒店场景识别准确率从94.6%提升至96.4% [19][20] 应用前景 - 当前方案支持单意图场景,未来将扩展至多意图识别 [25] - 计划从意图识别延伸至更复杂的任务型对话系统 [26] - 拟开发在线数据筛选方法替代现有离线模式 [24]