检索增强技术
搜索文档
东航数科自主研发智能问答系统并投入试运行
中国民航网· 2026-02-27 16:20
文章核心观点 - 东航数科公司自主研发的智能问答系统(AskData)已完成3期迭代优化并进入试运行阶段,该系统旨在通过大模型与检索增强技术,为非技术人员提供快速、精准的数据查询与可视化服务,以提升航空业的数据服务效率并降低运营成本 [1][2] 技术架构与性能 - 系统依托大模型集成调度框架与检索增强技术,构建了面向航空业的专属语义解析引擎与高精度知识库 [1] - 系统实现了从自然语言输入到数据可视化输出的全流程自动化 [1] - 常规数据查询响应时间缩短至3秒以内,查询结果精准率超过98% [1] 行业适用性与知识库 - 系统深度贴合航空业实际业务需求,内置超过2000个专业术语词库与500余组同义词映射关系 [1] - 系统全面覆盖营销、运行、服务等87个核心业务场景,能够精准识别并解析如“客座率”、“春运数据对比”等专业表达 [1] 业务应用场景与价值 - 在营销端,系统整合企业核心经营数据,支持航线收益分析与市场策略制定,助力提升航线营收转化效率 [1] - 在运行端,系统可实时梳理飞机利用率、航线准点率等关键指标,为运力调配与航班排班提供数据支撑 [1] - 在服务端,系统聚焦地面保障、投诉反馈、会员服务等多维数据,推动服务流程精细化与响应敏捷性,全面提升航班配套服务水平 [1] - 系统能自动化处理海量重复数据查询请求,替代传统人工统计、报表制作流程及相关维护工作,减少低效工时消耗,更有效释放人力价值 [2] 运营效益 - 系统实现了数据服务效率提升与运营成本压降的双重优化 [2]
智源3款向量模型发布!代码检索及多模态维度刷新多项SOTA
量子位· 2025-05-20 13:12
检索增强技术发展 - 检索增强技术在代码及多模态场景中发挥重要作用,向量模型是检索增强体系的重要组成部分 [1] - 检索增强技术正从传统文本场景拓展至代码与视觉等多模态数据应用 [3] - 现有向量模型在代码和视觉模态中的检索效果仍有提升空间 [3] 智源研究院新模型发布 - 智源研究院联合多所高校研发三款向量模型:BGE-Code-v1、BGE-VL-v1.5、BGE-VL-Screenshot [2] - 三款模型在CoIR、Code-RAG、MMEB、MVRB等主要测试基准取得最佳效果 [2] - BGE系列模型已累计下载超6亿次,被国内外多家AI企业集成 [3] - 三款新模型已向社区全面开放,为技术研究与产业应用提供支持 [3] BGE-Code-v1代码向量模型 - 以Qwen2.5-Coder-1.5B为基座打造的新一代代码向量模型 [8] - 基于CoIR训练集和大量高质量代码-文本合成数据训练 [8] - 在CoIR和CodeRAG-Bench基准上超越谷歌、Voyage AI等商业/开源模型 [10] - 适用于开发文档搜索、代码库语义检索、跨语言信息获取等场景 [8] BGE-VL-v1.5多模态检索模型 - 基于LLaVA-1.6(7.57B参数)训练的新一代通用多模态检索模型 [12] - 使用300万图文对齐数据加100万条自然与合成数据进行多任务训练 [12] - 在MMEB基准中刷新zero-shot模型最佳表现,微调版本以72.16分登顶SOTA [14] - 适用于图文匹配、多模态问答、跨模态推荐等场景 [12] BGE-VL-Screenshot视觉化文档向量模型 - 基于Qwen2.5-VL-3B-Instruct训练 [16] - 使用1300万张截图和700万组标注截图问答样本进行训练 [16] - 在多模态检索基准MVRB四项任务中以60.61综合得分达到SOTA [16] - 实现了在多语言任务上的出色表现 [16] 行业影响与未来展望 - BGE自2023年8月发布以来成为中国首个登顶Hugging Face榜首的国产AI模型 [2] - BGE系列模型凭借高性能与开源特性备受业界关注 [3] - 智源研究院将继续深耕向量模型与检索增强技术,提升模型能力与通用性 [17]
代码、多模态检索全面登顶SOTA!智源BGE向量模型三连击,并全面开放
机器之心· 2025-05-20 12:58
向量模型技术突破 - 智源研究院联合多所高校研发三款向量模型BGE-Code-v1、BGE-VL-v1.5和BGE-VL-Screenshot,在代码及多模态检索领域取得最佳效果,并以较大优势登顶CoIR、Code-RAG、MMEB、MVRB等测试基准 [1] - BGE系列自2023年8月发布以来成为中国首个登顶Hugging Face榜首的国产AI模型,并成为2023年全球下载量冠军 [1] - 三款新模型已向社区全面开放,为技术研究与产业应用提供支持 [1] BGE系列模型概况 - BGE系列旨在为各类数据提供高效一站式向量表征与语义检索方案,已推出覆盖中英文、多语言检索及重排模型等多个版本 [2] - BGE凭借高性能与开源特性备受关注,已广泛应用于RAG、神经搜索等场景,累计下载超6亿次,被国内外多家AI企业集成 [2] - 检索增强技术正从传统文本场景拓展至代码与视觉等多模态数据应用 [2] BGE-Code-v1代码向量模型 - BGE-Code-v1是以Qwen2.5-Coder-1.5B为基座打造的新一代代码向量模型,专为代码检索任务设计,同时具备多语言文本理解能力 [7] - 模型基于CoIR训练集和大量高质量代码-文本合成数据进行训练,使用课程学习进一步提升理解能力 [7] - 在CoIR和CodeRAG-Bench基准上以显著优势超越谷歌、Voyage AI等商业/开源模型,登顶SOTA [9] BGE-VL-v1.5多模态模型 - BGE-VL-v1.5基于LLaVA-1.6(7.57B参数)训练,全面升级图文理解能力 [11] - 在300万图文对齐数据基础上收集100万条自然与合成数据进行多任务训练,显著提升泛化性与理解能力 [11] - 在MMEB基准中刷新zero-shot模型最佳表现,微调版本以72.16分登顶SOTA [13] BGE-VL-Screenshot视觉化文档模型 - 针对"可视化信息检索"(Vis-IR)任务设计,基于Qwen2.5-VL-3B-Instruct训练 [16] - 收集超过1300万张截图和700万组标注截图问答样本进行训练 [16] - 在MVRB基准4项任务中以60.61综合得分达到SOTA,并在多语言任务上表现优异 [17]