Workflow
检索增强生成(RAG)
icon
搜索文档
Multi-Agent 协作兴起,RAG 注定只是过渡方案?
机器之心· 2025-07-19 09:31
从 RAG 检索增强到多层级状态演化,AI memory 系统崛起 - AI memory 系统正从短期响应向长期交互演进,为智能体注入持续经验能力 [2] - MemoryOS 采用层次化存储架构,将对话 memory 分为短期、中期和长期三层,通过 FIFO 和分段分页机制实现动态迁移 [2] - MemGPT 借鉴操作系统思想,将固定长度上下文视为主内存,通过函数调用在主上下文和外部存储间分页调度,支持大文档分析和多轮会话 [2] - ChatGPT Memory 采用检索增强生成(RAG)方式,通过向量索引检索用户相关信息并注入模型输入,实现对用户偏好和历史信息的记忆 [2] - RAG 侧重外部知识库检索和静态知识注入,依赖向量索引 [2] - AI Memory 注重状态持续性,需维护多层级 memory 架构并管理时序与优先级,结合删除或压缩机制调度有限资源 [3] - RAG 与 Memory 可互补,RAG 增强知识性,Memory 固化对话经验和连贯性 [3] 从模态融合到隐私权限,AI memory 正面临哪些挑战 - AI memory 系统面临静态存储无法演化、多模态多 Agent 协同混乱、检索扩容冲突等技术挑战 [4] - 需解决层级和状态过滤缺失、企业级多任务权限控制、隐私可控性弱等问题 [4] - 挑战驱动 memory 系统向更智能、更安全、更高效方向演进 [4]
为什么2025成了Agent落地元年?
虎嗅APP· 2025-07-18 18:20
行业趋势与格局演变 - 2023年生成式AI领域呈现"百模大战"格局,融资和刷榜是主要特征,但2024年市场迅速收敛至少数玩家的资本与技术持久战 [2] - 行业关注点从模型性能转向落地价值,核心命题转变为如何将大模型能力转化为业务生产力 [2] - Agent成为大模型落地的关键解决方案,AWS将其作为推动千行百业业务重构的核心技术 [3][4] Agent技术崛起驱动因素 - 大模型发布会普遍强调工具调用能力指标,如Kimi K2、Grok 4、Minimax M2和OpenAI最新ChatGPT Agent均聚焦多工具集成 [6] - Agentic AI爆发两大原因:Agent编排框架成熟(CrewAI/LangGraph/LlamaIndex)和标准化协议出现(MCP/A2A) [10] - LangChain调查显示超50%公司已部署Agent,80%正在研发;Gartner预测2028年33%企业软件将采用Agentic AI [10] AWS Agent解决方案架构 - Amazon Bedrock AgentCore提供七大模块降低构建门槛:Runtime(无服务器环境)、Memory(记忆系统)、Observability(可观测性)、Identity(身份管理)、Gateway(网关服务)、Browser(浏览器功能)、Code Interpreter(代码解释器) [15][16][17][18] - 解决方案支持按需组合使用,兼容主流AI框架与协议(MCP/A2A),内置企业级安全管控 [19] - 针对企业级需求推出S3 Vectors向量数据库(成本降低90%)、Amazon Nova模型定制功能、AI IDE产品Kiro(规范驱动开发/智能代理钩子) [22][25][26] 技术落地与商业化进展 - AWS Marketplace已上架上百种AI Agents & Tools,支持自然语言搜索直接部署 [11] - 当前Agent供需存在缺口,通用性Agent难以解决行业独特问题,需解决六大核心挑战:安全扩展、记忆系统、权限细化、复杂工作流工具、资源发现、交互追溯 [12] - S3 Vectors创新性实现冷热数据分层存储(低频存S3/高频存OpenSearch),支持10,000索引/数千万向量规模 [23][24] 行业变革特征 - 本轮AI浪潮区别于历史的关键在于:模型通用能力+基础设施成熟度(框架/数据库/接口/工具链)推动Agent从概念验证走向规模化落地 [29] - 技术革命本质体现为通过AWS等平台降低定制化门槛,使Agent成为各行业企业的专属解决方案 [30]
1万tokens是检验长文本的新基准,超过后18款大模型集体失智
量子位· 2025-07-17 10:43
大模型长上下文性能研究 核心发现 - 主流大模型在输入长度增至1万tokens时准确率普遍降至50%,且性能衰减呈非均匀断崖式下降[4][10][21] - 性能衰减受语义关联性、干扰信息、文本结构等多因素影响,其中低相似度组在1万tokens时准确率比高相似度组低20个百分点[18][21] - 不同模型衰减节点存在差异:GPT-4.1可能在短文本即出现性能骤降,Claude系列则表现出更强的长文本稳定性[7][28] 实验设计方法论 - 采用改进版NIAH测试框架,通过四项对照实验控制任务复杂度并隔离输入长度变量[16][17] - 实验数据源包括保罗・格雷厄姆散文和arXiv论文,设置10²至10⁴tokens的输入长度梯度[18][31][37] - 评估指标采用GPT-4.1验证的准确率(与人类判断一致性超99%)[18][33] 关键影响因素 语义关联性 - 针-问题相似度实验显示:低相似度组在1万tokens时准确率降至40%-60%,比高相似度组低20个百分点[18][21] - 针-干草堆相似度对模型影响不统一,但长文本下所有模型性能均显著下滑[31][34] 干扰信息 - 多重干扰项使模型在1万tokens时准确率比基线低30%-50%[26][29] - GPT系列易生成自信错误答案,Claude系列倾向弃权,Gemini和Qwen波动最大[28] 文本结构 - 连贯结构文本在1万tokens时部分模型准确率降至30%-40%,打乱结构则维持50%-60%[40][42] - 逻辑结构复杂度与性能衰减正相关,揭示模型处理长文本逻辑的缺陷[35][41] 行业技术动态 - Chroma团队开源测试代码,覆盖18个主流开源/闭源模型包括GPT-4.1、Claude 4等[8][49] - 研究验证了现有基准测试将输入长度与任务难度混谈的局限性[13][15] - 行业正探索1M上下文窗口技术(如Gemini 1.5 Pro),但实际长文本处理能力仍存瓶颈[12][44]
李彦宏说 DeepSeek 幻觉高,是真的吗?
36氪· 2025-05-02 12:29
大模型幻觉问题现状 - DeepSeek-R1在苹果美区App免费下载排行榜上力压ChatGPT,成为国产开源大模型的代表,但其"胡说八道"的批评频发,用户反馈其生成内容真伪难辨[2] - 李彦宏在2025百度AI开发者大会上直接批评DeepSeek-R1存在"单一模态支持、高幻觉率、速度慢且成本高"三大痛点[2] - Vectara的HHEM评估显示DeepSeek-R1幻觉率高达14.3%,较前代V3的3.9%提升近4倍,阿里通义QwQ-32B-Preview幻觉率更高达16.1%[6] - OpenAI内部测试发现o3模型在PersonQA基准测试中幻觉率达33%,轻量版o4-mini更达48%,均显著高于前代o1的16%[8] - 谷歌Gemini 2.0的Flash-Thinking版本比标准版幻觉更突出,显示推理能力增强可能加剧幻觉问题[10] 行业技术挑战 - 推理模型采用多轮思考策略易产生偏差累积,导致多米诺骨牌式幻觉放大,例如DeepSeek-R1的长链式思考会逐步放大微小错误[16] - 当前主流解决方案RAG(检索增强生成)通过先检索权威资料再生成回答,百度2024年发布的iRAG技术已应用于文生图领域[20][22] - 腾讯混元模型T1采用"双重把关"策略,训练Critic批判模型筛选长思维链中的逻辑错误,但数据治理仍面临互联网语料复杂性挑战[23] - OpenAI承认模型规模扩大与推理能力增强后幻觉增多的机制尚未明确,需进一步研究[23] 幻觉的双面性 - 大模型幻觉分为事实性幻觉和忠实性幻觉,后者可能产生"外箱式创意",例如DeepSeek续写刘慈欣小说章节被评价优于原作[23][26] - 刘慈欣认为AI可能突破人类认知极限,OpenAI CEO奥特曼也指出幻觉在创作领域具有积极意义[26] - 行业需根据应用场景差异化接受幻觉程度,高风险领域需严格限制,创意领域则可利用其创新潜力[27] 厂商竞争格局 - 百度等大厂既依赖DeepSeek流量导入,又因自研深度推理模型难以突破用户心智而陷入竞争困境[2] - 阿里通义Qwen系列与DeepSeek-R1同属国产模型第一梯队,但QwQ-32B-Preview幻觉率更高达16.1%[6] - 谷歌Gemini、IBM Granite、Anthropic Claude等国际主流模型幻觉率普遍在14%-17%区间,显示该问题具行业普遍性[7]
喜报!南方财经金融理财智能大模型算法通过国家网信办备案
21世纪经济报道· 2025-03-14 22:24
文章核心观点 2025年3月12日南方财经全媒体集团自主研发的南方财经金融理财智能大模型算法成功通过国家互联网信息办公室备案,该算法集成多种前沿技术,南财理财GPT——南小财能为用户提供智能便捷理财服务,拥有五大功能 [2][3] 分组1:算法备案情况 - 2025年3月12日国家互联网信息办公室发布第十批境内深度合成服务算法备案信息,南方财经全媒体集团自主研发的南方财经金融理财智能大模型算法成功通过备案 [2] - 国家网信办备案审核严苛全面,备案通过意味着企业技术能力、数据安全、模型合规性达一定标准,是AI大模型商业化落地“通行证” [2] 分组2:算法及模型介绍 - 南方财经金融理财智能大模型算法集成大模型技术、自然语言处理、检索增强生成、强化学习训练等多种前沿技术,为用户提供智能便捷理财服务体验 [3] - 南财理财GPT——南小财是专注财富管理领域的智能AI金融模型,在南财理财通自主构建的银行理财数据库基础上,融合先进大模型训练技术打造而成,用户与智能助手实时对话可获取理财投资信息、市场行情分析和产品信息 [3][4] 分组3:南小财功能 - 提供智能实时对话交流,凭借前沿自然语言处理技术精准捕捉领会用户疑问需求并给出智能准确回答 [5] - 提供理财投资参考信息,从海量金融数据和市场资讯中评估潜在投资风险,依据用户风险承受能力和投资偏好提供个性化理财投资策略建议 [5] - 实时分析市场行情,凭借实时数据接入与深度多维分析能力捕捉市场态势,前瞻性洞察市场风险 [5] - 提供理财排行榜单,通过接入南财理财通银行理财数据库,综合多维度分析与评价对理财产品分类排名 [5] - 实时提供政策资讯,凭借政策敏感性和广泛数据采集网络追踪汇聚财经政策动向与行业资讯,对政策信息深度剖析与速递解读 [6]