Workflow
RAG
icon
搜索文档
OpenAI o3-pro发布,也许当前的RAG过时了
虎嗅· 2025-06-16 14:33
OpenAI o3-pro 发布与定价调整 - OpenAI 发布 o3-pro 模型,号称推理能力最强 [1] - 同时宣布 o3 价格下调 80%,降至与 GPT-4o 相当水平 [1] - 输入 token 从每百万 10 美元降至约 2 美元 [1] - 输出 token 从每百万 40 美元降至约 8 美元 [1] - 10000 字提示词成本从 0.72 元降至 0.144 元 [2] o3-pro 技术规格与影响 - 上下文窗口大小达 200k,最大输出 token 数 100k [3] - 可输入约 15 万字提示词,相当于一篇短篇小说长度 [3] - 更便宜资费和更强上下文利好 Agent 架构记忆问题 [3] - 为 RAG 技术提供更长提示词上下文支持 [3] RAG 技术演进 基础 RAG - 工程层面包含三个关键步骤:向量检索→上下文拼接→一次性生成 [8] - 优势在于快、易落地 [7] - 短板包括检索策略死板、推理链条单薄 [7] - 典型问题包括检索覆盖不足、回答缺少链条、可观测性差 [9] 高级 RAG - 在基础 RAG 上增加工程控制策略 [10] - 采用多通道找资料+智能排序+过程可追踪的方案 [12] - 可同时跑向量、关键词、结构化数据等多路召回 [13] - 系统自动记录召回率、覆盖率等指标 [14] - 在医疗问答场景使召回率从 62%提升至 93% [12] - 在券商数据分析场景使报告生成时间从 80 秒缩短至 18 秒 [12] GraphRAG - 将所有书的知识点串成关系网,实现网状路径跳跃推理 [17] - 把"检索增强"升级到"关系增强" [18] - 检索颗粒度从文本块升级到实体+关系+路径 [18] - 典型能力提升包括多跳推理、事实连贯性、减少幻觉 [18] 推理型 RAG - 融合思维链推理与检索动态调度 [22] - 面向复杂思考+自主决策场景 [22] - 包含思维链增强、自反思机制、多步骤分解推理等能力 [24] - 在医疗诊断案例中实现可追踪的自纠错闭环 [30] 行业发展趋势 - 模型基础能力持续增强 [33] - 上下文窗口从 4k-8k 发展到 128k、200k 甚至更大 [34][37] - 新一代 RAG 可能演进方向: - 窗口够大时整篇输入,不够再按结构化单元分 [40] - 检索层统一处理多模态数据 [40] - 检索-推理-验证全程留痕 [40] - 未来重点将转向丰富多模态数据的无缝衔接,而非切割细节优化 [41]
深度|吴恩达:语音是一种更自然、更轻量的输入方式,尤其适合Agentic应用;未来最关键的技能,是能准确告诉计算机你想要什么
Z Potentials· 2025-06-16 11:11
Agentic系统构建 - 从讨论"是否是Agent"转向"Agentic性光谱"的思维转变 更有效减少定义争论[4][5] - 实际应用中更多机会集中在简单线性流程自动化 而非高度自治的复杂系统[6][7] - 企业面临的主要挑战是如何将现有工作流拆解为可自动化的"微任务"并建立评估体系[7] AI开发关键技能 - 掌握LangGraph/RAG/memory/evals等工具的组合应用能力 如同搭建乐高积木[9][11] - 建立系统性评估体系至关重要 可避免在错误路径上浪费数月时间[10] - AI辅助编程显著提升开发效率 但部分企业仍禁止使用[15] - 语音技术栈(voice stack)被严重低估 在降低用户交互门槛方面潜力巨大[15][18] 技术演进趋势 - MCP协议通过统一API标准显著简化数据对接流程 使集成成本从N×M降至N+M[21][22] - Agent间协作仍处早期阶段 跨团队Agent协同目前几乎没有成功案例[23] - 语音交互面临延迟挑战 需采用预响应机制等技巧优化用户体验[19] 初创企业建议 - 执行速度是初创企业成功的第一关键指标[26] - 技术知识深度比商业知识更为稀缺和关键[26] - 编程能力将成为基础技能 能明确表达需求比编码本身更重要[24]
Agent Infra 图谱:哪些组件值得为 Agent 重做一遍?
海外独角兽· 2025-05-21 20:05
作者:Lai、bryan、haozhen 编辑:penny 我们之前已经研究了 Browserbase 、 E2B 等公司,本文是我们对于 Agent Infra 领域图景更全面的 Mapping。我们划分出了 Environment、Context、Tools、Agent Security 这四大赛道,逐步分析每个环 节的价值和值得关注的初创公司: • Environment 的作用是给 Agent 执行任务提供容器,是一个 Agent-native computer; • Context 层是在 Agent 工作中赋予记忆 Memory 和领域知识的重要中间层; • Tools 由于 MCP 协议的统一而百花齐放,同时目前 Tools 的核心用户还是开发者,普通用户的使用 门槛太高; 2025 年以来,Agent 开发量和使用量都有明显提高。Agent 的爆发带来了 Agent Infra 需求的爆发。在 过去 1-2 年,Agent 开发大多依赖开发者手动使用传统 Infra 搭建,开发工程量大、流程复杂,但随 着越来越多 Agent-native Infra 涌现,Agent 开发的难度和周期都在缩小 ...
【广发金工】从知识库到知识图谱:DeepSeek&GraphRAG
广发金融工程研究· 2025-02-26 13:04
文章核心观点 国内大模型公司“深度求索”开发的DeepSeek-V3和DeepSeek-R1以极低训练成本实现与顶尖模型媲美的性能 ,报告介绍其部署和运行测试方法 ,并探讨GraphRAG与大模型在金融投研领域的应用 [1][5] DeepSeek部署与运行测试 各版本DeepSeek模型与部署所需硬件对应关系 - 大模型训练和推理用英伟达显卡搭配CUDA平台 ,部署模型所需显存用于保存模型权重等 ,显存M(GB)与模型参数量P、参数精度Q等有关 ,如P=7B、Q为16位浮点精度时 ,M=16.8GB [6] - 不同参数版本模型所需显存和对应显卡不同 ,如1.5B参数模型需3.6G显存 ,对应NVIDIA 4060 [7] 部署流程介绍 - DeepSeek模型开源 ,可公开下载 ,主流本地化部署方式有从HuggingFace下载调用和用Ollama、LM Studio平台部署 ,以Ollama为例 ,需访问官网下载终端 ,搜索模型版本 ,在cmd输入命令运行 [8] - Ollama本地模型默认端口为11434 ,其他应用调用时修改访问请求base_url [9] 简单问答测试 - 测试本地部署14B模型推理能力及与满血版差距 ,14B版本在部分逻辑题展现较强推理能力 ,但在复杂逻辑推理任务中与满血版有差距 [10][12] GraphRAG与大模型应用介绍 Langchain与RAG介绍 - 开源框架Langchain集成RAG和Agent功能提升大模型在专业垂直领域回答水平 [13] - RAG即检索增强生成 ,使大模型生成回答时读取外部信息 ,减少模型幻觉 ,生成更精准答案 ,包括检索、增强、生成三步 [14] - Agent是智能体系统 ,可自主感知环境、决策和执行行动 ,适用于自动化任务等应用 [15] GraphRAG - RAG效果未达预期 ,存在数据处理和相关性搜索问题 ,难以从全局考虑问题和进行总结归纳 [16][19] - GraphRAG由微软开源 ,通过构建知识图谱和社区摘要扩展RAG能力 ,特点有增强知识表示、可解释和可验证、复杂推理、知识来源灵活等 ,还能降低Token成本 ,支持增量索引和动态更新 [20][23] - GraphRAG流程包括文本单元切分、实体和关系提取、实体消解、图构建、社区总结 ,检索方案有全局搜索、局部搜索、DRIFT搜索 [24][27][29] - 蚂蚁基于GraphRAG构建DB - GPT ,是开源AI原生数据应用开发框架 ,让围绕数据库构建大模型应用更简单 [29][30] - GraphRAG应用场景拓宽到金融、医疗、法律等领域 ,如学术研究、法律情境、电子商务等 [31] 金融知识图谱GraphRAG&DeepSeek实践 金融知识图谱介绍 - 金融知识图谱以图结构表示金融领域知识 ,用于风险控制、投资决策、市场监管等 ,如FP2KG数据集有17,799实体等 [34][35] - 知识图谱可梳理投研领域实体和关系 ,减轻投研负担 ,辅助投资决策 [36] GraphRAG部署流程 - 用微软开源GraphRAG版本 ,结合DeepSeek大模型和研报数据构建知识图谱 ,步骤包括安装库、新建文件夹、下载数据、项目初始化、构建图谱、提问搜索等 [37][40][41] - 需调整提示词语言确保结果实用性 ,若换模型需调整settings.yaml参数 [41] 基于研报的知识图谱搭建 - 以传媒行业游戏板块和计算机行业个股研报等为输入 ,GraphRAG回答问题准确性和完整性高 ,能准确识别实体关联 [43][44][51] - 输出的社区报告表、实体关系表和实体表等结构化数据可用于后续筛选、处理 ,还可将图谱可视化 [45][49][50]