RAG - 财报，业绩电话会，研报，新闻

RAG

搜索文档

36氪· 2025-11-26 15:00

谷歌Gemini File Search功能发布 - 谷歌通过Gemini API发布了名为“File Search”的全新功能，该功能将RAG（检索增强生成）的整个工程流程封装为一行API调用[1] - 该功能被定义为一个完全托管的RAG系统，已直接嵌入Gemini API，开发者无需自建向量数据库或维护检索逻辑[4][6] - 其核心在于隐藏了整条检索链，将RAG从一个需要复杂工程实现的独立系统，转变为了API的内置能力[9] 技术流程的颠覆性简化 - 传统RAG流程需要工程师手动完成文件分块、向量化、建立索引、检索相关片段并拼接到提示词中，过程繁琐且依赖专业知识[1][10] - File Search功能实现了全自动化流程：开发者仅需上传文件，系统即自动完成分块、embedding（向量化）、索引、检索与引用，并在同一接口内生成含引用的答案[3][4][10][14] - 官方示例显示，过去需要数百行代码实现的流程，现在仅需一行配置即可完成[14] 支持格式与成本结构 - 功能支持多种文件格式的直接解析，包括PDF、DOCX、TXT、JSON以及常见代码文件，便于快速搭建统一知识库[6] - 定价模式改为“轻入口”：查询时的存储与embedding生成免费；仅在首次建立索引时按每百万tokens $0.15计费，这使得部署与扩容的边际成本趋近于零[8] 对开发模式与工程师角色的影响 - 该功能彻底改变了开发逻辑，开发者不再需要额外部署数据库或维护检索管线，整个过程在一次API调用中完成[14] - 这导致工程师的角色从系统的“构建者”转变为“调用者”，其对系统的解释权和掌控权被削弱，知识密度被平台吸收[15][17][18] - 有案例显示，接入该功能后，过去需要几天完成的工作现在仅需几分钟，大幅提升了生产力，但也意味着工程师变得更具可替换性[17] 行业趋势与权力结构迁移 - File Search的出现是行业将复杂度下沉至平台底层的趋势之一，类似案例还包括OpenAI的Custom GPTs和Anthropic的Console[18] - 这一变化重塑了权力结构，将理解系统的权力从工程师转移到了平台，检索策略、索引结构、引用规则等关键决策均由云端平台托管和控制[18] - 技术正进入“零配置时代”，开发者不再需要深入理解模型内部机制，只需信任并调用平台提供的结果[18]

AI开发零配置时代

权力集中

Artificial Intelligence

Artificial Intelligence

Gemini File Search

RAG

现代i10

长上下文窗口、Agent崛起，RAG已死？

机器之心· 2025-10-19 17:17

RAG技术演进与行业观点 - 行业出现“RAG已死”的论调，Chroma公司CEO Jeff Huber主张以“上下文工程”框架取代对RAG术语的狭义依赖 [1][2] - RAG自2022年以来成为解决LLM输入长度限制（如GPT-3.5的4K tokens）的行业标准解决方案，其核心逻辑类似于搜索引擎 [3][4] - 长上下文窗口的崛起和Agent能力的进化正在动摇RAG的核心地位，引发其是否过时的讨论 [5][6] RAG的进化：智能体检索 - LlamaIndex提出RAG正在演进为“智能体检索”，AI智能体成为更强大的RAG架构核心，超越了早期“朴素的区块检索”阶段 [7][8] - 技术演进分为四个阶段：从基础的Top-k检索，到引入轻量级agent的自动路由模式，再扩展到多个知识库的复合检索API，最终构建完全由agent驱动的双层智能系统 [9][10][11][13][15][17][18][19] - 高级检索服务通过分层、智能的能力，成为高级AI智能体不可或缺的“知识骨干”，简单的RAG已经过时 [21] RAG作为工程学科的深化 - 行业专家认为RAG正进化为构建可靠、高效AI应用的核心工程学科，其本质（为LLM提供外部知识）是永恒需求 [22][23][24] - 需要升级评估范式，传统搜索引擎基准（如BEIR）与RAG目标不符，新基准FreshStack更注重覆盖率、多样性和相关性等真实性能指标 [26][27][28][29][33] - 新一代检索模型具备推理能力（如Promptriever）和采用无损压缩技术（如延迟交互模型ColBERT），小模型（150M参数）在特定任务上可超越大模型（7B参数） [34][35][39] 对RAG架构的批判与替代方案 - 批评者指出RAG架构存在“原罪”：切分导致上下文割裂、向量搜索在专业领域失灵、系统复杂性和延迟问题突出 [37][38][41][48] - 智能体（Agent）和长上下文窗口（如Claude Sonnet 4达200K、Gemini 2.5达1M、Grok 4-fast达2M tokens）被视为更优替代方案，采用“调查”而非“检索”范式 [42][43][44][45][49] - 在新范式下，RAG被“降级”为Agent工具箱中的一个组件，与代码解释器、API调用等工具并列，场景需求决定架构选择 [47][50][51][52][54] 行业共识与未来展望 - 行业共识是初级的、朴素的RAG（Naive RAG）已无法满足复杂需求，但其核心思想——为LLM提供外部知识——是永恒的 [50][51] - 未来技术图景是多元化融合：Agent驱动的工程化RAG适用于海量数据初筛，而“长上下文窗口 + Agent调查”范式在深度分析场景具优势 [52][54] - 开发者需理解不同技术范式优劣，根据具体应用场景灵活组合，构建最高效可靠的解决方案 [52]

智能体驱动的检索

上下文工程

Artificial Intelligence

Artificial Intelligence

RAG

Agent

长上下文窗口

最新自进化综述！从静态模型到终身进化...

自动驾驶之心· 2025-10-17 08:03

文章核心观点 - 当前主流AI智能体存在静态配置的局限性，无法动态适应环境变化，而自进化AI智能体通过与环境交互持续优化内部组件，实现终身学习 [1][5][6] - 论文首次明确定义自进化AI智能体，提出三大定律和四阶段演进框架，构建从技术到落地的完整图谱 [1][7][9] - 自进化AI智能体的目标是让AI系统成为能与人类长期协作的伙伴，实现从静态模型到终身进化的范式转变 [42] 自进化AI智能体的定义与核心原则 - 自进化AI智能体是通过与环境交互，持续且系统性地优化内部组件，以适应任务、上下文和资源变化的自主系统 [6] - 提出自进化AI智能体三定律：存续定律（维持安全与稳定性）、卓越定律（保持或提升性能）、进化定律（自主优化内部组件） [8][12] - 四阶段演进历程包括模型离线预训练（MOP）、模型在线适配（MOA）、多智能体协同（MAO）和多智能体自进化（MASE） [9] 技术框架与组件 - 四组件反馈循环框架包括系统输入（定义进化目标）、智能体系统（执行任务）、环境（提供反馈信号）、优化器（迭代优化智能体） [10][11][15] - 系统输入分为任务级输入（针对特定任务的整体优化）和实例级输入（针对单个任务实例的精细优化） [13][16] - 智能体系统分为单智能体（由基础模型、提示、记忆、工具等构成）和多智能体（由多个单智能体、通信协议和拓扑结构组成） [14][17] - 环境反馈分为客观反馈（可量化的性能指标）和主观反馈（需通过LLM评估的质性指标） [14][18] - 优化器由搜索空间（定义可优化对象）和优化算法（定义如何搜索最优配置）组成 [19][22] 单智能体优化技术 - LLM行为优化分为训练式优化（通过数据反馈更新模型参数）和推理时优化（不修改模型参数，通过推理策略提升性能） [20][23] - 提示优化技术包括编辑式优化、生成式优化、文本梯度式优化和进化式优化 [26] - 记忆优化分为短期记忆优化（优化当前任务的上下文管理）和长期记忆优化（构建跨任务的持久化记忆） [26] - 工具优化分为训练式工具优化、推理时工具优化和工具功能优化（自主创建新工具） [26] 多智能体优化技术 - 手动设计多智能体系统包括并行工作流、分层工作流和多智能体辩论 [30][31] - 自进化多智能体系统优化技术包括拓扑优化、统一优化和LLM骨干优化 [30][31] - 多智能体系统通过协作提升复杂任务处理能力，例如医疗诊断多智能体系统模拟临床流程 [30][32] 领域特定优化应用 - 生物医学领域注重安全优先和精准适配，例如多智能体模拟临床流程和分子发现 [30][32] - 编程领域注重效率导向和错误修正，例如自反馈与多角色协作优化代码生成和调试 [30][38] - 金融与法律领域注重合规优先和规则对齐，例如多源信息整合优化金融决策和模拟司法流程优化法律推理 [30][33][38] 评估方法与安全伦理 - 评估方法分为基准测试评估（基于标准化数据集和任务）和LLM驱动评估（用LLM作为评估者） [35][39] - 安全与伦理风险包括安全风险（进化过程中出现有害行为）、稳定性风险（进化导致性能波动）和合规风险（进化后违反领域法规） [36][40] - 需要建立进化安全审计机制，确保每个进化步骤符合安全与伦理要求 [36] 挑战与未来方向 - 核心挑战包括安全与进化的平衡、评估体系的完善、多模态与跨领域泛化、效率与性能的权衡 [37][41] - 未来方向包括开发MASE模拟环境、推进工具自主创建、构建终身评估基准、优化多智能体效率 [37][41] - 自进化AI为构建更自适应、更自主、更可持续的AI系统提供了清晰的路径 [42]

自进化AI智能体

大语言模型（LLM）

Artificial Intelligence

Artificial Intelligence

GRIPS

OPRO

TextGrad

国庆长假充电指南：Ilya Sutskever's Top 30 论文阅读清单

锦秋集· 2025-10-01 21:25

文章核心观点 - 文章推荐了一份由Ilya Sutskever精选的30篇AI领域前沿论文合集，该合集覆盖了近15年AI发展的里程碑成果，以"技术底层-能力突破-场景落地"为主线，串联了AI从感知智能到认知智能的关键跃迁 [4] - 该论文合集旨在帮助投资者、从业者与研究者系统梳理AI技术演进脉络，深刻理解当前AI产业落地的机遇与挑战，实现专业能力的高效提升 [1][5] - 合集内容不仅清晰拆解了残差映射、动态指针网络等专业术语的技术逻辑，还通过论文中的实验数据和架构设计，为从业者提供从理论到落地的参考路径 [5] 论文合集技术框架 - 合集涵盖奠定深度学习基础的CNN、RNN，重构自然语言处理领域的Transformer与自注意力机制，以及推动RAG、多步推理等前沿方向的核心研究 [4] - 每篇论文都是对应技术领域的奠基之作，直接关联当前AI产业落地的核心能力底座，包括《GPipe》中的并行训练方案如何降低大模型算力成本，《Retrieval-Augmented Generation》如何解决AI幻觉问题以适配金融、医疗等高精度场景 [4][5] 代表性论文技术要点深度学习基础架构 - ImageNet Classification with Deep Convolutional Neural Networks论文提出的CNN架构包含5个卷积层和3个全连接层，在ILSVRC-2010数据集上top-5错误率为17.0%，显著优于此前方法 [48][52] - Deep Residual Learning for Image Recognition提出的残差网络通过残差块简化了深层网络训练，152层ResNets在ImageNet等数据集上性能优于VGG nets [73][77] - Recurrent Neural Network Regularization提出将dropout技术应用于LSTM的新方法，在Penn Tree Bank数据集上词级困惑度显著降低 [21][24] 注意力机制与Transformer - Attention is All You Need完全依赖自注意力机制提出Transformer架构，在WMT 2014 English-to-German翻译任务中BLEU分数达到28.4，比当时最先进模型高出2个多BLEU点 [105][117] - Neural Machine Translation by Jointly Learning to Align and Translate引入注意力机制解决固定长度向量瓶颈问题，在WMT '14 English-to-French翻译任务上BLEU分数显著提升 [119][126] 模型扩展与优化技术 - GPipe通过微批量流水线并行技术实现大型神经网络高效训练，支持训练包含60亿参数、128层的Transformer模型，在ImageNet-2012数据集上top-1准确率达到84.4% [62][72] - Scaling Laws for Neural Language Models发现模型性能与参数规模遵循幂律关系，更大规模模型具有更高样本效率，在固定计算预算下训练极大型模型是最优策略 [212][218] 特定应用领域突破 - Neural Message Passing for Quantum Chemistry提出的MPNNs框架在QM9数据集上13种性质中有11种达到化学精度，为分子性质预测提供强大工具 [94][101] - Deep Speech 2端到端语音识别模型在英语和普通话上均实现高准确率，在WSJ、LibriSpeech等基准测试中性能超过人类转录员 [203][209] - Pointer Networks提出新型神经架构解决输出词典大小可变问题，在计算平面凸包、德劳内三角剖分等几何问题上性能显著优于传统序列到序列模型 [37][45] 技术演进趋势 - 从传统神经网络到残差网络、注意力机制的演进表明，通过架构创新可有效解决梯度消失、长期依赖关系等核心挑战 [73][105] - 模型规模与性能关系研究为大规模神经网络训练提供理论指导，计算效率最优策略推动行业向极大型模型方向发展 [212][224] - 多令牌预测等新型训练方法重新定义LLMs处理文本方式，通过并行预测多个未来令牌提升模型效率和速度 [259][264]

Artificial Intelligence

深度学习

自然语言处理

Ilya Sutskever's Top 30

Transformer

自注意力机制

Artificial Intelligence

深度学习

自然语言处理

Ilya Sutskever's Top 30

Transformer

自注意力机制

OpenAI o3-pro发布，也许当前的RAG过时了

虎嗅· 2025-06-16 14:33

OpenAI o3-pro 发布与定价调整 - OpenAI 发布 o3-pro 模型，号称推理能力最强 [1] - 同时宣布 o3 价格下调 80%，降至与 GPT-4o 相当水平 [1] - 输入 token 从每百万 10 美元降至约 2 美元 [1] - 输出 token 从每百万 40 美元降至约 8 美元 [1] - 10000 字提示词成本从 0.72 元降至 0.144 元 [2] o3-pro 技术规格与影响 - 上下文窗口大小达 200k，最大输出 token 数 100k [3] - 可输入约 15 万字提示词，相当于一篇短篇小说长度 [3] - 更便宜资费和更强上下文利好 Agent 架构记忆问题 [3] - 为 RAG 技术提供更长提示词上下文支持 [3] RAG 技术演进基础 RAG - 工程层面包含三个关键步骤：向量检索→上下文拼接→一次性生成 [8] - 优势在于快、易落地 [7] - 短板包括检索策略死板、推理链条单薄 [7] - 典型问题包括检索覆盖不足、回答缺少链条、可观测性差 [9] 高级 RAG - 在基础 RAG 上增加工程控制策略 [10] - 采用多通道找资料+智能排序+过程可追踪的方案 [12] - 可同时跑向量、关键词、结构化数据等多路召回 [13] - 系统自动记录召回率、覆盖率等指标 [14] - 在医疗问答场景使召回率从 62%提升至 93% [12] - 在券商数据分析场景使报告生成时间从 80 秒缩短至 18 秒 [12] GraphRAG - 将所有书的知识点串成关系网，实现网状路径跳跃推理 [17] - 把"检索增强"升级到"关系增强" [18] - 检索颗粒度从文本块升级到实体+关系+路径 [18] - 典型能力提升包括多跳推理、事实连贯性、减少幻觉 [18] 推理型 RAG - 融合思维链推理与检索动态调度 [22] - 面向复杂思考+自主决策场景 [22] - 包含思维链增强、自反思机制、多步骤分解推理等能力 [24] - 在医疗诊断案例中实现可追踪的自纠错闭环 [30] 行业发展趋势 - 模型基础能力持续增强 [33] - 上下文窗口从 4k-8k 发展到 128k、200k 甚至更大 [34][37] - 新一代 RAG 可能演进方向： - 窗口够大时整篇输入，不够再按结构化单元分 [40] - 检索层统一处理多模态数据 [40] - 检索-推理-验证全程留痕 [40] - 未来重点将转向丰富多模态数据的无缝衔接，而非切割细节优化 [41]

Artificial Intelligence

RAG

Artificial Intelligence

o3-pro

RAG

Artificial Intelligence

RAG

Artificial Intelligence

o3-pro

RAG

深度｜吴恩达：语音是一种更自然、更轻量的输入方式，尤其适合Agentic应用；未来最关键的技能，是能准确告诉计算机你想要什么

Z Potentials· 2025-06-16 11:11

Agentic系统构建 - 从讨论"是否是Agent"转向"Agentic性光谱"的思维转变更有效减少定义争论[4][5] - 实际应用中更多机会集中在简单线性流程自动化而非高度自治的复杂系统[6][7] - 企业面临的主要挑战是如何将现有工作流拆解为可自动化的"微任务"并建立评估体系[7] AI开发关键技能 - 掌握LangGraph/RAG/memory/evals等工具的组合应用能力如同搭建乐高积木[9][11] - 建立系统性评估体系至关重要可避免在错误路径上浪费数月时间[10] - AI辅助编程显著提升开发效率但部分企业仍禁止使用[15] - 语音技术栈(voice stack)被严重低估在降低用户交互门槛方面潜力巨大[15][18] 技术演进趋势 - MCP协议通过统一API标准显著简化数据对接流程使集成成本从N×M降至N+M[21][22] - Agent间协作仍处早期阶段跨团队Agent协同目前几乎没有成功案例[23] - 语音交互面临延迟挑战需采用预响应机制等技巧优化用户体验[19] 初创企业建议 - 执行速度是初创企业成功的第一关键指标[26] - 技术知识深度比商业知识更为稀缺和关键[26] - 编程能力将成为基础技能能明确表达需求比编码本身更重要[24]

Agent Infra 图谱：哪些组件值得为 Agent 重做一遍？

海外独角兽· 2025-05-21 20:05

核心观点 - Agent Infra需求爆发，开发范式正在重构和收敛，四大赛道值得关注：Environment、Context、Tools、Agent Security [3][13] - 创业公司机会在于：1) 在已有Infra中寻找真正Agent-native需求 2) 抓住Agent开发中新痛点 [4][5][16][17] - 云厂商积极布局但尚未出现Agent-native产品，初创公司在细分领域有差异化机会 [63][70] 投资主题1：Environment - Sandbox需满足更高性能要求：隔离性、启动速度、稳定性及AI性能如代码解释器功能 [20] - E2B提供AI-native microVM获Perplexity等头部客户认可 [20][21] - Modal提供Cloud-native虚拟机适合规模化需求 [20][21] - Browser Infra分两类：1) 大规模浏览网页 2) 深度操纵网页 [22] - Browserbase平衡带宽价格速度获开发者青睐 [23][25] - Browser Use新兴公司让Agent像人一样深度操作网页 [24][25] 投资主题2：Context - RAG已成共识技术，Glean估值近70亿美元专注企业内数据搜索 [29][30] - MCP协议标准化工具调用，早期机会在： - 自动生成MCP Server如Mintlify [31][33] - MCP connector如Composio托管100+ Server [31][33] - Marketplace价值较薄可能集成至开发端 [32] - Memory分短期/长期/程序记忆，Letta通过Sleep-time预处理提升推理质量 [34][36][38][40] 投资主题3：Tools - Search & Scraping： - Agent搜索量将远超人类，需AI-native方案 [45] - 机会在廉价API(博查)、智能搜索(Exa)、爬虫架构(Firecrawl) [45][46][47] - Finance & Payment： - Skyfire让Agent具备支付能力类比"AI经济Visa" [49][51][53] - Paid按产出定价重构货币化机制 [52][53] - Backend Workflow： - Supabase一站式后端服务吸引200万开发者 [54][56] - Inngest简化工作流编排获a16z投资 [56] 投资主题4：Agent Security - 需动态意图分析及数据校验，当前以老牌玩家为主 [57][59] - Chainguard提供安全容器镜像 [59][61] - Haize Labs压力测试增强稳健性 [59][61] - 生态完善后AI-native机会更清晰，当前偏早 [60] 云厂商布局 - Environment： - AWS Nitro Enclaves/Azure Container Apps/GCP Cloud Functions均非Agent-native [63][64][65] - Context： - AWS Bedrock/Azure Cognitive Search/GCP Vertex AI推动企业上云 [66][67] - 三大云厂商均推出MCP相关产品与A2A协议互补 [68][69] - Tools： - AWS Step Functions/Azure Logic Apps/GCP Workflows未体现Agent特性 [70][71]

Agent-native Infra

Artificial Intelligence

Artificial Intelligence

Agent Infra

RAG

MCP

【广发金工】从知识库到知识图谱：DeepSeek&GraphRAG

广发金融工程研究· 2025-02-26 13:04

文章核心观点国内大模型公司“深度求索”开发的DeepSeek-V3和DeepSeek-R1以极低训练成本实现与顶尖模型媲美的性能，报告介绍其部署和运行测试方法，并探讨GraphRAG与大模型在金融投研领域的应用 [1][5] DeepSeek部署与运行测试各版本DeepSeek模型与部署所需硬件对应关系 - 大模型训练和推理用英伟达显卡搭配CUDA平台，部署模型所需显存用于保存模型权重等，显存M（GB）与模型参数量P、参数精度Q等有关，如P=7B、Q为16位浮点精度时，M=16.8GB [6] - 不同参数版本模型所需显存和对应显卡不同，如1.5B参数模型需3.6G显存，对应NVIDIA 4060 [7] 部署流程介绍 - DeepSeek模型开源，可公开下载，主流本地化部署方式有从HuggingFace下载调用和用Ollama、LM Studio平台部署，以Ollama为例，需访问官网下载终端，搜索模型版本，在cmd输入命令运行 [8] - Ollama本地模型默认端口为11434 ，其他应用调用时修改访问请求base_url [9] 简单问答测试 - 测试本地部署14B模型推理能力及与满血版差距，14B版本在部分逻辑题展现较强推理能力，但在复杂逻辑推理任务中与满血版有差距 [10][12] GraphRAG与大模型应用介绍 Langchain与RAG介绍 - 开源框架Langchain集成RAG和Agent功能提升大模型在专业垂直领域回答水平 [13] - RAG即检索增强生成，使大模型生成回答时读取外部信息，减少模型幻觉，生成更精准答案，包括检索、增强、生成三步 [14] - Agent是智能体系统，可自主感知环境、决策和执行行动，适用于自动化任务等应用 [15] GraphRAG - RAG效果未达预期，存在数据处理和相关性搜索问题，难以从全局考虑问题和进行总结归纳 [16][19] - GraphRAG由微软开源，通过构建知识图谱和社区摘要扩展RAG能力，特点有增强知识表示、可解释和可验证、复杂推理、知识来源灵活等，还能降低Token成本，支持增量索引和动态更新 [20][23] - GraphRAG流程包括文本单元切分、实体和关系提取、实体消解、图构建、社区总结，检索方案有全局搜索、局部搜索、DRIFT搜索 [24][27][29] - 蚂蚁基于GraphRAG构建DB - GPT ，是开源AI原生数据应用开发框架，让围绕数据库构建大模型应用更简单 [29][30] - GraphRAG应用场景拓宽到金融、医疗、法律等领域，如学术研究、法律情境、电子商务等 [31] 金融知识图谱GraphRAG&DeepSeek实践金融知识图谱介绍 - 金融知识图谱以图结构表示金融领域知识，用于风险控制、投资决策、市场监管等，如FP2KG数据集有17,799实体等 [34][35] - 知识图谱可梳理投研领域实体和关系，减轻投研负担，辅助投资决策 [36] GraphRAG部署流程 - 用微软开源GraphRAG版本，结合DeepSeek大模型和研报数据构建知识图谱，步骤包括安装库、新建文件夹、下载数据、项目初始化、构建图谱、提问搜索等 [37][40][41] - 需调整提示词语言确保结果实用性，若换模型需调整settings.yaml参数 [41] 基于研报的知识图谱搭建 - 以传媒行业游戏板块和计算机行业个股研报等为输入，GraphRAG回答问题准确性和完整性高，能准确识别实体关联 [43][44][51] - 输出的社区报告表、实体关系表和实体表等结构化数据可用于后续筛选、处理，还可将图谱可视化 [45][49][50]