RAG(检索增强生成)
搜索文档
检索做大,生成做轻:CMU团队系统评测RAG的语料与模型权衡
机器之心· 2026-01-06 08:31
文章核心观点 - 卡内基梅隆大学的研究表明,在检索增强生成系统中,扩大检索语料规模可以有效提升系统性能,并且可以在一定程度上替代扩大生成模型参数所带来的收益,为在有限算力下提升RAG系统提供了更具性价比的路径[4][22] - 研究揭示了语料扩容带来的性能提升主要源于提高了答案证据被检索到的覆盖率,而非显著增强了模型利用证据的能力[15][19] - 研究指出,语料扩容的收益存在边际递减现象,尤其是在语料规模达到较高水平后,继续无上限扩容并不划算,需要结合成本进行精细的预算分配[4][13] 实验设计与方法 - 研究采用全因子设计,严格控制变量,仅让检索语料规模和生成模型规模变化,其余设置保持一致[8] - 检索语料使用ClueWeb22-A英文子集,总计包含约2.64亿真实网页文档,并随机均衡切分为12个分片,通过激活不同数量的分片来控制语料规模[9] - 生成端选用Qwen3模型家族的不同尺寸,覆盖从0.6B到14B的参数规模,并在三个开放域问答基准上进行评测[9] 关键发现:语料规模与模型规模的替代关系 - 实验结果显示明确的补偿效应:通过扩大检索语料,较小规模的模型可以达到甚至超过更大模型在较小语料下的表现[10] - 研究定义了“补偿阈值”,即小模型需要多少倍语料才能追平大模型在1个分片下的成绩。例如,在Natural Questions数据集上,0.6B模型需要约5倍语料才能追平1.7B模型在1个分片下的表现[11][12] - 这种追平趋势在TriviaQA与WebQuestions数据集上同样存在,表明语料扩容在多数设置下都能将性能缺口缩小一个甚至两个模型档位[12] 性能增长形态与工程启示 - 性能提升曲线呈现共同规律:从无检索到有检索的第一步带来最显著的提升,随后收益逐步下降,并在约5到6倍语料规模附近出现饱和趋势[13] - 对于工程实践,这意味着检索能力的从无到有带来最大增益,但在较高语料规模处继续无上限扩容的性价比不高[13] - 当推理资源受限时,优先考虑扩大检索语料与提升覆盖率,常常能让中等规模生成模型达到接近更大模型的表现[20] 性能提升的机制解释 - 语料扩容提升性能的核心机制是提高了检索到包含标准答案字符串的证据片段的概率,即提高了“黄金答案覆盖率”[16] - 研究定义了“上下文受益成功率”和“利用率”指标,实验显示,不同模型将可用证据转化为正确答案的效率整体相近且在不同语料规模下保持稳定[19] - 因此,语料扩容带来的关键收益主要体现在提高含答案证据进入上下文的概率,而非显著提升模型对既有上下文的利用能力[19][22]
NotebookLM 功能逆天了:我是如何用它来深度学习的
36氪· 2025-11-23 08:06
NotebookLM产品功能演进 - 产品从单纯的研究工具进化为个性化学习系统,增加了根据用户学习阶段定制化教学的能力 [7] - 新增Discover功能允许用户定制信源类型,包括Reddit、YouTube视频、官方PDF文档及顶级技术出版物等 [11][12][13][14][15] - 新增多格式生成功能,包括定制化报告、音频概览播客和视频概览,支持不同学习场景 [18][24][37] - 新增测试功能,包括闪卡和测验,用于验证知识掌握程度和应用能力 [45][46][57] 个性化学习系统构建方法 - 学习系统构建分为三个阶段:筛选信源、打基础和测试知识 [11][18][45] - 筛选信源阶段强调使用定制化选项获取多元化材料,避免单一信源偏见 [12][13][14][15] - 打基础阶段采用三种格式:定制化报告通过指令锚定新旧知识 [18][20]、音频概览通过播客形式在碎片时间强化学习 [24][29]、视频概览通过幻灯片形式建立结构化理解 [37][38] - 测试知识阶段通过闪卡和测验暴露理解差距,重点测试决策能力和概念应用而非单纯记忆 [45][50][58][60] AI学习工具市场竞争态势 - 用户面临从零代码自动化到真正AI智能体开发的技能鸿沟,现有教程对非开发者不友好 [4][5] - NotebookLM通过降低使用门槛满足非开发者需求,用户无需掌握向量数据库、嵌入等底层技术即可构建学习系统 [3][4][8] - 产品设计注重用户体验,开箱即用的特性降低了非技术用户的学习曲线 [10] - 与Perplexity等工具形成组合方案,通过深度研究功能快速收集高质量信源,提升学习效率 [17]
喝点VC|硅谷风投重磅报告:翻8倍!企业客户对生成式AI应用投入达46亿美元;企业优先考虑价值而非速赢
Z Potentials· 2025-08-02 10:19
生成式AI行业趋势 - 2024年企业生成式AI支出飙升至138亿美元,是2023年23亿美元的6倍,标志从试验阶段转向规模化生产[3][6] - 72%决策者预计短期内将更广泛采用生成式AI,但34%企业尚未明确全组织部署规划[3][6] - 60%投资来自创新预算,40%来自常规预算(其中58%为原有资金调整),显示战略优先级提升[5] 应用层发展 - 应用层投资达46亿美元,较去年6亿美元增长8倍,企业平均识别10个潜在用例,24%列为优先实施[11] - 五大高ROI应用场景:代码助手(51%)、客服聊天机器人(31%)、企业搜索(28%)、数据转换(27%)、会议摘要(24%)[12][13][16] - 垂直行业应用崛起:医疗(5亿美元)、法律(3.5亿美元)、金融(1亿美元)、媒体娱乐(1亿美元)[32][33][34] 技术栈与模型竞争 - 基础模型投资65亿美元占主导,但应用层增速更快[9][37] - 企业采用多模型策略(平均3+模型),闭源方案占81%份额(OpenAI从50%降至34%,Anthropic从12%升至24%)[38][41] - RAG架构采用率达51%(去年31%),微调仅9%,智能代理架构首次达12%应用[45][46] 企业部署策略 - 自建与采购比例接近均衡(47%自建 vs 53%采购),较2023年80%依赖第三方显著变化[18] - IT(22%)、产品工程(19%)、数据科学(8%)为三大投资部门,合计占近半预算[28] - 30%企业优先考虑可衡量价值,26%注重行业定制化,仅1%关注价格因素[19] 未来三大预测 - 智能代理将颠覆4000亿美元软件市场并渗透10万亿美元服务经济[49] - AI原生企业将加速取代传统巨头(如Chegg市值蒸发85%)[50] - AI人才短缺加剧,具备领域专长的架构师薪资或涨2-3倍[51] 行业突破案例 - 医疗领域:Abridge等工具实现临床记录自动化,Notable优化分诊流程[32] - 金融领域:Numeric革新会计,Arkifi重构RIA后台流程[34] - 媒体领域:Runway成制片厂标配,Midjourney推动图像创作边界[34]
一文搞懂:RAG、Agent与多模态的行业实践与未来趋势
AI科技大本营· 2025-04-27 15:12
大模型技术演进 - 大模型作为产业变革核心引擎,通过RAG、Agent与多模态技术重塑AI与现实的交互边界,推动行业从效率革新迈向业务重构 [1][2] - RAG突破大模型静态知识边界,解决数据时效性、隐私安全与专业适配等关键难题 [2][12] - Agent重构人机协作范式,具备自主决策与多任务协同能力 [2][5] - 多模态大模型解锁复杂场景落地潜力,实现跨模态语义理解 [2][6] RAG技术 - RAG通过外挂实时知识库解决大模型知识固定、数据隐私、可解释性及成本优化问题 [12][14][15][16] - 相比传统生成模型,RAG支持动态知识更新、答案可追溯至检索文档,适用于需事实性支持的场景 [17][19] - RAG构建面临文本向量化、多模态文档处理及可控检索等挑战,需优化分块策略与检索架构 [20][21][23][27] - 未来方向包括多模态文档统一处理范式与记忆驱动RAG,后者利用LLM的KV缓存实现动态索引 [28][32][34] Agent技术 - Agent通过感知层、决策层、执行层形成自主性系统,结合LLM、规划与工具实现复杂任务处理 [39][42] - 分为自主智能体(任务执行)与生成智能体(内容创作),MetaGPT和AutoGen为当前主流框架 [44][49][50][52] - Multi-Agent系统通过分布式协作解决非线性动态任务,提升容错能力与资源管理效率 [53][56][58] - 行业应用需突破任务解构、动态环境适应及价值观对齐等难点,采用元学习、联邦学习等技术优化 [59][62][63] 多模态大模型 - 紫东太初项目将目标检测、分割等CV任务统一到图文大模型,增强局部感知能力,在RefCOCO等任务中精度超越专有模型 [67][69][73][74] - 360研究院开放世界目标检测技术提升图像理解与语义融合能力,应用于自动驾驶等领域 [78][79][83] - 腾讯视频号审核系统融合多模态内容理解与文本RAG,通过垂类大模型与分甬道审核提升效率 [84][85][88][92][96] 未来趋势 - 算法层面向全模态能力发展,产品层面涌现人机协同复杂系统,领域层面与垂类场景深度结合 [98][100][103] - RAG、Agent与多模态将深度融合,形成感知-认知-决策闭环,催生手术机器人等新一代产业智能体 [100]