Workflow
Milvus
icon
搜索文档
2026,进入AI记忆元年
36氪· 2026-01-27 18:28
大模型技术发展现状 - 自2023年年中起,SOTA模型的迭代周期被快速压缩至35天,曾经的SOTA模型在5个月内就可能跌出前五,7个月后可能跌出前十 [1] - 尽管模型持续迭代,但像ChatGPT、DeepSeek那样令人眼前一亮的新产品越来越少,技术进步进入小修小补的瓶颈期 [1] AI记忆成为行业新焦点 - 2023年,以Milvus、Pinecone、faiss为代表的向量数据库产品涌现 [2] - 2024至2025年期间,以Letta (MemGPT)、Mem0、MemU、MemOS为代表的各种AI记忆框架大量出现 [2] - 模型厂商如Claude和谷歌相继宣布为其模型增加记忆能力,引发行业关注 [2] - 在代码补全、情感陪伴、智能客服等场景,“模型+记忆”的商业模式正催生越来越多通过PMF验证的细分爆款 [2] - 红熊AI等主打AI记忆科学解决方案的厂商成为新的行业焦点 [2] 对AI记忆的行业误解一:记忆等于RAG加长上下文 - 在2023-2024年AI基础设施爆发期,RAG技术一度成为AI记忆的代名词 [4] - RAG通过外置向量数据库,使大模型能掌握训练阶段未更新的信息和私有知识 [4] - 传统RAG方案在落地中暴露出短板,例如在法律场景中,语义相似但适用性不同的条款会被混淆,且无法遵循法律效力优先级 [6] - 在客服场景中,RAG方案会为重复问题花费不必要的检索成本,且无法实现跨会话记忆 [7] - 基于语义检索的RAG方案只能解决不到60%的真实需求 [8] - RAG作为一种被动检索工具,解决了“不知道”的问题,但无法解决“记不住”的核心矛盾,且数据更新通常以周为单位,无法实时写入 [8] - RAG存在跨会话记忆丢失、信息无法动态沉淀、不会主动关联经验等能力盲区 [9] 红熊AI的记忆科学体系 - 真正的AI记忆需复刻人脑工作逻辑:短期记得住,长期有常识,判断有感情 [10] - 人脑处理信息经过编码、存储、提取三大环节,是一套动态、实时、可写入可检索的智能系统 [10] - 红熊AI据此打造了完整的记忆科学体系,将AI记忆拆解为显性记忆、隐性记忆、联想记忆及动态进化记忆,各层通过智能算法动态流转 [10] - 该体系为记忆加入了情感加权、智能遗忘、跨智能体协同等能力,从底层重构了AI记忆逻辑,解决了数据量爆炸带来的成本与上下文过长问题 [10] 对AI记忆的行业误解二:事实检索重于一切 - 红熊AI团队曾将准确率作为记忆系统的唯一KPI,这在金融风控、技术运维等事实优先的场景中运行顺畅 [11] - 但在情感咨询等场景中,用户需要的是被理解、被安抚、被肯定,而非精准的事实答案 [13] - 这促使红熊AI攻克了记忆系统的情感难题,通过给每段记忆贴上情感权重标签,从多维度量化用户情绪 [14] - 情感权重会决定记忆的优先级,并影响AI的回应逻辑,例如在用户有负面评价记忆时,AI需先安抚再同步事实信息 [14] 对AI记忆的行业误解三:Agent的未来是标准化 - 记忆与工具的加持降低了Agent开发门槛,可针对特殊场景提供解决方案,从而瓦解传统SaaS的场景壁垒 [15] - 但这也伴随着非标碎片化挑战,没有一套标准化记忆系统能适配所有行业,甚至同一行业的不同品类都需差异化定制 [15] - 在情商落地方面,不同行业的情感权重占比差异巨大:售后客服、教育场景占40%-50%,医疗、金融风控场景占10%-20%,通用陪伴场景占20%-30% [16] - 红熊AI必须在做好标准化能力的基础上,接受解决方案环节的非标准化 [17] 红熊AI的共性能力建设与非标解决方案 - 在记忆熊v0.2.0中,红熊AI强化了集群化Agent记忆协同能力,通过统一记忆中枢实现多Agent间的最小化、按需式记忆共享 [17] - 支持主管模式和协作模式,适配不同场景的智能体组织形态 [17] - 针对多模态数据处理,推出三大解析引擎实现100%版面还原,支持PPTX高保真解析、音视频以文搜音 [17] - 通过向量加图谱双驱动检索,将多跳推理准确率提升至92.5% [17] - 非标环节集中于行业词汇库积累、知识图谱打造等解决方案,首次拓展新品类客户需花费数周进行前期共建与知识梳理 [19] - 用户数据处理消耗整体约25%的成本 [19] - 需要积累不同行业知识,例如医疗行业的负面词是“疼痛、过敏、并发症”,金融行业核心词是“平仓、建仓、净值” [21] - 这种前期非标准化和缓慢的开拓过程,会成为企业的先发优势和核心壁垒 [21] 行业趋势展望 - 进入2026年,大模型的叙事正从以Scaling Law为核心的参数竞赛,切换至以记忆为主导的下半场 [22] - 记忆能力已成为拉开不同模型和Agent表现差异的核心 [22] - 参与玩家包括上游的模型厂商、框架玩家,以及红熊AI这样的专业解决方案商 [22] - 这一过程不如“百模大战”那样高举高打,也不会快速决出阶段性赢家 [22]
计算机行业点评:AI投资从硬到软拐点:再谈谁是中国MongoDB
民生证券· 2025-12-30 13:47
行业投资评级 - 报告对计算机行业维持“推荐”评级 [1] 核心观点 - AI投资正经历从硬件到软件的拐点 向量数据库在AI时代的核心地位持续得到验证 [1][4] - 存储成本提升背景下 “用廉价存储换昂贵内存”的向量数据库技术有望成为重大技术趋势 [4] - 国产向量数据库正加速落地 在金融、能源等重点行业已出现千万级采购的积极信号 行业处于从技术探索走向规模化落地的关键阶段 [4] - 在英伟达Storage Next等新技术催化下 向量数据库赛道有望加速发展 [4] 行业动态与技术进展 - 星环科技ArgoDB与海光7000系列处理器的联合解决方案在TPC-DS基准测试中创造了新的性能纪录 比现有TPC官网公开的世界第一性能成绩提升了62% [4] - 向量数据库技术出现重大趋势 Milvus推出的AiSAQ索引可将向量检索的内存占用从32GB大幅降低至10MB 更多利用低成本SSD替换高成本DRAM [4] 商业模式与定价 - 向量数据库主要围绕计算和存储两大核心需求进行计费 主要有包年包月和按量计费两种模式 [4] - 以北京、上海、广州、成都地区为例 包年包月模式下 计算节点价格为38.3333元/GB/月 存储节点价格为0.7元/GB/月 [4] - 按量计费模式下 计算节点价格为0.1065-0.0532元/GB/小时 存储节点价格为0.000972222元/GB/小时 [4] 投资建议与关注公司 - 报告建议关注星环科技、达梦数据、海量数据、太极股份、超图软件、拓尔思等国内向量数据库厂商 [4]
KIOXIA AiSAQ™ Technology Integrated into Milvus Vector Database
Businesswire· 2025-12-17 10:51
公司动态 - Kioxia公司的KIOXIA AiSAQ™技术已集成到开源向量数据库Milvus中,起始版本为2.6.4 [1]
KIOXIA AiSAQ Technology Integrated into Milvus Vector Database
Businesswire· 2025-12-17 10:05
公司技术整合与合作 - Kioxia America Inc 宣布其AiSAQ™近似最近邻搜索软件技术已集成至全球广泛采用的开源向量数据库Milvus中 起始版本为2.6.4 [1] - 此次集成旨在为开发者和企业提供一条简单实用的路径 以扩展AI应用 同时避免高昂的内存成本 [1] - 该集成扩展了Milvus内部的索引选项范围 为用户提供了另一种经济高效扩展AI检索能力的有力方式 [2][4] 技术解决的问题与价值主张 - 随着组织采用更大的AI模型并构建更复杂的检索增强生成管道 向量数据库因DRAM可扩展性限制而难以跟上RAG和推理需求的快速增长 [2] - DRAM成本已成为向量数据库处理数十亿甚至数万亿嵌入向量时的主要增长障碍 [3] - AiSAQ技术通过大幅降低DRAM需求并实现高质量向量搜索 使大规模RAG部署更易实现、更经济且更易于扩展 [2] - 通过原生集成AiSAQ Milvus现在支持SSD优化的向量索引 在保持高质量搜索性能的同时 显著降低了内存使用量 为企业提供了更具成本效益的扩展检索管道的路径 [3] 行业趋势与战略意义 - AI行业正从构建大规模基础模型转向部署可扩展、经济高效的推理解决方案以解决现实世界问题 [5] - RAG是这一转变的核心 AiSAQ的创建旨在帮助社区充分利用基于SSD的向量架构 [5] - 与Milvus的集成加强了开源生态系统 并支持开发者构建更快、更高效的AI应用 [5] - 公司持续推动AiSAQ技术向万亿向量规模迈进 [4] 技术细节与功能 - AiSAQ开源软件技术通过将所有RAG数据库元素存储在SSD上来提高向量可扩展性 [4] - 该技术提供调优选项 以优先考虑性能或高容量向量可扩展性 [4] - 该技术旨在减少生成式AI系统中的DRAM需求 并已作为开源软件发布 [9] 公司背景 - Kioxia America Inc 是Kioxia Corporation的美国子公司 后者是全球领先的闪存和固态硬盘供应商 [6] - 公司从发明闪存到如今的突破性BiCS FLASH™ 3D技术 持续开创创新的内存、SSD和软件解决方案 [6] - 其创新的3D闪存技术BiCS FLASH正在塑造包括先进智能手机、PC、汽车系统、数据中心和生成式AI系统在内的高密度应用存储的未来 [6][7]
Agentic AI时代,向量数据库成“必选项”
钛媒体APP· 2025-12-05 13:18
行业趋势与市场前景 - Agentic AI(代理式AI)的兴起正在对底层数据库基础设施提出全新要求,向量数据库从幕后走向台前,成为支撑下一代智能体系统的关键基础设施 [1] - 生成式AI以内容创造为核心,Agentic AI以自主决策交互为特征,二者的演进推动向量数据库从基础存储检索工具向AI能力基座升级 [2] - 据Gartner预测,2025年Agentic AI市场规模将突破千亿美元,年复合增长率超65% [2] - 据Gartner预测,到2028年,支持生成式AI的数据库支出将达2180亿美元,占市场74% [3] - 2024年全球云数据库管理系统收入占比已达64%(766亿美元),贡献了89%的市场增量,云已成为数据库的主流部署环境 [13] Agentic AI对数据库的核心需求 - Agentic AI的核心特征是自主目标驱动,能够理解复杂需求、拆分任务流程、调用外部工具、实时调整策略,这彻底改变了传统RAG被动、静态、低频的调用模式 [2] - 对读写性能要求极高:Agent在单次任务中可能产生数十次读写操作,调用记忆模块的频次和数据更新速度远超传统RAG场景 [5] - 需支持“千人千面”的个性化数据存储:为每个用户生成独立的行为轨迹、偏好向量等,向量数据动辄达到百亿量级 [6] - 需在成本与性能间实现平衡:要求数据库具备智能化的数据生命周期管理,实现热数据高性能访问,冷数据低成本存档 [6] - 需具备多模态融合处理能力:能够同时处理文本、图像、地理位置、用户行为等多种信号的向量,并实现跨模态关联检索 [7] 向量数据库的核心价值与功能 - 向量数据库的核心价值在于高效检索“语义相似性”,擅长处理非结构化或半结构化数据编码生成的高维向量,以找出最相似的Top-K个向量 [9] - 作为大语言模型的记忆体,以极具性价比的形式提供存储功能,在减少大模型开发成本的同时提高其性能 [9] - 为对数据隐私有需求的企业提供了存储和管理企业知识的不二选择 [9] - 为Agentic AI提供四大不可替代的价值:构建可扩展的认知记忆、实现低延迟的经验检索、支撑多Agent的集体协作、降低AI落地的信任门槛 [9][10] - 具体技术优势包括:分布式架构支持百亿级向量存储、配合冷热分层、AutoIndex技术使查询性能提升3-5倍、支持BYOC方案满足合规要求 [9][10] 公司(Zilliz)产品与战略 - Zilliz是全球首个向量数据库企业,创造了开源向量数据库Milvus,并推出商业版Zilliz Cloud [3] - 公司产品Milvus及Zilliz Cloud是为数不多能处理百亿量级个性化向量数据的产品 [6] - Milvus针对高性能读写做了大量优化,并推出了内存-磁盘-对象存储的多层存储方案以平衡成本与性能 [5][6] - Milvus自2.4版本开始支持多向量列及各种标量数据,积累了稠密向量、稀疏向量、二值型向量等向量类型数据,以及地理位置、标签等标量类型数据的支持 [7] - 公司采用开源Milvus与闭源Zilliz Cloud“双管齐下”的商业模式,两者完全接口兼容,企业可平滑迁移,迁移成本几乎为零 [10][12] - 公司定位在AI基础设施层,将向量数据库作为连接大模型与垂直场景的关键齿轮 [10] 公司(Zilliz)合作伙伴与云协同 - Zilliz自2021年起与亚马逊云科技展开深度合作,目前是其最高等级的第三方合作伙伴,合作涵盖技术适配、产品集成、市场推广、客户服务等多个层面 [13] - 基于Amazon EC2丰富的实例类型,Zilliz Cloud提供了性能型、容量型等多套深度优化的解决方案 [13] - 基于Amazon EKS的容器化自动扩缩容能力,Zilliz Cloud可动态应对流量高峰 [14] - Zilliz Cloud适配了支持Amazon Graviton处理器的实例,可将成本优化提升20%以上,并显著提升性能 [14] - 客户可利用亚马逊云科技在模型服务层的优势,通过Amazon Bedrock调用领先的大语言模型和嵌入模型 [14] - 亚马逊云科技Marketplace为Zilliz导入大量用户,其中包括许多国内AI出海企业 [15] - 合作是双向的,Zilliz Cloud的高性能向量搜索能力也为亚马逊云科技企业客户带来商业影响,并引导用户使用SageMaker、Bedrock等亚马逊云科技AI产品 [15] 应用案例与成效 - 在电商智能客服场景中,Agentic AI需在毫秒级内完成海量非结构化数据的检索与关联,传统数据库无法承载 [8] - 在HR领域,智联招聘与Milvus合作,采用向量召回技术提升招聘匹配效率 [11] - 在传媒领域,搜狐新闻利用Milvus分布式向量检索引擎,使向量检索速度提升10倍,新闻分类准确率提高至95%,并减少了内存占用 [11] - 某电商客户图搜场景实现<30毫秒响应 [10] - 某头部电商在业务高峰期将自建Milvus集群切换到Zilliz Cloud,以解决稳定性与性能调优瓶颈 [12] - 美国法律AI SaaS公司Filevine使用Zilliz Cloud使海量法律文档可快速搜索,将研究时间从数小时缩短至数分钟,这得益于Zilliz Cloud自研内核Cardinal相较开源Milvus 10倍的性能提升以及AutoIndex优化 [16]
模力工场 020 周 AI 应用榜:灵臂 Lybic 登顶榜首,榜单聚光“Agent 原生工作基建”!
AI前线· 2025-11-19 15:00
AI Infra工具平台发展 - 模力工场将AI Infra定义为一整套让AI真正运行并实现规模化落地的基础设施组合,涵盖从GPU到数据、模型、MLOps、LLMOps及部分开发基础设施的完整链条[2] - 平台已完成49款AI Infra工具的上线,并设有专门的AI Infra标签专区供用户查漏补缺[2] - 公司参与杭州AI开源生态大会,通过展台和分论坛分享行业洞见,推动AI Infra工具的应用普及[2] 智能体技术突破与应用趋势 - 灵臂Lybic通过图形界面识别技术实现智能体"看懂并操作任意图形界面"的能力,摒弃传统API集成和脚本编码模式,提供零侵入、自适应、全平台兼容的操作环境[6][10] - 智能体应用呈现"Agent × 数据 × 工作流"组合趋势,典型案例如TDgpt用一行SQL驾驭时序算法,AskTable让企业成员在表格里对话数据[6] - 行业从讨论"大模型能做什么"转向关注如何将智能体接入真实界面、真实数据和真实工程体系,这被视为下一轮生产力红利的关键入口[7] 企业级AI应用场景深化 - 灵臂Lybic聚焦三大核心场景:企业内部运营流程自动化、出海营销/内容采集类场景、IT和工业运维,强调7×24小时稳定执行能力[17] - 企业级需求聚焦稳定性、异常恢复、长任务不中断、数据安全可控及私有化部署五个关键维度,这些因素决定企业是否愿意让AI执行真实业务流程[18] - AskTable通过AI数据表格智能体平台实现零门槛数据洞察,将"会看表格的人"升级为"会用AI做决策的人"[21] 开发者生态与平台机制 - 模力工场采用多维权重评估机制,以评论数作为核心指标,结合收藏点赞和推荐人贡献形成榜单排名[25][27] - 平台为开发者提供极客邦科技旗下媒体矩阵资源支持,包括InfoQ、AI前线等渠道,可触达千万级技术决策者与开发者[28] - 上榜应用展示全球知识协同趋势,如EduNest实现多语言内容互译与重构,推动知识流动突破地域和语言限制[22]
为什么 Claude Code 放弃代码索引,使用 50 年前的 grep 技术?
程序员的那些事· 2025-09-25 10:53
文章核心观点 - Claude Code选择使用grep等无索引、实时搜索的方式,这一看似技术倒退的选择,实则是对Unix无状态设计哲学的现代传承,在性能上大幅超越了其他方案[5] - 无状态设计的核心优势在于通过放弃复杂的状态管理,获得更好的可组合性、可靠性和可扩展性,这在计算机科学历史上被反复证明[5] - 在AI时代,Claude Code的选择重新定义了“智能”工具的标准:真正稀缺的不是智能本身,而是可预测性、行为的确定性以及知道何时遗忘[54] 引言:一个看似倒退的选择 - 当主流AI编程助手采用向量索引实现语义搜索时,Claude Code选择了grep这个诞生于1973年的命令行工具,不建立持久代码索引,每次搜索实时执行[5] - 这一选择引发行业讨论,有观点认为这是“一步烂棋”,并质疑其grep-only方式会消耗过多tokens[3] 理解状态的本质 - 状态的本质区别在于:无状态计算的输出仅取决于当前输入(Output = f(Input)),而有状态计算的输出则同时依赖于输入和历史(Output = f(Input, History))[12] - 银行账户是有状态的典型例子,需要记住所有历史交易;而汇率转换是无状态的,只需当前汇率即可完成计算[9] 无状态思想的历史脉络 - 无状态思想可追溯至17世纪的数学函数,其确定性和可预测性成为无状态设计的理论基础[11] - 1973年Unix管道概念的提出将无状态思想带入实践,通过管道符号将多个无状态工具串联,每个工具只做一件事并做到极致,从而获得无限的组合可能[14][16] - 2000年REST架构将无状态作为核心约束,因其在分布式系统中显著降低了横向扩容的复杂度[20][22] - Serverless架构(如2014年的Lambda)通过强制无状态的编程模型,换取运维的简单性和成本的弹性[23][25] 无状态设计的优势 - 可组合性:无状态组件像乐高积木,可通过自由组合解决不同问题,每个新需求只需在已有组合上微调,无需重写整个程序[30][31] - 并行自然性:无状态设计让并行变得简单高效,例如16个CPU核心可独立工作,将搜索任务从42秒缩短至3.8秒,实现10倍性能提升[32][34] - 简单性:无状态服务无需复杂的生命周期管理(如启动准备、关闭清理、崩溃恢复),降低了开发复杂度和系统可靠性风险[35] - 可测试性:无状态函数具有确定性,相同输入永远产生相同输出,测试时无需准备环境或清理状态,排错更简单[35] 现实的权衡 - 某些场景状态是必需品,如游戏世界需要持续性、用户界面需要响应性、资源管理需要经济性[39][41] - 判断标准是:如果系统崩溃重启,用户能接受从零开始则为无状态,否则为有状态[41] - 现实系统通常采用混合策略,最常见的是无状态计算与有状态存储结合,如无状态API服务器搭配有状态数据库[43][44][45] - 核心洞察是:选择无状态或有状态是工程权衡的艺术,状态本身并非问题,无管理的状态才是问题根源[47] AI时代的新思考 - Claude Code的“agentic search”方案在性能测试中大幅超越了RAG(向量索引)等其他方案[49] - 其优势包括零配置自由(立即可用,支持管道组合)、确定性价值(行为完全可预测)、隐私根本保障(完全本地执行,架构上杜绝泄露)以及维护零成本(无索引卡住或缓存损坏问题)[50][51] - 不同技术方案有各自适用场景:Cursor向量索引适合创意编程和探索代码库;JetBrains传统索引适合企业级开发;Claude Code无索引方案则适合重视简单、可控、可组合的场景[52][53] - 在AI时代,无状态设计的意义在于重新思考智能工具的标准,强调可预测性和行为确定性比单纯的记忆更重要[54]