Workflow
AI记忆
icon
搜索文档
AI变革将是未来十年的周期
虎嗅APP· 2025-10-21 07:58
以下文章来源于王智远 ,作者王智远 王智远 . 商业记录者,主持人、《复利思维》《自醒》图书作者;专注于市场营销、消费心理、AI新科技、精 神生活与商业探索。 本文来自微信公众号: 王智远 ,作者:王智远,原文标题:《Karpathy:十年、幽灵、智能体》, 题图来自:AI生成 昨天听了一个播客,来自 Karpathy。 Karpathy 是特斯拉自动驾驶团队的前负责人,最早跟随 OpenAI 创始团队的研究者之一。 在很多人眼里,Karpathy 代表当下最接近"AI 思维核心"的那类人;他主要提到两件事: 一,AI 变 革将是未来十年的周期;二,我们在造幽灵。 想想看,从 2012 年的 AlexNet 到 2022 年的 GPT,刚好十年。 深度学习在十年前解决了"机器怎么看"的问题,而大模型在今天解决"机器怎么想";中间隔着十年时 间,但也隔着一次完整的范式更替。 他说,这是 AI 的节奏。 他说,这像两把钥匙,一把打开"时间",一把打开"智能的本质"。 我一开始以为是夸张的说法,后来发现它有道理,毕竟,从外部看,AI 的变化几乎是爆发式的,一 年一个版本,几个月一个突破。 但 Karpathy 的解 ...
对话 OPPO AI 姜昱辰:手机才是 Memory 最好的土壤,AI 一定会彻底改变智能手机
Founder Park· 2025-10-15 19:26
AI手机行业现状与OPPO的战略定位 - 当前许多前沿AI产品存在用户粘性低、注册即流失的问题,像"毛坯房"和"烂尾楼"[2] - 手机厂商在AI行业讨论中常被忽略,但其掌握着最重要的个人计算设备入口[5][7] - 手机厂商发展相对较慢但稳健,手机是积累个人数据和实现Context、Memory等功能的最佳载体[6] - OPPO作为主流手机厂商,拥有超过1亿用户基础,于2024年4月发布小布记忆功能,10月15日在ColorOS 16中升级[7] AI手机的定义与核心价值 - AI手机不应只是单点AI功能,而应是一个个人化的AI OS,即完全服务个人的超级助理或伙伴[12] - 核心价值在于利用手机中大量长期个人数据,通过感知、记忆和个性化提供贴心服务[15] - AI手机需要具备全天候服务能力、自然智能交互界面和自有生态,最终目标是成为通用personalized agent[18][19] - 用户每周除去睡觉约有120小时,在哪个设备花时间最长,哪个就会成为OS[18] 小布记忆产品的定位与演进 - 小布记忆定位为"碎片化信息的收纳师",而非情感化或字段化方向,避免不切实际的需求[26] - 产品经历了从基础收藏到"第二大脑"的演进,支持更多模态记忆,摘要质量大幅提升[43][47] - 当前人均每天通过手机接收信息量高达80G,是一个世纪前人的20倍,存在强烈碎片化信息处理需求[35] - 用户使用场景多样,包括医学生记题目、保险行业记报销单据、考驾照记错题等[57] 记忆系统的技术架构与挑战 - 手机系统实现Memory复杂度远高于Chatbot,需处理多模态、大规模、异质性和噪声数据[60][61] - 记忆系统框架包括记忆表征、更新、检索、应用和增强解码五个关键环节[80] - 行业对记忆分层已有共识(程序性记忆、短期记忆、长期记忆),但具体实现方式尚未收敛[74][75] - 记忆更新与遗忘机制是难点,需要精准的用户需求建模和场景驱动的问题定义[79] 小布记忆的核心功能与评估 - 产品四大价值点:轻松记、方便管、随心搜、主动推,其中主动推是未来重点[89][90] - 摘要功能看似简单实则复杂,需要理解不同场景下用户意图,如餐厅地址、会议日程等[51] - 评估采用"人均记忆条数"作为北极星指标,结合用户满意度拆解为过程指标[54] - 在文本类搜索达到F1-score 90%,自然语言图搜达到60%,远超行业平均水平但仍有提升空间[92] 隐私保护与未来发展方向 - 通过端侧隐私沙箱和云侧私有计算云保障用户数据安全,即使公司也无法查看用户数据[81] - 模型侧使用脱敏数据,通过防火墙机制防止密码等敏感信息泄露[83] - 未来重点是从"第二大脑"向"超级助理"进化,关键在于Proactive能力建设[89][90] - AI时代的"主动推"是基于生成式的个性化信息聚合,与传统推荐算法有本质区别[91] 手机设备的未来演进 - 当前形态的手机一定会被淘汰,但"手机"概念会进化,将迎来重新定义手机的时刻[94][96] - 手机需要打通第三方应用数据,推进智能体生态建设,实现多设备协同[68][70] - Memory能力应该"即插即拔",跟随用户而非绑定特定设备,构建全天候Context网络[70]
Altman与iPhone之父的神秘AI设备陷入瓶颈:算力、人格设计成最大难题
华尔街见闻· 2025-10-05 19:14
项目概述与愿景 - OpenAI首席执行官Sam Altman与前苹果首席设计师Jony Ive合作,旨在打造一款能重塑人机交互的无屏幕人工智能设备 [1] - 该设备被构想为掌上大小、无屏幕、能通过摄像头和麦克风感知世界、并以自然语言与人交流的下一代AI伴侣 [1] - 设备将始终在线,持续采集用户的视觉与听觉信息以构建个性化的AI记忆,目标是超越Echo或Siri,成为真正理解用户的AI朋友 [2] 项目进展与挑战 - 原计划于明年推出的设备项目,目前因算力短缺、软件瓶颈及AI性格难以界定等问题而进展受阻 [1] - 项目面临的最大难题之一是算力短缺,OpenAI目前仍在为维持ChatGPT的计算需求而苦苦支撑,难以支持一款全天候运行的消费级AI设备 [3] - 另一大挑战是如何定义AI的个性,团队希望AI助手能像朋友般自然亲切,但需在聪明与安静、帮忙与不打扰之间取得平衡,避免显得怪异或侵入性过强 [3] 行业背景与战略布局 - 过去一年已有类似AI伴侣设备尝试但多数失败,例如Humane的AI胸针因性能与交互问题被市场冷淡对待,Friend的AI挂件因过于多话和人格怪异而被批评 [4] - OpenAI已与国内消费电子制造巨头立讯精密达成硬件制造协议,计划在2026年末或2027年初推出首款AI设备产品 [2] - 为构建完整AI生态,OpenAI大规模招募前苹果硬件人才,并从Meta挖来从事VR与智能眼镜项目的工程师,显示出复刻苹果式软硬一体路径的战略意图 [5] - OpenAI在今年的估值已飙升至5000亿美元,超过SpaceX,公司亟需证明其能超越软件公司的范畴 [5]
国内外AI大厂重押,初创梭哈,谁能凭「记忆」成为下一个「DeepSeek」?
机器之心· 2025-09-07 13:12
大模型记忆能力的重要性 - 记忆能力成为AI技术演进的关键方向 是提升AI智能的核心 让AI能够持续学习积累经验 适应新任务而不遗忘旧知识 同时实现长上下文的高效理解[2] - 当前大模型依靠长文本和外部数据库的记忆属于"短期记忆" 而业界追求的是具备人类记忆组织、检索、应用方式的"长期记忆"或"终身记忆"[3] - 2024年8月成为记忆功能集中发布期 Anthropic在8月12日让Claude具有记忆功能 谷歌13日宣布Gemini配备记忆能力 字节跳动14日发布具备长期记忆的M3-Agent系统 OpenAI在20日将记忆作为GPT-6重点[4] 行业参与者布局情况 - OpenAI早在2023年2月就在ChatGPT上线记忆功能 马斯克的xAI在2024年4月宣称Grok能记住多轮对话 Mistral AI最新宣布引入记忆系统并与20多个企业平台集成[5][6] - 记忆张量是聚焦Agent Memory的初创企业 推出了业界首个记忆操作系统 其团队成员参与研发的记忆分层大模型Memory³在2024年7月发布[9] - 腾讯AI Lab是业界最早进行利用RAG提升模型记忆能力的研究团队之一 相关研究曾获得2021年ACL杰出论文奖[14] 技术发展驱动力 - 技术侧驱动力来自Scaling Law边际效应下降 通过堆算力、参数量获得性能提升的效果明显下降 即便再去堆成倍算力 都拿不到10%甚至5%的能力突破[20] - 应用侧需求来自AI Agent发展 用户希望AI能作为合作伙伴解决长期问题 需要记住之前的交互与反馈 模型终身记忆成为非常重要的事情[21][22] - 记忆能力是Agent取得突破性进展的必不可少环节 技术侧和应用侧形成双重诉求[7][23] 技术路线分析 - 参数化记忆路线基于基座模型架构驱动融合记忆创新 让模型从参数层面区分需要被记忆的内容 在推理过程中融合到前向推理过程[26] - 上下文记忆路线将信息以prompt方式放在Context Window中 典型代表Manus不断强调在Agent交互过程中做KV cache管理[28] - 外部数据库/RAG路线将信息存储在模型外部数据库中 通过RAG将相关内容取回注入到当前Context Window[28] - 各种路线都有优势与局限性 参数化记忆理论上限高但研发成本高 上下文记忆容易变成纯粹工程事情 RAG上限较低[27][28][29] 市场格局与商业模式 - 第一类玩家是OpenAI、Anthropic、Google等AI厂商 通过引入长短期记忆能力达成个性化服务目标 借助记忆的个性化能力来留住用户[33] - 第二类玩家是记忆中间件服务商 如Mem0、记忆张量的MemOS、Zep等开源记忆框架 面向更广泛开发者提供记忆能力增强[33] - Mistral AI宣布免费扩展企业级业务平台Le Chat 已与20多家平台集成 试图通过提供先进记忆功能打破AI市场竞争格局[35] 发展时间框架 - 距离真正能够大范围应用记忆能力 让用户感受到生活无处不在变化 还需要一到两年时间[36] - 要达到解决记忆幻觉问题、隐私保障和立法等治理层面 至少还需要三到五年时间[37] - 记忆能力竞赛中各类玩家互相角力 战况胶着 谁都有可能突破 未来乾坤未定 一切皆有可能是黑马[38]
那天,AI大模型想起了,被「失忆」所束缚的枷锁
机器之心· 2025-08-31 13:33
大模型记忆技术发展现状 - 谷歌Gemini具备跨越多次对话的长期记忆能力,可从用户交流中提炼关键细节和偏好并主动调用[1] - OpenAI的ChatGPT早在2024年2月就已上线记忆功能,使用频率越多记忆力越好,GPT-6的核心改进也将聚焦记忆能力[3] - Anthropic的Claude能记住之前对话,允许用户无缝继续项目并参考之前讨论[3] - xAI的Grok在4月份实现多轮对话记忆,且记忆内容对用户透明可见并可选择遗忘[6] - 字节跳动联合浙大和上交发布多模态智能体M3-Agent,将记忆能力扩展到视频、音频等多模态数据[10] 记忆技术实现方式分类 - 上下文内记忆:将信息放入模型上下文窗口的短期记忆方式,受Transformer有限上下文窗口长度限制[17][18][19] - 外部记忆:通过检索增强生成(RAG)技术将信息存储在外部数据库的长期记忆方式,支持海量信息存储且无需重新训练模型[22][23] - 参数化记忆:将信息直接编码进大模型自身参数的深层"内化记忆"方式,检索速度极快但更新成本高昂[24][29][30] - 类人的分层式记忆:受认知科学启发设计的类似人脑记忆架构,分为记录具体事件的情景记忆和存储一般事实的语义记忆[31][35] 主要公司的记忆技术实现 - ChatGPT记忆功能:将用户记忆以结构化片段保存于服务器端,通过提示工程方式在生成回复时自动注入模型参考语境[42][44] - Claude记忆机制:只在用户要求时检索和引用过去聊天记录,不建立用户档案[44] - Gemini记忆功能:支持用户直接录入想要记住的内容[45] - MemGPT系统:使用专门记忆LLM智能体管理工作LLM上下文窗口,受传统操作系统分层内存系统启发[49][52] 记忆操作系统创新 - MemOS系统:将记忆看作与算力同等重要的系统资源,通过标准化MemCube记忆单元统一调度明文、激活状态和参数记忆[53][55] - MemoryOS系统:融合计算机操作系统原理与人脑分层记忆机制,构建段页式三级存储架构及四大核心模块[55] - MIRIX系统:将记忆细分为核心记忆、情景记忆、语义记忆、程序记忆、资源记忆、知识金库六类进行处理[57][59] 记忆结构化与多模态进展 - G-Memory系统:设计三层图式基于模型(洞察图、查询图和交互图),支持定制化记忆视角与跨智能体语义映射[66][67][71] - 多模态记忆突破:Memories.ai提出"大视觉记忆模型"(LVMM),能持续捕获、存储和结构化海量视觉数据[70] - M3-Agent架构:通过强化学习驱动的多轮推理与迭代记忆检索,实现无限信息处理和世界知识构建[70][75][78] 原生记忆能力探索 - Meta记忆层概念:通过键-值对检索机制实现关联存储与调用,记忆容量可达1280亿参数级别[77][80][81] - Branch-Train-MiX方法:通过创建多个专家模型在不同数据子集上训练,然后合并为MoE模块实现参数化记忆[83][92] - Yan 2.0 Preview模型:基于非Transformer架构,通过可微分"神经网络记忆单元"实现记忆的存储、检索和遗忘[85][87] 技术发展趋势 - 从功能模拟到结构仿生:向多模态与综合记忆系统演进,整合不同类型记忆模块形成多层次自适应综合记忆中枢[97][98][106] - 从孤立个体到记忆互联:智能体间实现共享记忆与协作,催生集体智能但面临信息不对称和集体隐私保护挑战[100][101] - 终极目标自动演化:实现记忆的自动演化,智能体能够根据环境互动自主学习管理和优化记忆,实现无需人工干预的终身学习[101][103]