Visual Long-term Memory
搜索文档
Z Potentials|沈俊潇:从 Meta 出走,剑桥博士创立 Memories.ai,获 Samsung Next、Susa Ventures 千万美元押注
Z Potentials· 2026-02-10 10:07
文章核心观点 - 当前AI行业过度聚焦于提升模型的推理与生成能力(“智力层”),而忽视了“记忆层”尤其是视觉长期记忆的基础设施建设 [1][2] - 视频是现实世界的主要信息载体,但现有处理方式(切片、打标签、生成描述)原始且低效,无法满足未来全天候感知设备和智能体(Agent)的需求 [1][2] - Memories.ai公司选择了一条差异化路径:不把视频当作待描述的内容,而是将其视为机器可长期存储、高效检索和持续回溯的“记忆”本身,致力于构建视觉长期记忆的底层基础设施 [1][2][9] 创始人背景与创业动机 - 创始人Shawn拥有剑桥大学计算机工程背景及Meta Reality Labs的多模态AI研究经历,这些经历使其坚信未来AGI必须能“看懂”而不仅是“读懂”世界 [4][5][6] - 在Meta期间,Shawn观察到两个关键趋势:1)未来设备将全天候感知并重建3D/4D世界;2)大量涌现的智能体因缺乏对用户完整上下文的理解而受限 [7] - 基于此判断,Shawn认为未来需要一个位于“人”与“所有智能体”之间的个人AI系统,其核心是保存用户完整、真实、长期的记忆,这也是公司命名为Memories.ai的原因 [8] 技术路线与核心壁垒 - 公司核心技术是LVMM(大型视觉记忆模型),这是一套为机器构建视觉长期记忆的底层系统,而非更会说话的多模态模型 [2][23] - 技术聚焦于两个核心方向:1)**编码层**:将视频全量编码为AI可直接消费的结构化数据,而非依赖提示词(prompt)触发的局部理解;2)**搜索层**:构建视频原生(video-native)的高效检索体系 [10][12] - 采用“世界模型编码器”技术路线,让模型像人类一样先形成对世界的整体概念理解,再进行视觉与语言的对齐,从而实现全量、连续的编码,避免传统方案的注意力缺陷 [25] - 与传统通过生成文字描述(caption)再检索的方案相比,该路线避免了因token计算成本高导致的处理速度慢、成本昂贵、无法并发扩展等问题,更适合真实工作流与效率场景 [14][15] 市场定位与商业应用 - 公司定位为“视频记忆基础设施”提供商,专注于编码与记忆层,不与专注推理(reasoning)的大模型厂商竞争,而是形成互补协同关系 [33][36][37] - 短期已与安防公司、电商平台展开合作,中长期计划与国内一线大厂、AI硬件初创公司及人形机器人团队合作 [10] - **企业端应用**:已在安防与企业运营管理领域落地,例如实时监测危险事件、基于多模态理解的人物画像与行为建模,以及连锁餐饮的员工操作规范检查 [21][26][27] - **个人/消费端应用**:未来可作为“AI相册”实现基于自然语言的记忆检索,并为健身、膳食等垂直领域智能体提供底层视觉数据支持 [18][19][20] - 公司长期愿景是成为“中央化视觉记忆平台”,统一处理来自各种摄像头和智能设备的影像内容的存储、编码与理解 [28] 融资情况与公司策略 - 公司在短时间内完成了超过800万美元的种子轮融资,老股东随后追加约500万美元,累计融资金额接近1300万美元 [30] - 领投方为Susa Ventures(Robinhood早期投资人),投资方还包括Samsung Next、Seedcamp等 [31] - 公司策略极度专注(focus),只攻克“视觉记忆与视频编码”这一基础设施层,暂不涉足消费级硬件,以建立明确而独特的技术定位 [31][33] - 为吸引顶级研究人才,公司提供了高达千万美元级别的薪酬激励,并已提前搭建了包括硬件平台、评估框架和大规模数据集在内的完整研发基础设施,以加速技术迭代 [32][33]