Visual Long-term Memory - 财报，业绩电话会，研报，新闻

Visual Long-term Memory

搜索文档

Z Potentials｜沈俊潇：从 Meta 出走，剑桥博士创立 Memories.ai，获 Samsung Next、Susa Ventures 千万美元押注

Z Potentials· 2026-02-10 10:07

文章核心观点 - 当前AI行业过度聚焦于提升模型的推理与生成能力（“智力层”），而忽视了“记忆层”尤其是视觉长期记忆的基础设施建设 [1][2] - 视频是现实世界的主要信息载体，但现有处理方式（切片、打标签、生成描述）原始且低效，无法满足未来全天候感知设备和智能体（Agent）的需求 [1][2] - Memories.ai公司选择了一条差异化路径：不把视频当作待描述的内容，而是将其视为机器可长期存储、高效检索和持续回溯的“记忆”本身，致力于构建视觉长期记忆的底层基础设施 [1][2][9] 创始人背景与创业动机 - 创始人Shawn拥有剑桥大学计算机工程背景及Meta Reality Labs的多模态AI研究经历，这些经历使其坚信未来AGI必须能“看懂”而不仅是“读懂”世界 [4][5][6] - 在Meta期间，Shawn观察到两个关键趋势：1）未来设备将全天候感知并重建3D/4D世界；2）大量涌现的智能体因缺乏对用户完整上下文的理解而受限 [7] - 基于此判断，Shawn认为未来需要一个位于“人”与“所有智能体”之间的个人AI系统，其核心是保存用户完整、真实、长期的记忆，这也是公司命名为Memories.ai的原因 [8] 技术路线与核心壁垒 - 公司核心技术是LVMM（大型视觉记忆模型），这是一套为机器构建视觉长期记忆的底层系统，而非更会说话的多模态模型 [2][23] - 技术聚焦于两个核心方向：1）**编码层**：将视频全量编码为AI可直接消费的结构化数据，而非依赖提示词（prompt）触发的局部理解；2）**搜索层**：构建视频原生（video-native）的高效检索体系 [10][12] - 采用“世界模型编码器”技术路线，让模型像人类一样先形成对世界的整体概念理解，再进行视觉与语言的对齐，从而实现全量、连续的编码，避免传统方案的注意力缺陷 [25] - 与传统通过生成文字描述（caption）再检索的方案相比，该路线避免了因token计算成本高导致的处理速度慢、成本昂贵、无法并发扩展等问题，更适合真实工作流与效率场景 [14][15] 市场定位与商业应用 - 公司定位为“视频记忆基础设施”提供商，专注于编码与记忆层，不与专注推理（reasoning）的大模型厂商竞争，而是形成互补协同关系 [33][36][37] - 短期已与安防公司、电商平台展开合作，中长期计划与国内一线大厂、AI硬件初创公司及人形机器人团队合作 [10] - **企业端应用**：已在安防与企业运营管理领域落地，例如实时监测危险事件、基于多模态理解的人物画像与行为建模，以及连锁餐饮的员工操作规范检查 [21][26][27] - **个人/消费端应用**：未来可作为“AI相册”实现基于自然语言的记忆检索，并为健身、膳食等垂直领域智能体提供底层视觉数据支持 [18][19][20] - 公司长期愿景是成为“中央化视觉记忆平台”，统一处理来自各种摄像头和智能设备的影像内容的存储、编码与理解 [28] 融资情况与公司策略 - 公司在短时间内完成了超过800万美元的种子轮融资，老股东随后追加约500万美元，累计融资金额接近1300万美元 [30] - 领投方为Susa Ventures（Robinhood早期投资人），投资方还包括Samsung Next、Seedcamp等 [31] - 公司策略极度专注（focus），只攻克“视觉记忆与视频编码”这一基础设施层，暂不涉足消费级硬件，以建立明确而独特的技术定位 [31][33] - 为吸引顶级研究人才，公司提供了高达千万美元级别的薪酬激励，并已提前搭建了包括硬件平台、评估框架和大规模数据集在内的完整研发基础设施，以加速技术迭代 [32][33]

Artificial Intelligence

Visual Long-term Memory

AGI

Artificial Intelligence

Large Visual Memory Model (LVMM)

LUCI

Artificial Intelligence

Visual Long-term Memory

AGI

Artificial Intelligence

Large Visual Memory Model (LVMM)

LUCI