对谈 Memories AI 创始人 Shawn: 给 AI 做一套“视觉海马体”｜Best Minds

文章核心观点 - Memoriesai致力于构建基础性视觉记忆层，目标是成为所有AI的"海马体"，通过LVMM（大型视觉记忆模型）实现对无限量视频数据的压缩、索引和查询 [2][8][9] - 当前AI的记忆本质是"上下文工程"，而真正的类人记忆应是视觉化的，视觉记忆与文本记忆在数据特性（数据量、信噪比）上存在根本差异 [13][14][18] - 构建PB级基础设施能力是打造全球视觉记忆的护城河，公司已建立亿级视频数据库并实现规模化运行 [28][29][30] - 视觉记忆技术将赋能多模态AI助手和人形机器人，成为实现高度个性化服务的关键组件 [21][39][40] Memoriesai的视觉记忆技术与多模态AI应用路径 - 公司定位为B2B基础设施提供商，通过LVMM系统解决视频数据特有的海量存储（单日视频数据超5GB）和低信噪比问题 [8][20][22] - 技术路径区别于text-to-video生成类公司，专注于video-to-text理解领域，解决B2B场景的长链路需求 [12][17] - 视觉记忆系统包含解压层、聚合模块和服务层，采用类脑架构模拟人类记忆的压缩、索引和检索机制 [27][28] LVMM的人类记忆模拟机制 - 系统设计受人类记忆类型（语义/程序性/情景记忆）启发，但尚未实现人类水平的连续学习和记忆重构能力 [25][26] - 关键技术突破包括：基于范式的token聚合、视觉检索模型（VRM）和亿级数据库的实时问答能力 [27][29] - 当前系统在信息重要性判断（retrieval & reranking）环节已接近人脑机制，但抽象能力仍存在差距 [26][27] 大规模视频记忆的基础设施与VRM技术路径 - 采用非端到端架构，通过分布式数据库处理增长性数据，技术路径区别于Gemini等有上下文限制的模型 [28][29] - VRM技术超越RAG（检索增强生成）框架，直接对视觉数据进行token化处理，要求更高的基础设施能力 [29][30] - 团队核心成员来自Meta Ads Team，具备处理亿级数据库的工程经验，实现从演示到规模化运行的跨越 [30] 视觉记忆技术的多行业应用 - 安防领域：实现实时行为检测，应用于商场人流量统计、餐厅翻台率等B2B场景，覆盖零售/楼宇/停车场等 [34][35] - 媒体领域：为短剧提供毫秒级人物信息分析、自动剧本生成和视频再利用解决方案，提升内容生产效率 [35][36] - 视频营销：建立TikTok视频索引库（超100万条），提供创意引擎和网红达人搜索服务，优化内容策略 [35][41] 视觉记忆技术的隐私合规与未来应用方向 - 通过SOC 2 Type 1/2和GDPR合规认证，建立受监管的数据处理体系 [38] - 未来最大应用场景为AI助手和类人机器人，通过视觉记忆实现人机情感连接和个性化服务 [39][40] - 现阶段聚焦B2B基础设施赋能，长期可能通过开源或示范应用推动生态建设 [40][41]