Workflow
对谈 Memories AI 创始人 Shawn: 给 AI 做一套“视觉海马体”|Best Minds
海外独角兽·2025-08-13 20:03

文章核心观点 - Memoriesai致力于构建基础性视觉记忆层,目标是成为所有AI的"海马体",通过LVMM(大型视觉记忆模型)实现对无限量视频数据的压缩、索引和查询 [2][8][9] - 当前AI的记忆本质是"上下文工程",而真正的类人记忆应是视觉化的,视觉记忆与文本记忆在数据特性(数据量、信噪比)上存在根本差异 [13][14][18] - 构建PB级基础设施能力是打造全球视觉记忆的护城河,公司已建立亿级视频数据库并实现规模化运行 [28][29][30] - 视觉记忆技术将赋能多模态AI助手和人形机器人,成为实现高度个性化服务的关键组件 [21][39][40] Memoriesai的视觉记忆技术与多模态AI应用路径 - 公司定位为B2B基础设施提供商,通过LVMM系统解决视频数据特有的海量存储(单日视频数据超5GB)和低信噪比问题 [8][20][22] - 技术路径区别于text-to-video生成类公司,专注于video-to-text理解领域,解决B2B场景的长链路需求 [12][17] - 视觉记忆系统包含解压层、聚合模块和服务层,采用类脑架构模拟人类记忆的压缩、索引和检索机制 [27][28] LVMM的人类记忆模拟机制 - 系统设计受人类记忆类型(语义/程序性/情景记忆)启发,但尚未实现人类水平的连续学习和记忆重构能力 [25][26] - 关键技术突破包括:基于范式的token聚合、视觉检索模型(VRM)和亿级数据库的实时问答能力 [27][29] - 当前系统在信息重要性判断(retrieval & reranking)环节已接近人脑机制,但抽象能力仍存在差距 [26][27] 大规模视频记忆的基础设施与VRM技术路径 - 采用非端到端架构,通过分布式数据库处理增长性数据,技术路径区别于Gemini等有上下文限制的模型 [28][29] - VRM技术超越RAG(检索增强生成)框架,直接对视觉数据进行token化处理,要求更高的基础设施能力 [29][30] - 团队核心成员来自Meta Ads Team,具备处理亿级数据库的工程经验,实现从演示到规模化运行的跨越 [30] 视觉记忆技术的多行业应用 - 安防领域:实现实时行为检测,应用于商场人流量统计、餐厅翻台率等B2B场景,覆盖零售/楼宇/停车场等 [34][35] - 媒体领域:为短剧提供毫秒级人物信息分析、自动剧本生成和视频再利用解决方案,提升内容生产效率 [35][36] - 视频营销:建立TikTok视频索引库(超100万条),提供创意引擎和网红达人搜索服务,优化内容策略 [35][41] 视觉记忆技术的隐私合规与未来应用方向 - 通过SOC 2 Type 1/2和GDPR合规认证,建立受监管的数据处理体系 [38] - 未来最大应用场景为AI助手和类人机器人,通过视觉记忆实现人机情感连接和个性化服务 [39][40] - 现阶段聚焦B2B基础设施赋能,长期可能通过开源或示范应用推动生态建设 [40][41]