Workflow
上下文压缩
icon
搜索文档
10倍压缩率、97%解码精度!DeepSeek开源新模型 为何赢得海内外关注
新浪财经· 2025-10-22 07:26
模型发布与核心创新 - DeepSeek于10月20日开源最新大模型DeepSeek-OCR,这是一种通过光学2D映射压缩长上下文的视觉-文本压缩范式[1] - 模型核心创新在于用少量视觉token表示大量文本内容,旨在降低大模型计算开销,例如将1000字文章压缩成100个视觉tokens[1][7][8] - 该项目由DeepSeek三位研究员Haoran Wei、Yaofeng Sun、Yukun Li共同完成,其中一作作者Haoran Wei曾主导开发GOT-OCR2.0系统[1] 技术架构与性能 - DeepSeek-OCR架构分为两部分:专为高压缩、高分辨率文档处理的DeepEncoder视觉编码器和轻量级混合专家语言解码器DeepSeek3B-MoE[3] - DeepEncoder融合SAM和CLIP两种成熟视觉模型架构,前者擅长局部细节处理,后者能捕获整体知识信息[4] - 实验表明,当压缩比<10×时模型可达97% OCR精度,即使在20×压缩比下精度仍保持约60%,在十倍压缩下识别准确率达96.5%[6][8] 行业影响与专家评价 - 模型发布后获海外科技媒体广泛赞美,被评价为"AI的JPEG时刻",前特斯拉AI总监Andrej Karpathy高度评价该论文[3] - 知名科技媒体《麻省理工科技评论》指出模型具备较强"深度解析"能力,能处理图表、化学分子式等复杂元素,拓展了在金融、科研等专业领域的应用空间[6] - 特斯拉创始人Elon Musk评论认为从长远看,AI模型超过99%的输入和输出都将是光子,没有其他东西可以规模化[4] 应用潜力与生产效率 - 模型初步验证上下文光学压缩可行性,可从少量视觉tokens有效解码超过10倍数量文本tokens,具备大规模生产预训练数据能力[7] - 单张A100-40G GPU每天可生成超过20万页训练数据,为大型语言模型和视觉-语言模型开发提供支持[7] - 模型不仅能识别标准文本,还能将图表转换为表格数据、分子式输出为SMILES格式,展示出在历史长上下文压缩和LLM记忆遗忘机制研究领域的应用前景[6][7]
Multi-Agent 协作兴起,RAG 注定只是过渡方案?
机器之心· 2025-07-19 09:31
从 RAG 检索增强到多层级状态演化,AI memory 系统崛起 - AI memory 系统正从短期响应向长期交互演进,为智能体注入持续经验能力 [2] - MemoryOS 采用层次化存储架构,将对话 memory 分为短期、中期和长期三层,通过 FIFO 和分段分页机制实现动态迁移 [2] - MemGPT 借鉴操作系统思想,将固定长度上下文视为主内存,通过函数调用在主上下文和外部存储间分页调度,支持大文档分析和多轮会话 [2] - ChatGPT Memory 采用检索增强生成(RAG)方式,通过向量索引检索用户相关信息并注入模型输入,实现对用户偏好和历史信息的记忆 [2] - RAG 侧重外部知识库检索和静态知识注入,依赖向量索引 [2] - AI Memory 注重状态持续性,需维护多层级 memory 架构并管理时序与优先级,结合删除或压缩机制调度有限资源 [3] - RAG 与 Memory 可互补,RAG 增强知识性,Memory 固化对话经验和连贯性 [3] 从模态融合到隐私权限,AI memory 正面临哪些挑战 - AI memory 系统面临静态存储无法演化、多模态多 Agent 协同混乱、检索扩容冲突等技术挑战 [4] - 需解决层级和状态过滤缺失、企业级多任务权限控制、隐私可控性弱等问题 [4] - 挑战驱动 memory 系统向更智能、更安全、更高效方向演进 [4]