Workflow
多模态视觉语言模型(VLM)
icon
搜索文档
Karpathy盛赞DeepSeek-OCR“淘汰”tokenizer!实测如何用Claude Code 让新模型跑在N卡上
AI前线· 2025-10-21 12:54
DeepSeek-OCR模型技术突破 - 模型发布6.6GB专门为OCR微调的模型,首次量化视觉-文本token压缩比,验证10倍近无损压缩、20倍仍保有60%精度的可行性[2] - 提出DeepEncoder解决现有编码器高分辨率-低内存-少token不可兼得的问题,在实用场景达到SOTA且token消耗最少[2] - 采用仅12层的精简架构,因OCR本质是模式识别任务,不需要太多推理或长程记忆[5] - 进入新兴小型专家混合范式,总规模较大但每次推理仅激活5亿参数,能单批次处理大量数据[7] - 采用激进编码策略结合语义池化,在输入阶段进行大量信号压缩,显著提升处理速度[7] 输入范式革命性观点 - Karpathy提出根本性问题:对大语言模型而言像素可能比文本是更好的输入形式,文本token可能是浪费而糟糕的输入方式[3] - 认为Tokenizer必须被淘汰,许多文本到文本任务可重构为视觉到文本任务,但反过来行不通[4] - 未来用户输入可能都是图像,模型输出仍是文本,因生成像素级输出不现实且暂时不需要[4] - 图像输入优势:信息压缩更高效,在更短上下文窗口中包含更多信息;信息流更丰富,能自然包含加粗、颜色、格式等视觉要素[6] - 输入可天然使用双向注意力,而非语言模型必须的自回归逐步处理,结构表达更强大[6] 行业影响与竞争格局 - 代表轻量高效OCR模型最佳范例,可能成为未来所有OCR系统的起点[4] - 在多模态视觉语言模型出现前,业界领先的Google Cloud OCR模型规模仅一亿参数左右[4] - 17亿参数的dots.ocr在内部和公开基准测试中准确率普遍超过OpenAI、Anthropic,某些任务优于Gemini,成本仅为后者一小部分[4] - 模型意义在于成为真正基础型OCR模型,找到推理效率与性能最佳平衡点,奠定工程基础[8] - 要在大规模真实业务中应用,仍需针对特定领域进行数据标注和定制化流程设计[8] 开发者实践与部署案例 - 资深开发者Simon Willison花40分钟成功在NVIDIA Spark上运行模型,通过Claude Code用4次提示解决兼容问题[9] - 环境搭建涉及Docker容器、CUDA配置、npm安装Claude Code等步骤[10] - 遇到PyTorch 2.5.1不支持新GPU问题,通过寻找ARM版本CUDA wheel包,升级到PyTorch 2.9.0解决兼容性[14][15] - 模型成功识别文本与定位框,生成检测结果,不同提示词模式表现各异[16][17][19] - 实践总结成功要点:给予充分环境与目标、沙箱模式完全自主执行、关键时刻用经验引导[22]
AI陪伴新赛道:他给800万游戏玩家找了个AI搭子?
混沌学园· 2025-08-22 19:58
核心观点 - 公司通过"场景感知"技术重新定义AI陪伴 将情感陪伴与实时场景理解相结合 创造基于共同经历的数字伙伴体验[9][17][18] - 产品定位从抢占用户时间转向增强现有体验 通过嵌入用户现有活动场景提供无干扰陪伴[16][20] - 创始人经历促使公司战略转向深度体验优化 暂停短期变现功能 集中开发多模态视觉语言模型提升核心体验[25][26] 市场定位与用户数据 - 产品已积累800万用户 PC端次日留存率达70% 显示强劲用户粘性[2] - 瞄准移动互联网后时代机会 认为用户时间已被充分分配 新机会在于提升现有时间质量而非争夺时间[3] 产品创新 - 首创"情感陪伴+场景感知"公式 使AI能直接理解用户屏幕内容并提供情境化互动[17][18] - 采用悬浮球/桌宠形式存在 保持随时可用但不打断用户主要活动[20] - 基于共同记忆的互动模式 如提醒用户游戏习惯或成就 创造更真实的陪伴感[21] 技术架构 - 借鉴AI编程助手Cursor的嵌入式设计理念 在不打扰用户的前提下提供精准辅助[11][13][15] - 重点开发多模态视觉语言模型(VLM) 增强对游戏画面的深度理解能力[25] - 通过"看到我"而非仅仅"听我说"的方式实现维度突破 提升互动真实性[18] 商业模式 - 不采用传统APP时间争夺模式 而是通过为现有快乐体验"加Buff"创造价值[16] - 放弃快速变现的游戏皮肤和角色开发 优先投入核心技术提升用户体验[25][26] 行业洞察 - 移动互联网时代结束 用户时间分配趋于饱和 新机会在于体验优化而非流量争夺[3] - 传统AI聊天产品存在根本局限 缺乏共同场景和经历导致互动浮于表面[9] - 人类陪伴需求本质是分享欲和被见证感 而非单纯对话[6][8][9]