量子位 - 财报，业绩电话会，研报，新闻

量子位

搜索文档

量子位· 2025-11-08 10:25

公司产品表现与市场定位 - Get笔记是得到团队推出的AI驱动智能笔记工具，上线一年用户数量突破150万，其中超过一半（约73.5万）为纯新用户，未使用过罗辑思维或得到APP [5][10][22][24] - 产品连续登上量子位智库2025年上半年和第三季度的“旗舰AI 100”榜单，在红海的AI知识管理赛道中表现突出 [3][4][5] - 核心功能包括AI多模态记录（语音、链接、图片、文字速记）、知识库管理（个人/团队库、自动归档）和智能问答与搜索（自然语言检索、笔记补写） [9][11] 用户获取与增长策略 - 前期通过自然增长获取用户，小程序阶段采用“病毒化小限制”策略，用户转发好友并生产笔记后可解锁更长录音时长（从3分钟升级至10分钟），推动口碑传播 [58][59] - 建立超过100个用户群收集反馈，但更注重用户投票机制，通过产品内需求池由用户对功能优先级投票（如投票数144的需求优先开发），替代产品经理决策 [50][51][52][57] - 用户群体包括泛创业者、企业AI推动者、高知识密度职业者（律师、医生、教师），部分场景如学校用其录制课程供学生回放，医院用于记录巡房和手术复盘 [32][33][34] 产品差异化与核心理念 - 聚焦“好记、好找、好用”三个核心环节，明确边界，暂不开发脑图、PPT生成等非核心功能，避免功能泛滥影响主赛道 [63][65][66][67][69][70] - 在看似同质化的功能（如语音转文字）上追求深度差异化，通过资深内容团队调教AI润色效果，使输出内容更接近“优美白话文”而非机械风格 [36][37][38][44][45] - 强调用户共创，产品经理未预见的场景（如体制内领导优化语音消息、家长辅助孩子语音日记）由用户自发挖掘，形成真实使用场景 [34][108] 技术生态与数据沉淀 - 通过“智能拍书”等功能构建知识库生态，用户拍摄书籍页面可自动识别并聚合电子书划线、语音笔记等多元内容，支持基于多本书及笔记的对话（当前上限10本） [39][41][79][81] - 注重数据沉淀价值，用户长期使用（如积累100场会议记录）可提升AI个性化输出质量，而非频繁更换平台 [47][48] - 与得到资源协同潜力大，但优先攻克通用场景，未来计划融合得到版权书籍（如专业期刊《中国油气》）盘活存量资源 [61][83][84] 行业认知与AI应用观 - 认为AI知识管理赛道远未到泡沫阶段，用户需求碎片化且细分空间大，例如十几万人员工的企业存在将培训材料AI化的真实需求 [16][19][20][21] - 主张多智能体工作流（如写作场景中分工调研、审稿的AI助手）将颠覆行业，但反对“一句话生成内容”的完全托管模式，强调人类主导调教 [15][88] - 产品开发需基于未来三个月AI迭代水平规划，而非当前缺陷，底层大模型进步（如从40分到50分）结合企业独有的20分专业能力（如牛仔裤公司卖家秀数据）可形成护城河 [15][90][91][92] 组织管理与开发模式 - AI工具改变了传统产品开发流程，团队不再依赖PRD文档，改为成员提前用AI生成原型（如5人会议讨论20套AI方案），实现实时共创迭代 [99][100] - 岗位职责模糊化，90分开发者可借助AI覆盖产品、设计部分工作，产品经理需重新定位价值（如无需充当需求“翻译者”） [98][100][101] - 关注用户真实行为指标（如7天内使用两次笔记的用户数），而非日活等可能含“虚假泡沫”的数据 [76][77][78]

两周复刻DeepSeek-OCR！两人小团队还原低token高压缩核心，换完解码器更实用

量子位· 2025-11-07 13:32

技术突破与核心优势 - 提出“视觉压缩一切”的设计思想，通过将文字渲染成图片，用视觉模态作为压缩媒介，解决大模型处理长文本时的算力爆炸难题[4] - 实现7-20倍的压缩比，在10倍压缩下准确率仍能保持97%，仅需约250个视觉tokens即可承载原本需要3949个文本tokens的内容[7][22] - 复刻版DeepOCR严格遵循原版三阶段串联结构（局部处理-压缩-全局理解），采用SAM-base处理图像、16×卷积压缩器削减token数量、CLIP-large抓取文档语义，有效控制内存占用[10] 技术实现与架构 - 编码器采用“局部处理-压缩-全局理解”三阶段设计：第一步用SAM-base将1024×1024图像切成16×16补丁生成4096个初始token；第二步用卷积压缩器将token从4096个削减至256个；第三步由CLIP-large处理压缩后的tokens进行全局理解[10] - 模型将CLIP的补丁特征和展平后的SAM特征拼接，输出2048维的融合特征[11] - 使用Qwen2-7B-Instruct作为大语言模型替代原版选择，因与VILA训练框架兼容性更好且完全开源，在保持核心能力的同时降低了落地门槛[16][17] 训练效率与资源需求 - 采用两阶段训练流程并全程冻结DeepEncoder，大幅降低显存需求：第一阶段仅训练多模态投影仪，采用512全局batch size和1e-3学习率；第二阶段进行全模型预训练，batch size降至32，学习率调整为5e-5[20] - 整套训练方案可在2张H200 GPU上完成，体现出显著的低算力友好特性，适配中小团队资源条件[19][21] 性能表现与基准测试 - 在基础任务中表现突出，英文文本识别和表格解析能力优秀，表格解析甚至优于原版，得益于对原版2D空间编码的精准还原[24] - 在olmOCR基准测试中，简单文档的基础OCR能力扎实，与原版表现接近[26] - 与现有模型对比，DeepOCR在关键指标上展现出竞争力，如在特定任务中超越部分基线模型[26][27] 团队背景与项目进展 - 开发团队由两名成员组成：Ming Liu（北京大学物理硕士，爱荷华州立大学计算机博士在读，曾任亚马逊应用科学家实习生）和刘世隆（清华大学博士，普林斯顿大学博士后，曾任字节Seed团队科研人员）[29][31][32] - 项目完全开源，代码和项目主页已公开，当前版本与原版的差距主要源于训练数据限制而非架构问题[27][33] - 团队计划通过补充公式、多语言、旧扫描件等训练数据，并应用动态温度缩放、RLVR等技术进一步缩小复杂任务上的性能差距[28]