Workflow
超大参数模型
icon
搜索文档
MAU被豆包反超,Deepseek 挤了点牙膏
36氪· 2025-10-21 12:12
DeepSeek-OCR模型技术发布 - 公司于10月20日开源DeepSeek-OCR模型,参数规模约3B,采用“视觉-文字压缩”方案提升扫描效率[1] - 模型在OmniDocBench测试中仅用100个视觉标记胜过GOT-OCR 2.0的256个标记,在少于800个标记情况下击败每页需超6000个标记的MinerU 2.0[3] - 拥有深度解析模式,能将财务类图表直接转化为结构化数据并自动生成Markdown表格与图像[6] - 系统核心由3.8亿参数的DeepEncoder图像理解模块和基于DeepSeek-3B-MoE架构的5.7亿活跃参数文字生成模块组成[6] - 在10倍压缩下解码精度达97%,20倍压缩下保持60%准确率,单张图像仅需LLM所需token的一小部分即可表示整篇文档[7] - 每天可在单个Nvidia A100 GPU上处理超20万页数据,使用20台服务器(每台8块A100)吞吐量跃升至每天3300万页[18] C端AI应用市场竞争格局 - 2025年8月豆包月活用户数约1.57亿,环比增长6.6%,反超公司约1.43亿月活升至行业第一[1][9] - 豆包优势体现在多模态能力广泛应用、与抖音生态深度接入、更低使用门槛和更广泛受众定位[1][9][10] - 公司产品交互逻辑类似ChatGPT风格,入口单一且使用门槛相对较高,而豆包集成文本、语音、图像、视频生成等多功能[9][12][17] - 5月份离开公司的用户中约40%转投豆包,在“好用”和“好玩又好用”之间大部分普通用户更倾向后者[13] - 腾讯元宝8月用户增长22.4%达3300万月活,蚂蚁集团AQ健康应用8月用户数环比增长60.1%[12] 公司技术战略与产品路线 - 公司坚持“技术深耕”路线,本次OCR模型发布是“模型即产品”理念的延续,专注于基础能力建设[2][17] - 模型能识别中英文混合文本,处理手写体、复杂表格等高难度场景,在多个公开数据集上刷新准确率纪录[2] - 公司成为国内唯一与“OpenAI模式”类似的企业,凭借模型能力在C端市场领先并持续深耕超大参数模型赛道[2] - V3系列总参数量高达671B,同期智谱GLM-4.5只有355B,公司在技术指标上延续超大参数模型策略[17] - 2024年底发布V3模型,2025年5月发布R1-0528优化幻觉问题,下半年主要更新V3.1模型支持混合推理模式和128K tokens长上下文输入[15] 行业发展态势与历史对比 - 2025年被看作国内C端AI“分水岭”,上半场是公司以开源与推理能力拉动的技术爆炸时刻,下半场是互联网巨头深度整合资源后的反击时刻[2] - 截至2025年2月,公司领先豆包约3600万月活,但到8月被反超,显示增长势头减缓迹象[14] - 行业陷入投流和“内卷”竞争,多家巨头纷纷发力C端AI应用市场[12] - OCR模型发布有望补上公司在工具模型领域的拼图,解决R1系列在PDF解读等场景与Claude Opus 4和ChatGPT-5相比的局限性[1][8]