Workflow
混元OCR
icon
搜索文档
腾讯混元OCR模型宣布开源 参数仅为1B 多项核心能力达到SOTA效果
智通财经网· 2025-11-25 14:53
公司产品发布 - 腾讯混元于11月25日推出全新开源OCR模型HunyuanOCR,其参数仅为1B [1] - 该模型依托于混元原生多模态架构打造,在多项业界OCR应用榜单获得SOTA成绩 [1] - 模型设计采用“端到端”理念,各项功能仅需单次前向推理即可直达最优结果,较业界级联方案更高效便捷,性价比高 [1] 模型架构与特点 - HunyuanOCR模型主要由原生分辨率视频编码器、自适应视觉适配器和轻量化混元语言模型三大部分构成 [1] - 模型的训练和推理均采用全端到端范式,通过规模化高质量应用导向数据结合在线强化学习,表现出稳健的端到端推理能力 [1] - 模型具有高度易用性,体积小,便于部署 [1] 模型性能表现 - 在复杂文档解析的OmniDocBench测评中,HunyuanOCR获得最高94.1分,效果超过谷歌Gemini3-pro等领先模型 [2] - 在文字检测和识别能力上,于自建覆盖9大应用场景的基准上,大幅度领先同类开源及商业OCR模型 [2] - 在OCRBench榜单上,总得分为860分,以仅1B总参数的配置,取得了总参数3B以下模型的SOTA成绩 [2]