Workflow
OCR 3.0时代
icon
搜索文档
云知声推出文档智能基础大模型“Unisound U1-OCR” 正式开启OCR 3.0时代
智通财经· 2026-02-26 15:45
公司产品发布与定位 - 云知声于2月26日正式推出工业级文档智能基础大模型"Unisound U1-OCR",标志着OCR技术进入3.0时代 [1] - 该模型是首个工业级文档智能基座,实现了从“字符感知”到“文档认知”的质的飞跃,使AI从单纯“识字”跃迁至“理解业务逻辑” [1] - 公司将该模型的发布视为迈向AGI(通用人工智能)的关键一步,未来旨在构建能像人类一样阅读、思考并解决复杂问题的通用智能体 [2] 模型技术性能与优势 - Unisound U1-OCR在多项权威测试中达到国际顶尖水平(SOTA),其核心优势在于突破了传统模型“只读文字、不懂排版”的瓶颈 [1] - 模型采用ViT+LLM架构,视觉编码器部分采用NaViT架构以实现文档分辨率动态处理,模型参数规模为3B(三十亿)量级,兼顾计算效率与深层语义理解 [1] - 通过采用Multi-Token Prediction技术,模型在预测当前Token时同步考虑未来多个Token的概率分布,大幅提升了长文档的逻辑连贯性 [2] - 配合全任务强化学习策略,模型在推理阶段的生成效率提升了80%以上 [2] 模型技术创新点 - 首创“语义驱动+动态聚焦”策略,能自动构建文档的“语义地图”,精准识别标题、图表与正文的从属关系 [2] - 模型具备敏锐的“空间感知力”,能主动理解元素间的空间布局,结合动态分辨率技术精准还原文档结构 [2] 业务应用与核心能力 - 模型立足于工业级场景需求,旨在真正适配企业真实业务的全场景需求,实现从“读懂”到“执行”的业务落地 [2] - 模型打造了精准溯源、业务融合、安全高效部署、超强适配四大核心能力 [2] - 公司将以多模态文档为知识入口,赋予机器自主推理与证据溯源能力,推动AI从感知走向认知 [2]