OCR 3.0时代 - 财报，业绩电话会，研报，新闻 - Reportify

OCR 3.0时代

搜索文档

云知声推出文档智能基础大模型“Unisound U1-OCR” 正式开启OCR 3.0时代

智通财经· 2026-02-26 15:45

公司产品发布与定位 - 云知声于2月26日正式推出工业级文档智能基础大模型"Unisound U1-OCR"，标志着OCR技术进入3.0时代 [1] - 该模型是首个工业级文档智能基座，实现了从“字符感知”到“文档认知”的质的飞跃，使AI从单纯“识字”跃迁至“理解业务逻辑” [1] - 公司将该模型的发布视为迈向AGI（通用人工智能）的关键一步，未来旨在构建能像人类一样阅读、思考并解决复杂问题的通用智能体 [2] 模型技术性能与优势 - Unisound U1-OCR在多项权威测试中达到国际顶尖水平（SOTA），其核心优势在于突破了传统模型“只读文字、不懂排版”的瓶颈 [1] - 模型采用ViT+LLM架构，视觉编码器部分采用NaViT架构以实现文档分辨率动态处理，模型参数规模为3B（三十亿）量级，兼顾计算效率与深层语义理解 [1] - 通过采用Multi-Token Prediction技术，模型在预测当前Token时同步考虑未来多个Token的概率分布，大幅提升了长文档的逻辑连贯性 [2] - 配合全任务强化学习策略，模型在推理阶段的生成效率提升了80%以上 [2] 模型技术创新点 - 首创“语义驱动+动态聚焦”策略，能自动构建文档的“语义地图”，精准识别标题、图表与正文的从属关系 [2] - 模型具备敏锐的“空间感知力”，能主动理解元素间的空间布局，结合动态分辨率技术精准还原文档结构 [2] 业务应用与核心能力 - 模型立足于工业级场景需求，旨在真正适配企业真实业务的全场景需求，实现从“读懂”到“执行”的业务落地 [2] - 模型打造了精准溯源、业务融合、安全高效部署、超强适配四大核心能力 [2] - 公司将以多模态文档为知识入口，赋予机器自主推理与证据溯源能力，推动AI从感知走向认知 [2]

云知声(HK:09678)

Artificial Intelligence

Unisound U1 - OCR

Artificial Intelligence

Unisound U1 - OCR