云知声(09678)推出文档智能基础大模型“Unisound U1-OCR” 正式开启OCR 3.0时代

公司产品发布 - 云知声于2月26日宣布正式推出文档智能基础大模型“Unisound U1-OCR” [1] - “Unisound U1-OCR”被定位为首个工业级文档智能基座，标志着OCR技术从“字符感知”进入“文档认知”的3.0时代 [1] - 该模型实现了从单纯“识字”到“理解业务逻辑”的跃迁，能够洞察文档深层语义，实现自动分类与业务级信息抽取 [1] 模型性能与架构 - “Unisound U1-OCR”是一款达到国际顶尖水平（SOTA）的文档智能理解模型，在多项权威测试中均获业界SOTA表现 [1] - 模型核心优势在于突破了传统模型“只读文字、不懂排版”的瓶颈，能够像人类专家一样“看懂”复杂文档 [1] - 模型采用ViT + LLM架构，其中视觉编码器部分采用NaViT架构，以实现文档分辨率动态处理 [1] - 模型参数规模为3B量级，旨在兼顾计算效率与深层语义信息理解的能力要求 [1] 技术创新 - 模型首创“语义驱动+动态聚焦”策略，自动构建文档的“语义地图”，精准识别标题、图表与正文的从属关系 [2] - 模型具备敏锐的“空间感知力”，能主动理解元素间的空间布局，结合动态分辨率技术精准还原文档结构 [2] - 模型采用Multi-Token Prediction（MTP）技术，在预测当前Token时同步考虑未来多个Token的概率分布，大幅提升长文档逻辑连贯性 [2] - 配合全任务强化学习策略，增强了模型对版式结构的全局预见性，并在推理阶段将模型生成效率提升了80%以上 [2] 业务应用与能力 - 模型立足于工业级场景需求，打造了精准溯源、业务融合、安全高效部署、超强适配四大核心能力 [2] - 模型旨在真正适配企业真实业务的全场景需求，实现从“读懂”到“执行”的业务落地 [2] 行业与战略意义 - “Unisound U1-OCR”的发布开启了OCR 3.0时代，不仅是文档智能的革新，更是云知声迈向AGI（通用人工智能）的关键一步 [2] - 公司将以多模态文档为知识入口，赋予机器自主推理与证据溯源能力，推动AI从感知走向认知 [2] - 公司未来目标是构建能像人类一样阅读、思考并解决复杂问题的通用智能体，让每一份文档都成为通往AGI的智慧阶梯 [2]