云知声发布首个工业级文档智能基础大模型

公司产品发布与核心优势 - 云知声正式推出Unisound U1-OCR文档智能基础大模型,该模型被定位为首个工业级文档智能基座 [1] - 模型具备五大核心优势:性能领先、可信可验、开箱即用、高效部署、强适配,旨在打破传统文档处理边界并树立行业新标杆 [1] - 模型采用ViT+LLM架构,其中视觉编码器部分采用NaViT架构以实现文档分辨率动态处理,模型参数规模为3B(三十亿)量级 [2] 技术演进与产品定位 - 文档智能是指利用人工智能技术自动阅读和理解文档影像,并进行内容的读取、理解、分类及关键信息提取 [1] - 传统视觉方案(OCR1.0)仅能识别文字,新一代多模态方案(OCR2.0)具备端到端版面理解和文字识别能力 [1] - Unisound U1-OCR开启了OCR3.0时代,在理解版面的基础上,进一步洞察文档深层语义,实现自动分类与业务级信息抽取,完成了从“字符感知”到“文档认知”的飞跃 [1] - 该模型突破了传统模型“只读文字、不懂排版”的瓶颈,能够像人类专家一样“看懂”复杂文档 [2] 战略愿景与行业影响 - Unisound U1-OCR的发布标志着人工智能从单纯“识字”跃迁至“理解业务逻辑” [2] - 公司将以多模态文档为知识入口,赋予机器自主推理与证据溯源能力,旨在推动人工智能从感知走向认知 [2] - 公司的长期愿景是构建能像人类一样阅读、思考并解决复杂问题的通用智能体,让每一份文档都成为通往AGI(通用人工智能)的智慧阶梯 [2]