云知声发布首个工业级文档智能基础大模型

公司产品发布与核心优势 - 云知声正式推出Unisound U1-OCR文档智能基础大模型，该模型被定位为首个工业级文档智能基座 [1] - 模型具备五大核心优势：性能领先、可信可验、开箱即用、高效部署、强适配，旨在打破传统文档处理边界并树立行业新标杆 [1] - 模型采用ViT+LLM架构，其中视觉编码器部分采用NaViT架构以实现文档分辨率动态处理，模型参数规模为3B（三十亿）量级 [2] 技术演进与产品定位 - 文档智能是指利用人工智能技术自动阅读和理解文档影像，并进行内容的读取、理解、分类及关键信息提取 [1] - 传统视觉方案（OCR1.0）仅能识别文字，新一代多模态方案（OCR2.0）具备端到端版面理解和文字识别能力 [1] - Unisound U1-OCR开启了OCR3.0时代，在理解版面的基础上，进一步洞察文档深层语义，实现自动分类与业务级信息抽取，完成了从“字符感知”到“文档认知”的飞跃 [1] - 该模型突破了传统模型“只读文字、不懂排版”的瓶颈，能够像人类专家一样“看懂”复杂文档 [2] 战略愿景与行业影响 - Unisound U1-OCR的发布标志着人工智能从单纯“识字”跃迁至“理解业务逻辑” [2] - 公司将以多模态文档为知识入口，赋予机器自主推理与证据溯源能力，旨在推动人工智能从感知走向认知 [2] - 公司的长期愿景是构建能像人类一样阅读、思考并解决复杂问题的通用智能体，让每一份文档都成为通往AGI（通用人工智能）的智慧阶梯 [2]