文章核心观点 - AI在医疗等专业领域的实用性日益增强,例如GPT-5已能帮助患者解读活检报告并辅助决策[2] - 模型智能的提升及系统对多模态信息综合理解能力的进化是上述变化的关键驱动力[4] - 多模态文本智能概念被提出,其目标是让AI突破表层语义,实现对文本中多模态信息的立体化综合理解,这被视为大模型深入医疗、金融等领域及走向物理世界的关键[4][11] - 该技术路径涵盖感知、认知、决策三个层级,模拟人类“先看清楚,再想明白,最后做判断”的过程[11] - 多模态文本智能被认为是实现AGI的一条现实路径,因其构建了从感知到行动的完整技术闭环[51][52] 多模态文本智能的定义与挑战 - 文本是人类对客观世界认识的高密度沉淀,广泛存在于多模态媒介中,但AI对其利用仍停留在表层[7] - 难以被机器完整“翻译”的文本数量巨大,仅PDF就达到100亿级别[7] - 复杂表格、公式、非常规书写方式及信息交织使得文本理解困难,现有OCR、文档智能或多模态大模型技术难以触及信息背后的逻辑、结构与语义关联[8][11] - 多模态文本智能旨在解决深层次理解问题,让AI真正具备读懂世界并主动行动的能力[11] 感知与识别层技术进展 - 感知层目标是让AI准确识别文字、图像、表格、公式、印章、签名等要素及其空间与语义关系,但面临文本模糊、版式复杂、语言多样及幻觉等挑战[12][13] - 合合信息建立了智能文档处理技术体系,包括文档图像底层视觉处理、文字/文档识别、版面分析与还原、通用文档解析与抽取等重点方向[15] - 具体技术子任务包括去摩尔纹、弯曲矫正、手写去除、文字识别、表格识别、财报识别等,并已应用于扫描全能王等产品[15][18] - MonkeyOCR采用Structure-Recognition-Relation三元组解析范式,在GitHub获超6000星,可快速精准解析中英文PDF文档[19] - dots.ocr在单一模型中统一完成版面检测、文本识别、表格解析、公式提取等任务,GitHub星数超5000,其多任务协同设计旨在通过提供更多上下文达到更高性能上限[22] - 文档解析精度对大模型训练与推理至关重要,合合信息的TextIn xParse大模型加速器可将任意格式文档精准解析为Markdown格式,用于生成高质量知识素材[24][26] - 感知层需克服语义幻觉和OCR幻觉问题,例如模型对无意义文本进行“纠正”或对遮挡文本进行“补全”[27][30][33] - 南开大学周宇教授团队提出无需重新训练的语义幻觉抑制框架、评测基准HalluText及轻量缓解方案OCRAssistor,并构建了针对降质文档的KIE-HVQA基准,通过不确定性标注引导模型学会拒答以提升稳健性[34][35][38] 认知与推理层技术探索 - 认知层目标是让AI在看清多模态信息后学会思考,当前主流模型仍主要依赖语言链推理,距离真正的视觉思维尚有差距[41][42] - 哈尔滨工业大学车万翔教授团队提出多模态思维链,通过M³CoT、CoMT、MPCC、ViTCoT等基准增强,推动AI实现多步多模态推理及视觉与推理交织的思维过程[44] - 研究发现多模态思维链有效的关键在于传递“视觉思维”,其作为寄存器在跨模态推理中存取视觉信息,促进模型深入思考并提供可解释性[45] 决策与行动层应用雏形 - 决策层旨在让AI基于推理结果主动行动,合合信息扫描全能王的智能高清滤镜可自动判断图像质量问题并动态选择最优处理路径,取代多步人工操作[48] - 扫描全能王的翻页自动拍功能能识别用户翻页动作并自动完成拍摄,同时智能去除手部、阴影等干扰[48] - 行业对决策层的探索仍处初期,AI能完成的动作相对简单,未来发展空间广阔[49] 行业应用与AGI路径 - 多模态文本智能是众多AI应用场景实现完整闭环的支撑技术,例如RAG技术的瓶颈之一即如何融合多模态文本能力以更精准理解信息[51] - Anthropic发布的Claude Desktop应用的截图分享上下文功能也依赖该技术[52] - 行业已有模型与产品进行探索,如Mistral OCR、Reducto、Gemini、GPT-5,但现有技术多聚焦单点能力,难以实现全链路闭环[52] - 多模态文本智能理念通过构建从感知到认知再到行动的完整路径,覆盖范围更广、流程更系统,被认为是通往AGI的现实路径[52]
死磕「文本智能」,多模态研究的下一个前沿