Workflow
TextIn xParse
icon
搜索文档
拍照改试卷、修复图像、定制个性饮食……跨越落地“最后一公里”,这些上新的AI有点厉害
扬子晚报网· 2026-01-13 18:22
行业趋势:AI进入“落地为王”与行业纵深阶段 - AI产业发展进入“落地为王”新阶段,焦点在于AI技术与多元化场景的融合[1] - AI大模型发展正从通用能力向行业纵深落地演进[1] - 在企业级市场,Agent智能体的规模化落地正将AI基础设施推至重要位置[4] 公司产品发布:合合信息基于多模态大模型的创新应用 - 公司近期集中发布了系列基于多模态大模型的创新产品,覆盖AI教育、AI健康管理、AI基础设施、AI Agent应用等多个领域[1] - 在通用文档处理领域,扫描全能王“CS-AI一站式智能化文档解决方案”实现从影像数字化向文档全周期智能服务升级,覆盖扫描、阅读、编辑和学习等核心场景[1] - 依托文档解析与版面还原技术优势,CS-AI预计将在跨境电商、出境游、专业文档翻译等市场展现强劲出海潜力[1] 垂直场景应用:AI教育 - AI错题学习管理工具“蜜蜂试卷”与“QuizAI”可智能识别手写体试卷,提供批改及“举一反三”等互动学习功能,实现个性化“因材施教”[1] 垂直场景应用:AI健康管理 - AI饮食健康助手Appediet,用户通过拍照即可识别食物营养成分,生成热量报告[2] - Appediet可结合用户健康数据定制饮食计划,并提供个性化营养分析报告、健康食谱推荐等服务,打造“人人可用的AI随身营养师”[2] 企业级市场:AI基础设施与数据价值释放 - 高质量数据成为AI基础设施发挥效能的关键,国际数据公司IDC预测到2028年全球数据量将增长至393.8ZB,2023至2028年复合年均增长率达24.4%[4] - 企业数据以碎片化、杂格式形态沉淀,拉低模型训练效果并限制智能应用落地深度[4] - 公司智能文本处理企业级AI产品线TextIn发布AI基础设施产品xParse,以AI赋能通用文档非结构化数据挖掘,在知识库与Agent落地、智能翻译、合规风险管理等场景具备应用前景[4] 企业级市场:AI Agent与业务流程优化 - 麦肯锡2025年AI报告提到,62%的受访组织已经在试验智能体类应用[4] - Agentic AI产品INTSIG Docflow能像“数字员工”一样,对合同、票据、报表、招投标文件等高复杂度非结构化文档进行解析、分类、抽取、审核、比对及跨系统业务流转,让AI深度作用于企业核心业务流程优化[4] 企业级市场:商业数据智能分析与风险管控 - 启信慧眼推出多项AI原生应用,作用于企业风险管控、营销与智能决策[5] - “AI智能寻源”功能用AI自动拆解寻源品类的结构化参数,让客户实现“一句话从3.4亿家企业中,找到合作目标”,帮助客户寻源拓客效率平均提升超过30%[5] - “AI准入尽调”功能将行业经验与全盘数据结合,给出供应商合作建议[5] - “AI关系洞察”功能用AI透视隐形风险,智能锁定关键风险,降低决策门槛及业务风险[5] - 启信慧眼AI原生应用功能已在制造、医药、半导体、电子、能源、汽车、金融等多个行业中应用,日均风险扫描次数超过2000万次[5]
死磕「文本智能」,多模态研究的下一个前沿
机器之心· 2025-10-24 14:26
文章核心观点 - AI在医疗等专业领域的实用性日益增强,例如GPT-5已能帮助患者解读活检报告并辅助决策[2] - 模型智能的提升及系统对多模态信息综合理解能力的进化是上述变化的关键驱动力[4] - 多模态文本智能概念被提出,其目标是让AI突破表层语义,实现对文本中多模态信息的立体化综合理解,这被视为大模型深入医疗、金融等领域及走向物理世界的关键[4][11] - 该技术路径涵盖感知、认知、决策三个层级,模拟人类“先看清楚,再想明白,最后做判断”的过程[11] - 多模态文本智能被认为是实现AGI的一条现实路径,因其构建了从感知到行动的完整技术闭环[51][52] 多模态文本智能的定义与挑战 - 文本是人类对客观世界认识的高密度沉淀,广泛存在于多模态媒介中,但AI对其利用仍停留在表层[7] - 难以被机器完整“翻译”的文本数量巨大,仅PDF就达到100亿级别[7] - 复杂表格、公式、非常规书写方式及信息交织使得文本理解困难,现有OCR、文档智能或多模态大模型技术难以触及信息背后的逻辑、结构与语义关联[8][11] - 多模态文本智能旨在解决深层次理解问题,让AI真正具备读懂世界并主动行动的能力[11] 感知与识别层技术进展 - 感知层目标是让AI准确识别文字、图像、表格、公式、印章、签名等要素及其空间与语义关系,但面临文本模糊、版式复杂、语言多样及幻觉等挑战[12][13] - 合合信息建立了智能文档处理技术体系,包括文档图像底层视觉处理、文字/文档识别、版面分析与还原、通用文档解析与抽取等重点方向[15] - 具体技术子任务包括去摩尔纹、弯曲矫正、手写去除、文字识别、表格识别、财报识别等,并已应用于扫描全能王等产品[15][18] - MonkeyOCR采用Structure-Recognition-Relation三元组解析范式,在GitHub获超6000星,可快速精准解析中英文PDF文档[19] - dots.ocr在单一模型中统一完成版面检测、文本识别、表格解析、公式提取等任务,GitHub星数超5000,其多任务协同设计旨在通过提供更多上下文达到更高性能上限[22] - 文档解析精度对大模型训练与推理至关重要,合合信息的TextIn xParse大模型加速器可将任意格式文档精准解析为Markdown格式,用于生成高质量知识素材[24][26] - 感知层需克服语义幻觉和OCR幻觉问题,例如模型对无意义文本进行“纠正”或对遮挡文本进行“补全”[27][30][33] - 南开大学周宇教授团队提出无需重新训练的语义幻觉抑制框架、评测基准HalluText及轻量缓解方案OCRAssistor,并构建了针对降质文档的KIE-HVQA基准,通过不确定性标注引导模型学会拒答以提升稳健性[34][35][38] 认知与推理层技术探索 - 认知层目标是让AI在看清多模态信息后学会思考,当前主流模型仍主要依赖语言链推理,距离真正的视觉思维尚有差距[41][42] - 哈尔滨工业大学车万翔教授团队提出多模态思维链,通过M³CoT、CoMT、MPCC、ViTCoT等基准增强,推动AI实现多步多模态推理及视觉与推理交织的思维过程[44] - 研究发现多模态思维链有效的关键在于传递“视觉思维”,其作为寄存器在跨模态推理中存取视觉信息,促进模型深入思考并提供可解释性[45] 决策与行动层应用雏形 - 决策层旨在让AI基于推理结果主动行动,合合信息扫描全能王的智能高清滤镜可自动判断图像质量问题并动态选择最优处理路径,取代多步人工操作[48] - 扫描全能王的翻页自动拍功能能识别用户翻页动作并自动完成拍摄,同时智能去除手部、阴影等干扰[48] - 行业对决策层的探索仍处初期,AI能完成的动作相对简单,未来发展空间广阔[49] 行业应用与AGI路径 - 多模态文本智能是众多AI应用场景实现完整闭环的支撑技术,例如RAG技术的瓶颈之一即如何融合多模态文本能力以更精准理解信息[51] - Anthropic发布的Claude Desktop应用的截图分享上下文功能也依赖该技术[52] - 行业已有模型与产品进行探索,如Mistral OCR、Reducto、Gemini、GPT-5,但现有技术多聚焦单点能力,难以实现全链路闭环[52] - 多模态文本智能理念通过构建从感知到认知再到行动的完整路径,覆盖范围更广、流程更系统,被认为是通往AGI的现实路径[52]