Workflow
dots.ocr
icon
搜索文档
合合信息推出多模态文本智能技术落地方案,助力AI实现智能推理
21世纪经济报道· 2025-10-21 16:29
行业发展趋势 - 多模态大模型正成为人工智能发展的重要方向,其利用文本、图像、音频、视频等多种信息形式进行表达、理解和交流 [1][4] - 根据2025年Gartner人工智能技术成熟度曲线,多模态AI将在未来五年内成为各行业提升所有应用和软件产品功能的核心技术 [4] - 行业对AI系统的需求正从“功能实现”向“业务赋能”深化,旨在推动AI系统从辅助工具进化为具备自主决策能力的业务伙伴 [15] 技术突破与创新 - 合合信息推出“多模态文本智能技术”方案,通过文本相关空间位置理解深层语义逻辑,实现对多模态信息的“立体化综合化理解” [3] - 哈尔滨工业大学车万翔教授分享“多模态思维链”技术,将推理逻辑分解为一系列可解释的跨模态推理步骤,以生成更精准可靠的结论 [4] - 南开大学周宇教授介绍系统化的OCR幻觉缓解方案,为提升多模态大模型的可视文本感知能力提供有效路径 [4][8] - 技术方案将文本智能认知程度从语义理解拓展到类人推理及自主机器决策,形成从感知到认知再到决策的技术实现路径 [15] 应用场景与案例 - 小红书hi lab团队分享基于单视觉语言模型的多语言文档布局解析工具“dotsocr” [9] - 华中科技大学刘禹良教授介绍首个覆盖甲骨文专家破译全流程的辅助考释框架AlphaOracle,在“劳”等字的辅助破译上取得突破 [11][12] - 合合信息文本智能技术帮助用户解决复杂场景下的文档图像问题,方案已在金融、医药、教育等专业领域开展应用 [8][15] - 技术方案处理对象从传统文档延伸至多种承载文本信息的媒介,如论文、财报、视频、自然场景,实现对业务流程的智能重构 [14][15]
Karpathy盛赞DeepSeek-OCR“淘汰”tokenizer!实测如何用Claude Code 让新模型跑在N卡上
AI前线· 2025-10-21 12:54
作者 | 褚杏娟 昨天,DeepSeek 发布了一个新模型 DeepSeek-OCR。 这是一个专门为 OCR(文字识别)微调的 6.6GB 模型,主要贡献在于首次量化 "视觉 - 文本 token 压缩比",验证 10× 近无损压缩、20× 仍保有 60% 精 度的可行性;提出 DeepEncoder,解决现有编码器 "高分辨率 - 低内存 - 少 token" 不可兼得的问题;开发 DeepSeek-OCR,在实用场景达 SOTA 且 token 消耗最少,兼具科研价值与产业落地能力。 开源地址及论文全文:https://github.com/deepseek-ai/DeepSeek-OCR 这篇论文引发了不少人关注,其中 Karpathy 就直言:"我很喜欢这篇新的 DeepSeek-OCR 论文。" 它是一个不错的 OCR 模型(可能比 dots 稍微差一点),数据收集等方面也都做得不错,但这些其实都不是最让我感兴趣的部分。 我更在意的,是一个更根本的问题——对大语言模型(LLM)来说,像素是否比文本更好的输入形式?也就是说,文本 token 会不会其实是 一种"浪费而糟糕"的输入方式? 或许,从逻辑 ...