Workflow
Seek .(SKLTY)
icon
搜索文档
DeepSeek-OCR 2发布:让AI像人一样“读懂”复杂文档
凤凰网· 2026-01-27 19:58
模型发布与技术突破 - DeepSeek团队发布并开源了DeepSeek-OCR 2模型,并同步发布相关技术论文 [1] - 模型采用创新的DeepEncoder V2新型编码器结构,能根据图像语义动态调整视觉信息处理顺序 [1] - 该技术旨在让机器更贴近人类的视觉阅读逻辑,是对传统视觉语言模型处理方式的重新思考 [1] 技术原理与行业痛点 - 传统视觉语言模型通常将图像切分为视觉token,并按固定栅格顺序(如左上到右下)处理 [1] - 这种方式与人类基于语义和逻辑关系进行跳跃式浏览的阅读方式不一致 [1] - 在版式复杂的文档场景中,视觉元素间存在明确逻辑先后关系,仅依赖空间顺序会限制模型对内容结构的理解能力 [1] 性能评估与结果 - 研究团队在OmniDocBench v1.5基准上进行了全面评估,该基准涵盖多种类型的中英文文档 [1] - 测试结果显示,在视觉token上限更低的情况下,DeepSeek-OCR 2的整体得分达到91.09% [2] - 相较前代DeepSeek-OCR,整体得分提升了3.73% [2] - 在阅读顺序准确度方面,编辑距离从0.085降至0.057,表明新模型能更合理地理解文档内容结构 [2]
重磅!DeepSeek发布新模型并开源
每日经济新闻· 2026-01-27 16:12
每经编辑|程鹏 1月27日,DeepSeek团队发布全新DeepSeek-OCR 2模型并开源,采用创新的DeepEncoder V2方法,让AI能够根据图像的含义动态重排图像的各个部分,而 不再只是机械地从左到右扫描。这种方式更接近人类的视觉编码逻辑。最终,该模型在处理布局复杂的图片时,表现优于传统的视觉-语言模型,实现了 更智能、更具因果推理能力的视觉理解。 编辑|程鹏 杜波 校对|许绍航 封面图片来源:视觉中国(资料图) 每日经济新闻综合自每经AI快讯 ...
DeepSeek开源OCR2模型
财经网· 2026-01-27 16:05
公司动态 - DeepSeek团队于1月27日发布《DeepSeek-OCR2:Visual Causal Flow》论文并开源了DeepSeek-OCR2模型 [1] - 公司采用创新的DeepEncoder V2方法,使AI能够根据图像含义动态重排图像各部分,更接近人类视觉编码逻辑 [1] 技术进展 - 新模型DeepSeek-OCR2的核心创新在于其视觉因果流处理能力 [1] - 技术突破点在于让AI理解图像语义并据此进行动态视觉编码,而非传统固定模式处理 [1]
赶在农历新年前后,DeepSeek又发大模型,DeepSeek-OCR 2来了!更接近人类视觉编码逻辑
金融界· 2026-01-27 15:56
公司技术发布与进展 - 2025年1月27日,DeepSeek团队发布并开源DeepSeek-OCR 2模型,采用创新的DeepEncoder V2方法,使AI能根据图像含义动态重排图像部分,更接近人类视觉编码逻辑[1] - DeepSeek-OCR 2的发布距离第一版模型问世约4个月,其核心创新在于将文本信息“绘制”为视觉图像,再通过视觉模型实现高效理解,旨在解决大模型处理长文本时的计算挑战[1] - 2025年8月21日,公司正式发布DeepSeek-V3.1,主要升级包括:采用混合推理架构,一个模型同时支持思考与非思考模式;相比DeepSeek-R1-0528,思考效率更高,能在更短时间内给出答案;通过Post-Training优化,在工具使用与智能体任务中的表现有较大提升[2] - 2025年年底,公司发布小更新V3.2版本及其长思考增强版DeepSeek-V3.2-Speciale,官方数据显示,在公开推理基准测试中,其推理能力达到GPT-5水平,与Gemini-3.0-Pro接近,相比Kimi-K2-Thinking,输出长度大幅降低,显著减少了计算开销与用户等待时间[3] - 2025年1月20日,公司推出大模型R1,在数学、代码、自然语言推理等任务上性能比肩OpenAI o1正式版,但其推理成本仅为29.4万美元,加上约600万美元的基础模型训练开销,整体成本远低于国外巨头[3] - 有从业者认为DeepSeek-OCR 2本质上是模拟人脑的遗忘机制,其核心构件视觉encoder的高效解码,为光计算和量子计算在LLM领域的引入提供了明确的技术路径[2] 公司发展历程与市场影响 - 公司由梁文锋控制的幻方量化于2023年4月宣布成立,幻方量化当时公告将集中资源和力量全力投身人工智能技术,成立新的独立研究组织探索AGI本质,随后成立了深度求索(DeepSeek)公司[3] - 公司凭借超强的性能和极低的训练成本强势崛起,在全球科技圈受到广泛关注[3] - 2025年1月27日,DeepSeek应用登顶苹果美国地区应用商店免费APP下载排行榜,在美区下载榜上超越了ChatGPT,同日,在中国区应用商店免费榜也位列第一[4] - 《黑神话:悟空》制作人冯骥表示DeepSeek可能是个国运级别的科技成果[4] - 自2024年底发布V3模型后,公司的下一代旗舰模型仍未发布,此前有报道称公司将于2月发布新一代旗舰模型DeepSeek V4,但公司未对此进行回应[2] 行业与资本市场反应 - A股迎来“DeepSeek时刻”,中国资产被重估,A股算力租赁、云计算等指数在春节后飙涨逾40%[4] - 相关概念股表现强劲:新炬网络走出10连板,杭钢股份实现17天13板,路桥信息、每日互动等概念股年内最高涨幅均超300%[4]
DeepSeek发布DeepSeek-OCR 2 让AI学会“人类视觉逻辑”
智通财经· 2026-01-27 15:53
模型发布与技术突破 - DeepSeek于1月27日发布了全新的DeepSeek-OCR2模型,该模型采用创新的DeepEncoder V2方法,使AI能够根据图像含义动态重排图像各部分,而非机械地从左到右扫描,模拟了人类观看场景的逻辑流程 [1] - 新模型在处理布局复杂的图片时,表现优于传统的视觉-语言模型,实现了更智能、更具因果推理能力的视觉理解 [1] - 传统的视觉语言模型通常采用从左上到右下的光栅扫描顺序处理图像,难以捕捉复杂排版内容间的真实逻辑关系 [1] 性能表现与基准测试 - 根据技术报告,DeepSeek-OCR2在OmniDocBench v1.5基准测试中取得了91.09%的成绩,相较于前代DeepSeek-OCR模型提升了3.73% [1] - 该模型在保持高精度的同时严格控制了计算成本,其视觉Token数量被限制在256至1120之间,这一上限与Google的Gemini-3Pro保持一致 [2] - 在实际生产环境中,模型在处理在线用户日志和PDF预训练数据时的重复率分别下降了2.08%和0.81%,显示出极高的实用成熟度 [2] 架构创新与行业意义 - DeepSeek-OCR2的发布不仅是一次OCR性能升级,更具有深远的架构探索意义,其DeepEncoder V2初步验证了使用语言模型架构作为视觉编码器的潜力 [2] - 这种架构天然继承了大型语言模型社区在基础设施优化方面的成果,如混合专家架构和高效注意力机制 [2] - 新架构用LLM风格的架构替代了DeepEncoder中的CLIP组件,通过定制注意力掩码,视觉Token使用双向注意力,而可学习的查询则采用因果注意力,使每个查询Token都能关注所有视觉Token及之前的查询,实现对视觉信息的渐进式因果重排 [5]
DeepSeek发布新模型,概念股短线拉升
第一财经资讯· 2026-01-27 14:48
论文发布与技术突破 - DeepSeek团队发布《DeepSeek-OCR 2: Visual Causal Flow》论文并开源DeepSeek-OCR 2模型 [1] - 模型采用创新的DeepEncoder V2方法,使AI能够根据图像含义动态重排图像各部分 [1] - 该技术更接近人类的视觉编码逻辑,代表了光学字符识别领域的重大进展 [1] 资本市场反应 - DeepSeek概念股在A股市场出现短线拉升行情 [3] - 云赛智联股价直线触及涨停 [3] - 宏景科技股价实现20cm涨停 [3] - 开普云、世纪恒通、并行科技等公司股价也出现短线拉升 [3]
DeepSeek开源OCR 2新模式,机器视觉编码逻辑更像“人类”
新浪财经· 2026-01-27 14:40
模型发布与技术突破 - DeepSeek团队发布并开源了DeepSeek-OCR 2模型,并发表了相关论文《DeepSeek-OCR 2: Visual Causal Flow》[1] - 模型采用创新的DeepEncoder V2架构,实现了视觉编码从固定扫描向语义推理的范式转变[1] - 该技术使AI能够根据图像含义动态重排图像各部分,更接近人类的视觉编码逻辑[1] 性能与效率优势 - 模型在维持极高数据压缩效率的同时,在多项基准测试和生产指标上取得显著突破[1][2] - 仅需256到1120个视觉Token即可覆盖复杂的文档页面,在同类模型中处于极低水平[1][2] - 极低的视觉Token数量显著降低了下游大型语言模型的计算开销[1][2] 评测表现 - 在OmniDocBench v1.5评测中,其综合得分达到91.09%[1][2] - 综合得分较前代模型提升了3.73%[1][2] - 特别是在阅读顺序识别方面表现出了更强的逻辑性[1][2]
DeepSeek新AI模型来袭,百亿规模的人工智能AIETF(515070)拉升1.7%,近10日“吸金”超13亿
格隆汇APP· 2026-01-27 14:25
市场表现 - 午后DeepSeek概念股短线拉升,云赛智联直线触及涨停,宏景科技20cm涨停 [1] - 人工智能AIETF上涨1.72%,机器人ETF上涨0.73% [1] 行业催化事件 - DeepSeek发布全新DeepSeek-OCR 2模型,采用创新的DeepEncoder V2方法,让AI能够以与人类相同的逻辑顺序“看”一张图片 [2] - 多家科技公司启动大规模现金红包活动:元宝计划从2月1日开始分发10亿元现金红包,文心自1月26日至3月12日投放5亿元现金红包,字节火山已成为央视春晚独家AI云伙伴 [2] 相关金融产品 - 人工智能AIETF(515070)近10日净流入13.75亿元,最新规模为109.61亿元,覆盖AI芯片、算力基础设施、算法应用等全产业链环节 [3] - 机器人ETF(562500)是市场规模最大的机器人主题ETF,权重股包含工业机器人、谐波减速器及服务机器人等领域的龙头公司 [3]
DeepSeek概念股短线拉升,OCR 2重磅发布,让AI学会“人类视觉逻辑”
金融界· 2026-01-27 14:18
市场反应 - DeepSeek发布新模型引发相关概念股短线拉升,云赛智联直线触及涨停,宏景科技20cm涨停,开普云、世纪恒通、并行科技短线拉升 [1] 技术突破与性能 - DeepSeek发布DeepSeek-OCR2模型,采用创新的DeepEncoder V2方法,使AI能根据图像含义动态重排图像部分,更接近人类视觉编码逻辑 [1] - 该技术打破传统OCR按固定顺序识别的局限,能更好理解图像语义关联,在复杂排版、扭曲变形、遮挡模糊等场景下识别准确率大幅提升 [6] - 在OmniDocBench v1.5基准测试中,该模型取得91.09%的成绩,较前代DeepSeek-OCR提升3.73% [6] - 模型在保持高精度的同时严格控制计算成本,其视觉Token数量限制在256至1120之间,上限与Google的Gemini-3 Pro保持一致 [6] - 在实际生产环境中,模型处理在线用户日志和PDF预训练数据时的重复率分别下降2.08%和0.81%,显示出极高的实用成熟度 [6] 架构意义与未来方向 - DeepSeek-OCR 2的发布具有深远的架构探索意义,DeepEncoder V2初步验证了使用语言模型架构作为视觉编码器的潜力 [7] - 这种架构天然继承了LLM社区在基础设施优化方面的成果,如混合专家架构和高效注意力机制 [7] - 这为迈向统一的全模态编码器提供了有希望的路径,未来单一编码器可能通过配置特定模态的可学习查询,在同一参数空间内实现对图像、音频和文本的特征提取与压缩 [7] - 模型展示的"两个级联的1D因果推理器"模式,通过将2D理解分解为"阅读逻辑推理"和"视觉任务推理"两个互补子任务,或许代表了实现真正2D推理的一种突破性架构方法 [7] 应用领域与行业机遇 - 模型可广泛应用于金融票据处理、医疗病历录入、政务文件数字化、古籍修复识别等多个领域,帮助相关企业降低人工识别成本,提升信息处理效率 [6] - OCR技术应用行业:为OCR行业带来技术升级方向,相关从事图文信息处理、数字化转型服务的企业可借助该模型优化自身产品,在金融、医疗、政务等领域拓展更多业务场景,迎来业绩增长机遇 [8] - 开源大模型服务行业:DeepSeek坚持开源开放的技术路线,持续推出高性能模型产品,为开发者和企业提供优质的模型底座,专注于大模型二次开发、模型部署与运维服务的企业将受益于行业热度提升,获得更多合作订单与市场关注 [8] - 端侧AI适配:众多企业完成DeepSeek模型在端侧设备上的适配部署,推动AI能力向边缘侧延伸,从事端侧硬件研发、边缘计算方案设计的企业将迎来发展机会,助力智能家居、智能车载、工业物联网等场景下的AI应用快速落地 [8]
DeepSeek发布DeepSeek-OCR 2
每日经济新闻· 2026-01-27 14:15
公司产品发布 - DeepSeek于1月27日发布了全新的DeepSeek-OCR2模型 [1] - 该模型采用了创新的DeepEncoder V2方法 [1] - 新方法使AI能够根据图像含义动态重排图像各部分,而非机械地从左到右扫描 [1] - 这种方式模拟了人类观看场景时所遵循的逻辑流程 [1] 技术性能与优势 - 在处理布局复杂的图片时,该模型表现优于传统的视觉-语言模型 [1] - 模型实现了更智能、更具因果推理能力的视觉理解 [1]