高效推理
搜索文档
速递 | DeepSeek更新了:OCR 2重构底层逻辑:AI看图终于懂“人话”了
未可知人工智能研究院· 2026-01-28 12:04
核心观点 - DeepSeek OCR 2模型通过引入“视觉因果流”重构了AI看图的底层逻辑,使其能够像人类一样进行有逻辑的“语义推理式”阅读,而不仅仅是机械扫描[1][4] - 该技术在性能与效率上实现双重突破,为财务自动化、合同审核、档案管理等高价值商业场景带来降本增效的显著机会,并可能引发行业洗牌[8][9][12] - 此次更新是DeepSeek长期战略的一部分,其核心是通过优化“信息压缩”来降低推理成本,并最终目标是构建全模态统一编码器[21][22][23] 技术创新与性能 - **核心创新:视觉因果流**:模型能够根据图像的语义含义动态调整阅读顺序,例如在处理财务报表时,能将相关联的数据和备注按逻辑关系组织,而非传统OCR的固定顺序扫描[4][6] - **技术架构:DeepEncoder V2**:引入轻量级语言模型结构,使AI能动态重新排列视觉块,打破了传统CLIP固定视觉编码的桎梏[6] - **性能突破**:在相同训练数据下,比上一代模型性能提升接近4个百分点,在处理复杂文档(如多栏排版、带公式论文、图表报告)时准确率稳定在91%以上[8] - **效率飞跃**:处理一份几百页的合同,所需视觉token从过去的可能上千个压缩到一百多个,成本降低80%以上[9][10] 商业应用场景 - **财务自动化**:能自动识别发票、收据、银行对账单并理解上下文,判断支出与发票的匹配关系,为财务SaaS公司大幅降本,成本可降至原第三方API的十分之一[13] - **合同智能审核**:不仅能提取合同关键条款,还能理解条款间的逻辑关系(如判断条款冲突),未来可能取代初级法务助理的部分工作,为法律科技公司创造窗口期[14] - **智能档案管理**:在“数字政府”政策推动下,市场未来三年预计爆发,该技术能自动分类文档(如身份证、病历)并提取关键字段建立索引,满足海量历史档案数字化、上云的需求[15] 行业竞争与格局 - **主要玩家**:国内市场包括合合信息(扫描全能王母公司)、商汤、旷视、汉王科技;国际市场由AWS Textract和Google Vision API主导云端OCR服务[17] - **开源影响**:OCR 2的开源将大幅降低技术门槛和成本,打乱现有竞争格局,对依靠API赚差价的中间商和缺乏核心技术的OCR服务商造成冲击,加速行业洗牌[17][20] - **受益方**:垂直行业SaaS创业者、传统软件厂商(如ERP、OA系统集成)、以及面向多语言市场的出海团队将从中获益[19] 公司战略与长期展望 - **战略核心:压缩战**:DeepSeek通过R1推理模型、Janus多模态模型及OCR 2,持续优化“信息压缩”与“高效推理”,旨在降低大模型推理成本,以工程优化打性价比战[21][22] - **终极目标**:构建统一的全模态编码器,将文本、图片、音频、视频等所有模态映射到同一语义空间,以实现效率的指数级提升和真正的多模态通用智能[23][24] - **技术落地观**:尽管存在对模型依赖语言先验的学术性质疑,但其在当前实际有结构的文档应用场景中已能解决80%的问题,商业落地价值显著[26][27]
黄仁勋、马斯克就自动驾驶隔空交锋,大摩称特斯拉仍领先数年
搜狐财经· 2026-01-12 18:03
英伟达发布Alpamayo自动驾驶生态体系 - 英伟达CEO黄仁勋在CES 2026展会上公布了名为Alpamayo的完整自动驾驶生态体系,该体系旨在让汽车在真实世界中进行推理,具备类人思考能力 [1] - 该体系包含三个核心部分:行业首个开源的大规模视觉-语言-动作推理模型Alpamayo 1、完全开源的仿真框架AlpaSim、以及包含超过1700小时采集数据的开源自动驾驶数据集 [7] - 该模型能处理视频和传感器输入,应用基于语言的因果推理,生成驾驶轨迹,并解释其决策以实现透明度和安全审计 [7] 技术演示与商业化进展 - 在演示中,搭载该系统的车辆在交通信号灯失灵的路口,能通过多步骤推理(评估左侧来车、右侧行人)自主决策减速观察并安全通过,整个过程无需人类介入 [3] - 首款搭载英伟达全栈DRIVE系统的梅赛德斯-奔驰CLA车型计划于2026年第一季度在美国上路 [3] 行业影响与竞争格局 - 行业认为英伟达Alpamayo体系可能对特斯拉FSD系统构成威胁,但特斯拉CEO马斯克公开回应表示并不担忧 [7] - 摩根士丹利分析师指出,英伟达平台为传统汽车制造商提供了更经济快速的系统改进方式,但使其处于“更快的追随者”地位,而非领导者 [9] - 该机构认为,特斯拉凭借其庞大的车队每天收集数百万辆车的真实驾驶数据用于训练,在自动驾驶领域仍“领先竞争对手数年” [9] 开源策略与市场机遇 - 英伟达宣布将Alpamayo开源,这使得二线车企和新兴品牌能够基于此平台聚焦自身擅长场景进行优化,无需耗费数年打磨基础模型,获得了“弯道超车”的机会 [11] - 该体系的落地将推动行业需求从“暴力计算”转向“高效推理”,车载计算平台的算力与能效将成为新的竞争重点 [11] - 据西南证券测算,2030年中国L3级自动驾驶市场规模有望突破1.2万亿元 [11] 行业支持与核心价值主张 - Alpamayo获得了Lucid、捷豹路虎、Uber和伯克利DeepDrive等移动出行领域领先企业和专家的高度关注 [7] - 黄仁勋表示,“物理AI的ChatGPT时刻已然到来”,机器开始具备理解真实世界、推理并行动的能力,无人驾驶出租车将是最早受益的应用之一 [5] - 行业专家认为,Alpamayo为智能汽车注入推理能力,使其能应对罕见场景、在复杂环境中安全行驶并解释决策,这为安全、可规模化的自动驾驶奠定了基础 [5][7]
NeurIPS 2025 Spotlight | NYU提出QSVD,仅数学压缩让模型更轻、更快、更稳
机器之心· 2025-11-15 17:23
文章核心观点 - 纽约大学SAI Lab提出名为QSVD的创新技术,旨在解决视觉语言模型因参数庞大导致的显存和计算压力问题 [2][3] - QSVD通过“联合低秩分解 + 量化”策略,实现不改变模型架构、无需重新训练的高效压缩,目标为“轻量化而不减智” [7][27] - 该技术在多项评估中展现出显著优势,在极低比特量化条件下仍能保持高精度,推理速度最高提升13倍 [20][22] 技术瓶颈与目标 - 视觉语言模型(如LLaVA-13B)的强大性能伴随巨大资源消耗,推理时Key-Value缓存体积极大,导致速度慢、资源耗尽,阻碍模型落地 [2][6] - 现有解决方案如Grouped-Query Attention等虽能降低计算开销,但存在精度受损或需重新训练的问题 [6] - QSVD的核心目标是实现不改架构、不重新训练的数学压缩,使模型更轻、更快、更稳 [7] QSVD核心思想:联合低秩分解 - 首创联合奇异值分解方法,将Q、K、V矩阵拼接成一个整体后进行SVD,只需一次降维计算即可得到共享的下投影矩阵 [9][10] - 在推理阶段,QSVD仅需缓存一个共享的中间表示,而非分别存储所有的K/V缓存,使显存占用直接减半,尤其在长序列生成中节省显著 [12] - 该方法带来计算更少、显存更省、表示更稳三大优势 [17] 自适应优化与量化技术 - 提出跨层秩分配策略,通过梯度近似计算每个奇异值对模型损失的影响,实现全局最优的压缩配置,避免不同层“一刀切”压缩 [13][14] - 结合后训练量化与异常值平滑技术,引入正交变换矩阵使激活分布更平滑,在4位或8位量化条件下仍保持高精度 [16][18] - 加入可学习参数优化奇异值缩放比例,平衡不同通道间的动态范围,显著降低量化误差 [18] 实验结果与性能表现 - 在LLaVA-v1.5(7B/13B)、LLaVA-Next和SmolVLM等模型上评估,QSVD在FP16精度下比ASVD与SVD-LLM精度高10%以上 [20] - 在W8A8(8位量化)下几乎无精度损失,W4A4极低比特条件下依然稳定工作 [22] - 例如,在LLaVA-v1.5 7B模型上,W4A4量化时QSVD在SciQA任务上保持52.05%的准确率,显著优于对比方法的48.77%或更低 [22] - 推理速度最高提升13倍 [22] 技术实现路径总结 - 通过三个关键步骤实现高效多模态推理:对Q/K/V矩阵进行联合低秩分解;按重要性分配秩的跨层策略;结合旋转量化与异常值平滑的量化技术 [25][26][27] - 该路径可打造出低显存、高精度、快速响应的多模态大模型 [27]