Workflow
视觉 - 语言模型
icon
搜索文档
DeepSeek-OCR2:以“因果阅读顺序”重塑复杂文档理解
海通国际证券· 2026-01-29 08:58
报告行业投资评级 * 报告未对特定公司或行业给出明确的投资评级(如“优于大市”、“中性”或“弱于大市”)[1] 报告核心观点 * 报告认为DeepSeek-OCR 2模型通过引入“因果阅读顺序”的架构创新,显著提升了复杂文档的理解准确性与处理效率,其性能已进入行业第一梯队,并具备出色的性能-效率平衡能力,对产业落地具有明确的成本和应用优势[1][2][3][4] 事件与模型升级总结 * DeepSeek团队于2026年1月27日发布论文并开源DeepSeek-OCR 2模型[1] * 核心升级在于视觉编码器DeepEncoder V2,使模型从传统的机械扫描方式转变为依据文档结构与语义进行动态理解[1] * 模型采用轻量级语言模型Qwen2-500M替代原有编码器,并引入“因果流查询”机制,在编码阶段对视觉信息进行逻辑重组,模仿人类阅读的认知过程[2] 性能表现与基准测试总结 * 在权威基准OmniDocBench v1.5评测中,DeepSeek-OCR 2综合得分达91.09%,较上一代提升3.73个百分点[3] * 反映阅读顺序准确性的编辑距离指标从0.085优化至0.057[3] * 横向对比中,其得分略低于排名第一的PaddleOCR-VL(92.86%),但差距较小[3] * 在同等1120个视觉token预算下,其文档解析编辑距离为0.100,优于Gemini 3 Pro的0.115[3][11] 产业落地与商业价值总结 * 模型处理复杂文档页面仅需256至1120个视觉token,极高的信息压缩效率将降低下游大模型的计算负载与处理时延[4] * 模型以Apache-2.0协议开源,参数量为30亿,易于企业集成[4] * 可应用于PDF转Markdown、表格与公式结构化抽取、RAG知识库构建等场景[4] * 实际生产反馈显示,其在线上日志图像处理中的文本“重复率”从6.25%下降至4.17%,在批量PDF处理中从3.69%下降至2.88%[4] 技术架构与长期意义总结 * 此次升级是一次架构方向试探,将“阅读顺序与结构理解”能力前置至视觉编码器阶段[5] * 该架构创新为视觉-语言模型设计提供了新的技术路径,并能作为生成高质量结构化训练数据的工具,反哺大语言模型的优化[5] * 研发团队明确了模型当前边界与后续迭代方向,形成了“问题可归因、优化有路径”的迭代方法论[5]
NAVSIM SOTA!LatentVLA:通过潜在动作预测构建高效自驾VLA(OpenDriveLab&理想)
自动驾驶之心· 2026-01-12 17:20
文章核心观点 - 上海创智学院、OpenDriveLab和理想汽车联合提出了一种名为LatentVLA的新型端到端自动驾驶框架,该框架通过自监督潜在动作预测训练视觉-语言模型,并利用知识蒸馏将其能力迁移至高效的纯视觉网络,旨在解决VLM在自动驾驶中面临的轨迹预测不精确、依赖语言标注和推理效率低下三大挑战,在NAVSIM基准测试中以92.4的PDMS得分创造了新的SOTA,并在nuScenes基准上展示了强大的零样本泛化能力 [2][17][52] 背景与挑战 - **端到端自动驾驶的局限性**:尽管端到端方法能直接从传感器输入映射到轨迹,但其性能受限于训练数据的场景多样性,难以应对真实世界中复杂多变的长尾场景 [4][10] - **视觉-语言模型在自动驾驶中的三大挑战**: 1. **数值不敏感与轨迹不精确**:VLM基于离散语言标记的自回归训练方式不适合连续动作空间,导致输出不稳定,特别是在长时域轨迹规划中精度受损 [4] 2. **数据标注负担与语言偏差**:依赖大规模语言标注(如VQA风格)会引入语言偏差,限制对隐性驾驶知识的捕获,可能导致文本描述与实际驾驶行为不匹配 [5] 3. **计算效率低与认知不对齐**:采用思维链式推理的VLM计算成本高、耗时长,难以满足实时部署要求 [5] 解决方案:LatentVLA框架 - **核心创新**:提出整合VLM优势与传统视觉方法效率和精度的新型框架 [17] - **两大核心技术**: 1. **自监督潜在动作预测**:采用以自车为中心的潜在动作预测作为自监督学习目标来训练VLM,完全无需语言标注,能从无标注轨迹数据中学习丰富的驾驶表征,减轻语言偏差并降低标注负担 [6][21] 2. **知识蒸馏机制**:将训练好的VLM(教师模型)学到的表征和推理能力蒸馏到规划Transformer(学生模型)中,再将其特征与传统端到端方法的特征融合,使学生模型继承VLM泛化能力的同时,保持传统方法的计算效率和实时性能 [6][21][35] - **潜在动作学习与解耦**: - 通过编码器-解码器架构和VQ-VAE,从视觉观测中学习并离散化连续动作,生成量化的潜在动作表征 [23] - 提出潜在动作解耦,通过两阶段过程分离自车运动与环境变化,使模型能更准确地捕获驾驶意图,提升规划质量 [23][25] 实验结果与性能 - **NAVSIM基准测试**: - LatentVLA(iPad)版本获得92.4的PDMS得分,刷新SOTA,比原生iPad方法(91.7)提高了0.7分 [2][41][42] - LatentVLA(TransFuser)版本将得分从84.0提升至86.6 [41][42] - 知识蒸馏版本性能接近完整模型,Distilled LatentVLA(iPad)得分为92.1,性能保持率达99.7%,同时比原生iPad提高0.4分 [41] - **nuScenes零样本泛化能力**: - LatentVLA(iPad)在nuScenes开环规划中平均L2误差为0.33米,在顶级VLM方法中排名靠前 [44][46] - 在关键短期时间域表现优异,1秒时L2误差为0.13米,2秒时为0.28米,匹配或超越了部分基线方法 [44] - 尽管训练数据规模和多样性显著少于基线方法(如EMMA+、ImpromptuVLA),但仍展现出强大的跨数据集泛化能力 [44] - **推理速度提升**: - 直接集成VLA模型推理延迟高(约790ms),帧率低于1.3 FPS,无法满足实时要求 [51] - 经过知识蒸馏后,推理延迟降低约3.8倍(至约210ms),帧率提升近3.7倍(至约4.8 FPS),显著加速 [51] - **定性分析优势**:在环岛、交叉路口等复杂场景中,LatentVLA能生成准确、平滑且安全的轨迹,而基线方法可能出现方向误判或轨迹偏离可行驶区域的情况 [48] 消融实验验证 - **关键组件有效性**:系统性地整合视觉嵌入、动作嵌入以及将语言条件改为轨迹条件,均能持续提升模型性能,最终LatentVLA(TransFuser)的PDMS得分从基线84.0提升至86.6 [50] - **训练数据影响**:使用更大规模的OpenScene数据集进行潜在动作模型训练,相比仅使用navtrain数据集能带来进一步的性能提升 [50]
高通发布机器人芯片架构 押注“物理AI”|直击CES
新浪科技· 2026-01-06 03:58
高通在CES 2026发布机器人技术架构 - 高通在CES 2026上发布了全新机器人技术架构和Dragonwing IQ10系列处理器,正式进军工业机器人和人形机器人市场 [3] - 该高性能处理器专为工业自主移动机器人(AMR)和全尺寸人形机器人设计,整合了边缘计算、边缘AI、混合关键系统和机器学习运营等技术,提供高能效的“机器人大脑”能力 [3] - 此举意在与英伟达争夺下一代机器人市场,利用其在移动芯片领域40年的技术积累,在功耗效率和可扩展性上建立优势 [3] 高通机器人技术架构的性能与生态 - 该架构支持视觉-语言-动作模型(VLA)和视觉-语言模型(VLM)等端到端AI模型,能实现高级感知、运动规划和人机交互功能 [3] - 高通称这标志着机器人从原型阶段向实际商业部署的重要跨越 [3] - 高通正在构建全面的机器人生态系统,已与Figure AI、Booster、VinMotion、Kuka Robotics等多家机器人制造商展开合作 [3] - 其中Figure AI将使用Dragonwing IQ10开发下一代人形机器人,而越南VinMotion的Motion 2人形机器人已搭载前代IQ9芯片在展会上展示 [3] 高通在汽车领域的业务进展 - 高通在汽车领域的Snapdragon Cockpit Elite平台已成为高端电动车的事实标准 [4] - 该平台采用定制Oryon CPU架构,在功耗和连接性上优于英伟达和英特尔的竞争方案 [4] - 该平台已获得通用、宝马、现代、法拉利等几乎所有主要汽车制造商的采用,汽车业务营收管线超过450亿美元 [4] 高通的整体业务布局 - 高通正在与库卡机器人公司洽谈下一代机器人解决方案 [4] - 此举展示了公司从移动、PC到汽车、机器人的全方位布局野心 [4]
欧几里得的礼物:通过几何代理任务增强视觉-语言模型中的空间感知和推理能力
机器之心· 2025-10-17 10:11
多模态大语言模型(MLLMs)的空间智能挑战 - 当前最先进的MLLMs在广泛视觉-语言任务中取得显著成功,但仍缺乏真正的空间智能,甚至在儿童能轻易完成的任务上出错,例如数方块或识别物体左侧最近邻近物体[2] - 在李飞飞提出的VSIBench评估基准中,超过70%的记录错误源于模型对空间现象的推理错误,而非视觉识别或语言解析能力不足[5] - 近期研究尝试通过提供专门构建的空间数据集来提升模型性能,但这些数据集通常仅涵盖现实世界空间任务的子集,可能导致模型过度特化,难以培养更基础且可泛化的空间智能[5] 几何问题作为空间智能代理任务的原理 - 几何将数个世纪的数学研究浓缩为对空间现象的形式化描述,学习求解几何问题能迫使模型内化欧几里得几何公理等先验知识,并提供更强的跨领域泛化能力[8] - 解决几何问题所需的能力,包括识别形状与构型、推断空间关系、计算几何元素以及执行多步逻辑推理,同样是空间感知任务所必需[10] - 教育心理学领域有大量证据表明几何问题求解与空间智力密切相关,可作为空间能力的指标,并且本文通过实验发现这种关系可推广至多模态大模型[10] Euclid30K几何数据集的构建 - 为解决缺乏多样化几何问题大规模高质量训练数据集的问题,研究团队从现有开源数据集与K12教程中标注了一个包含29,695个几何问题的Euclid30K数据集[12] - Euclid30K数据集中包含18,577个平面几何问题和11,118个立体几何问题,其中新收集的立体几何问题有3,996个,新收集的图像有3,792张[13] - 所有题目与答案都通过GPT-4o与DeepSeek-V3.1 API混合清洗,确保答案被重规范化为可被MathVerify正确识别的格式[12] 几何训练对模型性能的提升效果 - 仅使用常规GRPO对模型进行训练后,经过几何问题训练的模型在VSI Bench、Super CLEVR、Omni3D Bench和MindCube四个基准上的性能都出现了一定程度增长[15] - 因果消融研究表明,在Euclid30K上训练的模型相比在同等大小Clevr-CoGenT数据集上微调的模型整体准确率显著更高,验证了性能提升明确归因于几何任务[17] - 具体而言,Qwen2.5VL-72B模型在Euclid30K上训练后整体准确率达到37.5%,高于在Clevr-CoGenT上训练的33.2%和基础版的32.3%[19]
ICCV 2025 | HERMES:首个统一3D场景理解与生成的世界模型
机器之心· 2025-08-14 12:57
研究背景与动机 - 自动驾驶技术需要两大核心能力:对当前环境的深刻理解(识别交通参与者、理解交通规则)和未来场景的准确预测(预测行人、车辆运动)[7] - 当前主流方案将"理解"和"生成"分开处理,但实际决策需要两种能力深度融合[8][10] - 构建统一模型面临挑战:高分辨率环视图像输入LLM的token限制、理解与生成任务相互促进机制、世界知识与场景预测的集成[11] HERMES框架设计 - 采用共享LLM同时驱动理解与生成任务,通过BEV(鸟瞰图)作为统一场景表达[13][18] - BEV Tokenizer将六路环视图像编码为紧凑俯视视角表征,保留空间几何关系和语义细节[18] - 引入世界查询机制:通过自适应采样提取场景核心信息Token,实现知识注入与传递[19] - 联合训练优化:语言建模损失(Next Token Prediction)和点云生成损失(L1损失)[21][22] 技术优势与性能 - 未来生成任务:3秒未来点云误差降低32.4%,Chamfer Distance显著优于ViDAR[31] - 场景理解任务:CIDEr指标提升8%,超越OmniDrive等专用模型[31] - 统一建模效果:生成精度显著提升且理解能力无损,验证框架有效性[31] - 无需历史序列即可实现高效推理,展现强泛化能力[31] 应用表现 - 能准确预测未来三秒车辆与环境动态(如货车轨迹),同时深度理解当前场景(识别"星巴克"并描述路况)[4] - 生成时序连贯且几何精确的未来点云,精准描述驾驶场景细节(动态物体移动预测、路边商家识别)[27]
自动驾驶中常提的VLM是个啥?与VLA有什么区别?
自动驾驶之心· 2025-08-09 00:04
自动驾驶视觉语言模型(VLM)技术解析 核心观点 - VLM是融合视觉与语言处理能力的多模态AI系统,通过联合处理图像特征与文本信息实现场景深度理解与自然语言交互[6] - 在自动驾驶领域,VLM可识别交通标志文字、生成安全提示、支持语义问答,显著提升车辆环境感知与交互能力[12] - 与VLA相比,VLM侧重"视觉理解+语言表达",而VLA扩展至"感知-决策-执行"闭环,两者在架构与任务目标上存在本质差异[18] 技术实现路径 模型架构 - 采用视觉编码器(CNN/ViT)提取道路纹理、车辆轮廓等特征,语言模块(Transformer)处理语义关联,通过跨模态注意力机制实现图文对齐[8][9] - 训练分两阶段:预训练阶段使用互联网图文数据建立通用能力,微调阶段采用自动驾驶专属数据集(覆盖不同道路/天气/交通场景)[11] 应用功能 - 实时场景提示:识别施工标志/水坑等危险区域,生成"减速绕行"等自然语言提示并通过车载系统播报[12] - 交互式语义问答:结合图像与地图数据回答"最优车道选择""转向限制"等乘客语音询问[12] - 路牌文字识别:结构化输出"限高3.5米""禁止掉头"等交通标志信息至决策模块[12] 部署优化 - 采用边缘-云协同架构:云端完成模型训练/微调,车载单元部署轻量化推理模型(经剪枝/量化优化)实现毫秒级响应[14] - 数据标注需覆盖多光照/天气条件,标注内容包含物体框选与自然语言描述(如"左侧车道封闭需减速至60km/h")[14] 技术演进方向 - 融合雷达/LiDAR/V2X等多源数据提升环境感知全面性,整合实时交通法规/气象信息更新决策背景知识[16] - 通过模型集成/贝叶斯深度学习评估不确定性,低置信度时切换至传统传感器融合方案保障安全性[15] - 结合大语言模型(LLM)与大视觉模型(LVM)发展,推动多模态融合感知与交互能力升级[16]
演讲生成黑科技,PresentAgent从文本到演讲视频
机器之心· 2025-07-18 16:18
核心观点 - PresentAgent是一个能将长篇文档转化为带解说的多模态演示视频的智能体,突破了现有静态幻灯片或文本摘要的局限,生成高度同步的视觉内容和语音解说,模拟人类风格演示[1][9] - 系统通过模块化流程实现文档到视频的转化,包括文档分段、幻灯片生成、语音解说合成及音视同步对齐[3][17] - 提出首个文档到演示视频生成任务,并构建包含30对文档-视频样本的高质量评测数据集Doc2Present Benchmark[12][21] - 开发统一评估框架PresentEval,通过视觉语言模型从内容忠实度、视觉清晰度和观众理解度三个维度评分[6][14] - 实验显示PresentAgent在多项指标上接近人类水平,部分模型如Claude-3.7-sonnet测验准确率达0.64,GPT-4o-Mini视频内容评分达4.8[22][25][26] 技术架构 - **文档处理阶段**:对输入文档进行语义分段和提纲生成,支持论文、网页、PDF等多种格式[17][19] - **幻灯片生成**:检索最佳模板,利用视觉语言模型生成布局感知的幻灯片,包含结构化内容如技术解释、系统架构等[17][29] - **语音合成**:通过大型语言模型生成上下文解说文稿,经TTS转换为音频,并与视觉内容精确同步[3][23] - **评估模块**:采用分段策略,结合客观测验(Qwen-VL-2.5-3B)和主观评分(Qwen-Omni-7B)[24] 实验结果 - **测验准确率**:Claude-3.7-sonnet以0.64超过人类基准(0.56),其他模型如Qwen-VL-Max和Gemini-2.5-pro均为0.52[22][25] - **视频质量**:人类参考视频平均分4.47,GPT-4o-Mini达4.67,Gemini-2.5-flash视觉单项满分5.0但理解性仅3.8[22][26][27] - **音频质量**:人类基准4.80,Claude-3.7-sonnet和Qwen-VL-Max分别达4.53和4.60[22][26] 应用场景 - 支持商业报告、产品手册、政策简报、教程类文档等多领域长文本的自动化视频转化[12][13] - 案例显示技术博客可被转化为包含并行化工作流、代理系统架构等专业主题的解说视频[29] 资源信息 - 论文及代码已公开,标题为《PresentAgent: Multimodal Agent for Presentation Video Generation》[8]
ICCV 2025|训练太复杂?对图片语义、布局要求太高?图像morphing终于一步到位
机器之心· 2025-07-18 08:38
核心观点 - FreeMorph是一种无需训练、一步到位的图像变形方法,能够在不同语义与布局的图像之间生成流畅自然的过渡效果 [5] - 该方法通过改进扩散模型的自注意力机制,解决了传统方法中训练成本高、适应性差的问题 [5][11] - FreeMorph在30秒内即可为两张输入图像生成高质量平滑过渡,显著优于现有技术 [32] 技术背景 - 传统图像变形技术依赖复杂的图像对齐算法和颜色插值,难以处理复杂纹理和多样语义的图像 [4] - 现有深度学习方法如GAN、VAE存在训练成本高、数据依赖强、反演不稳定等问题 [4] - 基于Stable Diffusion和CLIP等大模型的方法仍面临训练时间长(约30分钟/案例)和语义处理能力不足的挑战 [9] 技术方案 - 引导感知的球面插值:通过修改预训练扩散模型的自注意力模块,融入输入图像的显式引导来增强模型 [11] - 球面特征聚合融合自注意力模块的Key和Value特征,确保过渡一致性 [16] - 先验引导的自注意力机制保留输入图像的独特身份特征 [18] - 步骤导向的变化趋势:融合两个输入图像的自注意力模块,实现受控且一致的过渡 [21] - 改进的反向去噪和正向扩散过程:将创新组件集成到原始DDIM框架中 [22][25] 技术优势 - 无需训练或调参,仅需两张输入图像即可完成变形 [5] - 处理时间仅需30秒,显著快于现有方法(如IMPUS需要30分钟) [32] - 能够处理语义多样、布局复杂的图像对,保持身份特征和平滑过渡 [27][30] - 在四组不同类别的评估数据集上表现优异 [12] 应用前景 - 可应用于动画、电影特效或照片编辑等领域 [3] - 能够捕捉细微变化,如不同颜色的蛋糕或人物表情的微妙差异 [27] - 为training-free图像变形打开了新的可能性 [5] 技术局限 - 处理语义或布局差异较大的图像时,过渡可能不够平滑 [34] - 继承了Stable Diffusion的固有偏差,在人体四肢等结构处理上准确性受影响 [34]