视觉语言模型 - 财报，业绩电话会，研报，新闻 - Reportify

视觉语言模型

搜索文档

小米智驾正在迎头赶上......

自动驾驶之心· 2025-11-03 08:04

点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近30个方向学习路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 21年9月小米汽车成立，24年3月小米SU7发布，25年6月YU7发布。短短四年时间，小米汽车已经在新能源的红海赛道中杀出了自己的路。25年下半年，各家新势力都在卷智驾、卷性价比、卷冰箱彩电大沙发的时候，小米智驾也在悄悄迎头赶上，据说新的版本也快和大家见面了。一个非常明显的信号便是今年小米汽车团队的论文工作颇丰，涉及VLA、世界模型、端到端等多个方面。像ORION、WorldSplat、EvaDrive、Dream4Drive等等工作业内关注都很多，小米汽车也一直在探索怎样的生成模型能在自动驾驶里面真正的落地应用。一个合理的猜测，小米新版本的量产方案会和最前沿的技术结合的比较紧密。 PS.也推荐下我们前面总结的地平线和理想智驾的工作汇总。 2025年的理想还在不断突破，年度成果一览从地平线自动驾驶2025年的工作，我们看到了HSD的野心 VLM&VLA AdaThinkDrive AdaThinkDrive: Adaptive Thinking ...

小米集团(HK:01810)

思维链推理技术

视觉语言模型

自动驾驶技术研发

思维链推理技术

视觉语言模型

自动驾驶技术研发

ICCV 2025「端到端自动驾驶」冠军方案分享！

自动驾驶之心· 2025-10-29 08:04

赛事成就与排名 - 浪潮信息AI团队在ICCV 2025自动驾驶国际挑战赛的端到端自动驾驶赛道中夺得冠军，EPDMS综合得分为53.06 [2] - 该团队提出的创新框架"SimpleVSF"在榜单中排名第一，得分显著领先于第二名（51.31）和第三名（51.08） [3] - 此次夺冠是公司继2022年、2023年登顶nuScenes榜单以及2024年在CVPR自动驾驶挑战赛夺冠后的又一重要成果 [13] 技术框架与核心创新 - SimpleVSF框架创新地构建了以鸟瞰视图感知轨迹预测为核心、视觉-语言多模态大模型辅助判断的融合方案 [2] - 框架引入VLM增强打分机制，通过将前视图像与车辆状态输入VLM生成认知指令，使轨迹评估融入对交通意图与场景语义的理解 [8] - VLM增强打分机制为单一模型带来2%的性能提升，在融合决策中提升幅度达到6% [8] - 框架采用双重融合决策机制，包括权重融合器和基于VLM的选择融合器，融合后的结果相比单一模型性能提升达10% [10][11] - 框架采用扩散模型生成高质量候选轨迹，运用ViT-L等先进视觉骨干网络进行特征提取，并引入Qwen2.5VL系列视觉语言模型 [13] 行业挑战与赛题设置 - 端到端自动驾驶当前主要问题在于难以理解如礼让行人、拥堵跟车等高层次语义与场景常识，限制了其在真实开放道路中的可靠性与泛化能力 [5] - 赛题旨在提升模型在复杂动态环境中高效可靠决策的能力，比赛分为两阶段，第二阶段基于真实场景通过Gaussian Splatting技术生成合成场景以测试模型泛化能力 [6] - 比赛引入"反应式背景交通参与者"，要求模型具备交互式预测与意图理解能力，而非简单的轨迹外推 [6] - 比赛以NAVSIM v2数据驱动仿真框架作为评估平台，考验纯视觉环视相机输入的轨迹预测与行为规划能力，并优化九项关键指标 [4] 技术影响与行业意义 - SimpleVSF框架有效弥合了传统轨迹规划与视觉语言模型语义理解之间的关键鸿沟，推动自动驾驶决策从"纯几何式"向"认知式"转变 [7] - 该技术为高动态、高交互交通环境下的智能决策提供了全新思路，突破了现有端到端自动驾驶模型在复杂交通场景"难以自主判断"的局限 [2] - 端到端自动驾驶通过端到端优化有效减少了传统模块化方法中各组件间的误差累积与信息损失，被广泛认为是实现智能驾驶的重要发展方向 [5]

浪潮信息(SZ:000977)

端到端自动驾驶

视觉语言模型

端到端自动驾驶系统

SimpleVSF框架

端到端自动驾驶

视觉语言模型

端到端自动驾驶系统

SimpleVSF框架

DeepSeek的终极野心：把大语言模型的基本语言都改造成图像

36氪· 2025-10-21 20:52

核心观点 - DeepSeek开源了名为DeepSeek-OCR的模型，该模型在权威基准上取得了业界顶尖的成绩 [1] - 该研究的核心是解决大语言模型面临的长上下文处理算力瓶颈，通过将文本信息渲染成图像进行高效压缩，从而减少所需的视觉token数量 [4] - 这一方法可能改变未来大语言模型的输入范式，实现用图像作为更高效的输入媒介 [6][37] 技术原理与创新 - 当前大语言模型对更长上下文的追求受限于Transformer注意力机制的计算复杂度，其随序列长度呈二次方增长 [7] - DeepSeek-OCR提出通过光学压缩来减少token数量本身，而非优化注意力计算 [7] - 视觉token是视觉模型处理图像的基本信息单元，一张1024*1024的图像可被划分为4096个视觉token [8] - 大小为其一半的图像能容纳约10000个文本token，表明视觉模态是文本信息的高效压缩媒介 [9] - DeepSeek-OCR实现了10倍压缩几乎无损，20倍压缩基本可用的效果 [10] - 团队设计了名为DeepEncoder的创新视觉编码器，这是一个约3.8亿参数的串联三级架构，完美解决了高分辨率处理和低计算成本之间的矛盾 [11][12][14][16] 性能表现与效率 - 在10倍压缩率下（用64个视觉token解码600-700个文本token），OCR精度高达96.5% [17] - 在20倍压缩率下（用64个token解码1200+token），模型精度保持在约60%的可用水平 [17] - 在OmniDocBench基准测试中，DeepSeek-OCR（Small模式）仅用100个视觉token，性能就超过了使用256个token的GOT-OCR2.0 [19] - DeepSeek-OCR（Gundam模式）使用不到800个视觉token，性能全面超越了需要近7000个token的MinerU2.0 [19] - 单颗英伟达A100 GPU即可每日处理超过20万页文档 [20] - 配备20台服务器（每台搭载8颗A100 GPU）时，系统日处理能力可提升至约3300万页 [20] - 模型支持约100种语言，能识别处理纯文本、图表、化学式与几何图形等多种文档类型 [20] 行业影响与未来愿景 - 该方法不需要额外的基础设施成本，因为在现有的多模态系统上即可实现 [22] - 该方法模拟人类的遗忘机制，通过多分辨率设计实现分层记忆管理，为理论上无限上下文提供了可能路径 [25][27][28][29][31][32] - 当前压缩是无选择性的均匀压缩，未来的方向是让压缩变得有选择性，更符合人类记忆机制 [33][34][35] - 该方法可能实现输入上的统一，因为图像模态更合乎人类认知，所有给LLM的输入都可能被先渲染成图像 [37] - 这被视为一条模拟人类认知和遗忘、通向AGI记忆和输入系统的新路径 [38]

Seek .(US:SKLTY)

大语言模型

视觉语言模型

人类遗忘机制模拟

Artificial Intelligence

大语言模型

视觉语言模型

人类遗忘机制模拟

Artificial Intelligence

特斯拉call back李想的线索

理想TOP2· 2025-10-21 11:13

特斯拉FSD V14与VLA技术路线 - 特斯拉FSD V14证明其采用与VLA相同的技术路线核心特点是具备对空间的完整理解能力以及执行长任务的多任务能力[1] - 特斯拉前自动驾驶软件总监Ashok Elluswamy指出 FSD系统整合摄像头 LBS定位自车信息和音频输入至大型升级网络后端结合语言模型 3D占用网络和3D高斯技术最终输出动作指令语言信息对齐被视为关键选项[1] 技术验证与行业动态 - 理想汽车此前已强调语言模型与3D高斯技术的应用 Ashok的表述在实质上呼应了其观点尽管双方可能并无直接交流[2] - 相关论述出现在ICCV 2025的"自动驾驶基础模型蒸馏"研讨会该会议于2025年10月20日在夏威夷檀香山举行专注于通过蒸馏技术将视觉语言模型和生成式AI等大型基础模型部署到自动驾驶车辆中[3][6] 研讨会核心内容 - 特斯拉AI软件副总裁Ashok Elluswamy在会上发表主题演讲"为特斯拉机器人构建基础模型" 演讲时段可能为11:10至11:45[5][6][7] - 研讨会涵盖自动驾驶基础模型知识蒸馏小型语言模型视觉语言模型生成式AI模型多模态运动预测与规划领域自适应及可信机器学习等多个前沿技术话题[6]

视觉语言模型

生成式AI模型

视觉语言模型

生成式AI模型

光会“看”和“说”还不够，还得会“算”！Tool-Use+强化学习：TIGeR让机器人实现精准操作

具身智能之心· 2025-10-12 00:02

文章核心观点 - 公司提出TIGeR框架旨在解决当前视觉语言模型在机器人操作中缺乏精确几何量化能力的关键痛点通过工具调用和强化学习使AI模型能从定性感知转向定量计算 [2] - TIGeR框架的技术路线具有前瞻性与最新发布的Gemini Robotics 1.5所强调的Agentic Tool Use方向一致 [3] - 在多项空间理解基准测试中 TIGeR的表现超越了包括Gemini-2.5-Pro和GPT-4o在内的主流模型并在真机测试中完成了其他模型无法胜任的高精度操作任务 [11][16] TIGeR框架的技术优势 - 实现精确定位通过集成深度信息和相机参数能将如“上方10厘米”的指令精确转换为三维坐标达到普通视觉语言模型无法实现的操作精度 [7] - 支持多视角统一推理在多镜头场景下可将各视角信息合并并在统一的世界坐标系中进行场景构建和推理 [7] - 具备透明可解释性模型的每一步推理过程清晰可见包括工具调用参数输入和结果输出便于调试优化并增强操作可信度 [7] TIGeR的训练方法与数据 - 采用两阶段训练流程第一阶段通过监督学习使用大规模数据集教授基础工具使用方法和推理链第二阶段通过创新的分层奖励机制进行强化学习精细打磨模型使用工具的准确性和过程完美度 [8] - 为训练构建了TIGeR-300K大规模高质量数据集包含30万个样本覆盖各类核心任务其构建结合了模板化生成以保证规模和基础问题解决能力以及利用大模型改写以增强泛化性和应对真实世界复杂指令 [10][13] 性能表现与基准测试 - 在CV-Bench基准的2D-Rel 3D-Depth 3D-Dist任务上分别达到93.85% 96.33% 95.17%的准确率均超过对比模型 [10][14] - 在BLINK基准的Depth和Spatial任务上分别达到91.94%和86.01%的准确率 [10][14] - 在RoboSpatial基准的M.V. Conf. Comp. Cont.任务上分别达到60.15% 82.11% 82.86% 32.79%的准确率在EmbSpatial和Q-Spatial++任务上分别达到80.82%和70.30%的准确率 [10][14]

视觉语言模型

Gemini Robotics 1.5

视觉语言模型

Gemini Robotics 1.5

机器人「看片」自学新技能：NovaFlow从生成视频中提取动作流，实现零样本操控

机器之心· 2025-10-09 10:24

NovaFlow 框架概述 - 提出一种名为 NovaFlow 的全新自动操作框架，其核心目标是绕过机器人学习中的数据瓶颈，实现无需真实演示或训练的零样本复杂操控任务 [2] - 该框架的关键创新在于将任务理解与底层控制解耦，并利用大型视频生成模型中蕴含的常识知识，而非依赖昂贵的机器人亲身经历数据 [4] - 通过让机器人观看由视频模型生成的任务视频，并从中提炼出“可执行3D对象流”作为任务表征，指导机器人执行动作 [2] 核心技术：可执行3D对象流 - 引入核心中间表征“可执行3D对象流”，本质是目标物体在三维空间中运动轨迹的点云集合，只描述物体本身应如何移动 [5] - 这种以物体为中心的设计是实现跨不同机器人平台泛化的关键，使得方法与具体机器人形态无关 [5] - 该动作流作为抽象的任务表征，可被后续模块转化为针对刚性、关节体和可变形物体的具体机器人动作序列 [7][15] 动作流生成器工作流程 - 流程始于使用先进视频生成模型，根据初始场景RGB-D图像和文本指令生成一段任务教学视频 [9][12] - 通过单目视频深度估计算法将2D视频提升至3D空间，并利用第一帧真实深度图对估计深度进行校准，以解决系统性误差 [13] - 使用3D点追踪模型密集追踪场景运动，再通过开放词汇对象检测分割模型提取目标物体的运动轨迹，得到纯净的3D对象流 [14] - 为应对视频模型可能产生的“幻觉”，引入拒绝采样步骤，利用视觉语言模型评估并选择最合理的候选动作流 [14] 动作流执行器控制策略 - 针对刚性物体和铰接物体，通过分析动作流中关键点变化，计算物体在每个时间步的6D位姿，进而生成机械臂末端执行器的位姿序列和关节指令 [20] - 针对可变形物体，将3D动作流用作密集追踪目标，指导基于模型的规划器进行操作，通过粒子动力学模型预测形态变化并优化机器人动作以拟合理想状态 [20] 实验验证与性能表现 - 在Franka机械臂和波士顿动力Spot四足机器人上进行了广泛实验，任务涵盖刚性物体、铰接物体和可变形物体三大类 [16] - 实验结果显示，NovaFlow在所有零样本方法中表现最佳，其成功率甚至超过了使用10个和30个真实示教数据训练的模仿学习策略 [18][19] - 成功率的优势归因于其精确的3D动作表示，相比依赖2D光流的方法，具备更好的3D感知和长期一致性 [19] 挑战与未来方向 - 当前方法的主要局限性在于物理执行的“最后一公里”，如抓取失败或意外物理动态导致的执行偏差，暴露了开环规划系统的脆弱性 [23] - 未来的重要研究方向是开发闭环反馈系统，通过实时感知环境反馈来动态调整生成的动作流，以增强对现实世界不确定性和干扰的鲁棒性 [23]

可执行3D对象流

大型语言模型

视觉语言模型

视觉 - 语言 - 动作模型

可执行3D对象流

大型语言模型

视觉语言模型

视觉 - 语言 - 动作模型

RoboDexVLM：基于VLM分层架构的通用灵巧机器人操作

具身智能之心· 2025-09-26 08:04

点击下方卡片，关注" 具身智能之心 "公众号 >>直播和内容获取转到 → 具身智能之心知识星球点击按钮预约直播 RoboDexVLM是一个面向配备灵巧手的协作机械臂的创新型机器人任务规划与抓取检测框架。现有方法通常聚焦于简化且受限的操作任务，往往忽视了以长时序方式抓取多样化物体所伴随的复杂性。相比之下， RoboDexVLM 框架利用灵巧手能够抓取不同形状和尺寸物体的能力，同时基于自然语言指令执行任务。该方法的核心组成部分如下：首先，设计了一个具备任务级恢复机制的鲁棒任务规划器，它利用视觉语言模型使系统能够解析并执行开放词汇指令以完成长序列任务。其次，提出了一种基于机器人运动学和形式化方法的语言引导灵巧抓取感知算法，专为面向多样化物体和指令的零样本灵巧操作而设计。全面的实验结果验证了 RoboDexVLM 在处理长时序场景和执行灵巧抓取方面的有效性、适应性和鲁棒性。这些结果突显了该框架在复杂环境中运行的能力，展示了其在开放词汇灵巧操作方面的潜力。论文标题： RoboDexVLM: Visual Language Model-Enabled Task Planning an ...

视觉语言模型

视觉语言模型

全新开源模型复现o3视觉推理，无需大量训练即可实现深度思考

量子位· 2025-09-15 11:59

OpenAI o3的多轮视觉推理，有开源平替版了。并且，与先前局限于1-2轮对话的视觉语言模型（VLM）不同，它在训练限制轮数只有6轮的情况下，测试阶段能将思考轮数扩展到数十轮。不圆发自凹非寺量子位 | 公众号 QbitAI 这个模型叫Mini-o3，它无需消耗大量训练周期资源，通过恰当的数据、初始化方法和强化学习微调，即可实现长周期视觉搜索能力。由字节、香港大学团队联合开发。跨越数十个步骤的深度推理最近的多模态大模型虽然能通过"图像工具+强化学习"处理视觉问题，但现有开源方案存在很大的短板：比如推理方式单调、交互轮次受限、遇到需要反复试错的复杂任务就束手无策。而Mini-o3突破了上述局限——它能够进行长达数十个步骤的深度多轮推理，在高难度视觉搜索任务中达到了当前最佳水平。这得益于它的三个关键设计：第一，研究团队构建了视觉探测数据集VisualProbe，包含数千个专为探索式推理设计的视觉搜索难题；第二，开发了迭代式数据收集流程，让模型能学会深度优先搜索、试错探索、目标维持等多样化推理策略；第三，提出超轮次掩码策略，在强化学习中避免对达到最大交互轮次的响应进行惩罚，从而平 ...

多模态大模型

视觉语言模型

多模态大模型

视觉语言模型

自动驾驶超视距VLA如何实现？小鹏NavigScene另辟蹊径！

自动驾驶之心· 2025-09-05 07:33

文章核心观点 - 小鹏汽车团队提出NavigScene系统旨在解决自动驾驶领域局部感知与全局导航信息脱节的关键瓶颈通过导航引导的自然语言数据集和三种创新方法实现超越视觉范围的推理能力显著提升自动驾驶系统的感知、预测和规划性能 [3][4][9] 技术方案 - NavigScene构建导航引导的自然语言数据集在自动驾驶系统内部仿真类人化驾驶环境弥合局部传感器数据与全局导航信息之间的差距 [4][5] - 开发导航引导推理范式通过将导航上下文融入提示方法增强视觉语言模型的推理能力 [5] - 采用导航引导偏好优化方法扩展直接偏好优化技术通过建立导航相关信息摘要的偏好关系改进视觉语言模型响应 [5] - 创建导航引导视觉-语言-动作模型(NVLA) 通过特征融合将导航引导和视觉语言模型与传统端到端驾驶模型集成 [5] 应用价值 - 系统显著提升自动驾驶在基于局部视觉信息的问答、感知、预测和规划方面的性能为构建更可靠的自动驾驶系统奠定基础 [4][9] - 使自动驾驶系统具备"高瞻远瞩"的导航思维突破当前系统只能"看清"周围却难以"预见"远方道路与决策的限制 [3] - 研究成果以论文形式发布标题为《NavigScene: Bridging Local Perception and Global Navigation for Beyond-Visual-Range Autonomous Driving》 [6] 内容安排 - 直播将涵盖自动驾驶研究问题简介导航数据集的视觉生成和文本生成基于导航数据集的多模态大模型后训练以及视觉-语言-动作模型等核心内容 [10] - 技术分享由NavigScene论文第一作者Qucheng Peng主讲深度解析团队如何开创性弥合局部感知与全局导航的鸿沟 [3]

小鹏汽车(US:XPEV)

视觉语言模型

视觉语言模型

百度视觉技术部多模态感知与理解招聘（社招/校招/实习）

自动驾驶之心· 2025-09-04 07:33

百度视频理解算法岗位招聘 - 招聘类型包括校招、社招和实习（可转正）工作地点为北京或深圳 [2] - 负责文心一言在视频理解方向的SOTA算法研发聚焦视频问答、视频描述/摘要生成、时序行为定位、视频主题检测等核心任务 [2] - 要求计算机/人工智能相关领域硕士或博士学历在顶级会议（CVPR/ICCV等）发表论文者优先 [4][5] 团队优势与福利 - 团队处于快速扩张期校招、社招、实习岗位Headcount充足 [6] - 提供大牛导师一对一指导深度参与文心大模型项目 [6] - 福利包含免费水果、健身房及有竞争力的薪资 [6] AutoRobo求职社区资源 - 社区专注自动驾驶/机器人/具身智能/大模型领域已有近1000名成员涵盖智元机器人、地平线、理想汽车等企业员工及2024/2025届校招者 [9] - 每日更新算法/开发/产品岗位招聘信息包含校招、社招、实习等类型 [10] - 提供行业研报如《世界机器人报告》《中国人形机器人发展蓝皮书》等覆盖技术路线与市场前景分析 [19] 专业面试资源库 - 汇总自动驾驶领域专项问题集包括毫米波视觉融合、BEV感知、多传感器标定等10个核心模块的"一百问"专题 [14] - 包含具身智能方向Nerf应用、轨迹预测、Occupancy感知等6个技术方向的面试题库 [15][18] - 整理多家企业面经如滴滴算法工程师、英伟达春招、小米汽车算法岗等7类实战案例 [21] 职业发展支持服务 - 提供谈薪技巧指导包含HR面常见问题汇总与薪资谈判关键回答 [23][25] - 分享转行自动驾驶行业经验面试官建议及算法岗基础技能树构建方法 [25] - 提供专业书籍资源与简历优化服务支持C++、产品经理等岗位面试准备 [24]

大语言模型

视觉语言模型

多模态学习

Artificial Intelligence

大语言模型

视觉语言模型

多模态学习

Artificial Intelligence