Workflow
视觉语言模型
icon
搜索文档
ICCV 2025「端到端自动驾驶」冠军方案分享!
自动驾驶之心· 2025-10-29 08:04
赛事成就与排名 - 浪潮信息AI团队在ICCV 2025自动驾驶国际挑战赛的端到端自动驾驶赛道中夺得冠军,EPDMS综合得分为53.06 [2] - 该团队提出的创新框架"SimpleVSF"在榜单中排名第一,得分显著领先于第二名(51.31)和第三名(51.08) [3] - 此次夺冠是公司继2022年、2023年登顶nuScenes榜单以及2024年在CVPR自动驾驶挑战赛夺冠后的又一重要成果 [13] 技术框架与核心创新 - SimpleVSF框架创新地构建了以鸟瞰视图感知轨迹预测为核心、视觉-语言多模态大模型辅助判断的融合方案 [2] - 框架引入VLM增强打分机制,通过将前视图像与车辆状态输入VLM生成认知指令,使轨迹评估融入对交通意图与场景语义的理解 [8] - VLM增强打分机制为单一模型带来2%的性能提升,在融合决策中提升幅度达到6% [8] - 框架采用双重融合决策机制,包括权重融合器和基于VLM的选择融合器,融合后的结果相比单一模型性能提升达10% [10][11] - 框架采用扩散模型生成高质量候选轨迹,运用ViT-L等先进视觉骨干网络进行特征提取,并引入Qwen2.5VL系列视觉语言模型 [13] 行业挑战与赛题设置 - 端到端自动驾驶当前主要问题在于难以理解如礼让行人、拥堵跟车等高层次语义与场景常识,限制了其在真实开放道路中的可靠性与泛化能力 [5] - 赛题旨在提升模型在复杂动态环境中高效可靠决策的能力,比赛分为两阶段,第二阶段基于真实场景通过Gaussian Splatting技术生成合成场景以测试模型泛化能力 [6] - 比赛引入"反应式背景交通参与者",要求模型具备交互式预测与意图理解能力,而非简单的轨迹外推 [6] - 比赛以NAVSIM v2数据驱动仿真框架作为评估平台,考验纯视觉环视相机输入的轨迹预测与行为规划能力,并优化九项关键指标 [4] 技术影响与行业意义 - SimpleVSF框架有效弥合了传统轨迹规划与视觉语言模型语义理解之间的关键鸿沟,推动自动驾驶决策从"纯几何式"向"认知式"转变 [7] - 该技术为高动态、高交互交通环境下的智能决策提供了全新思路,突破了现有端到端自动驾驶模型在复杂交通场景"难以自主判断"的局限 [2] - 端到端自动驾驶通过端到端优化有效减少了传统模块化方法中各组件间的误差累积与信息损失,被广泛认为是实现智能驾驶的重要发展方向 [5]
DeepSeek的终极野心:把大语言模型的基本语言都改造成图像
36氪· 2025-10-21 20:52
核心观点 - DeepSeek开源了名为DeepSeek-OCR的模型,该模型在权威基准上取得了业界顶尖的成绩 [1] - 该研究的核心是解决大语言模型面临的长上下文处理算力瓶颈,通过将文本信息渲染成图像进行高效压缩,从而减少所需的视觉token数量 [4] - 这一方法可能改变未来大语言模型的输入范式,实现用图像作为更高效的输入媒介 [6][37] 技术原理与创新 - 当前大语言模型对更长上下文的追求受限于Transformer注意力机制的计算复杂度,其随序列长度呈二次方增长 [7] - DeepSeek-OCR提出通过光学压缩来减少token数量本身,而非优化注意力计算 [7] - 视觉token是视觉模型处理图像的基本信息单元,一张1024*1024的图像可被划分为4096个视觉token [8] - 大小为其一半的图像能容纳约10000个文本token,表明视觉模态是文本信息的高效压缩媒介 [9] - DeepSeek-OCR实现了10倍压缩几乎无损,20倍压缩基本可用的效果 [10] - 团队设计了名为DeepEncoder的创新视觉编码器,这是一个约3.8亿参数的串联三级架构,完美解决了高分辨率处理和低计算成本之间的矛盾 [11][12][14][16] 性能表现与效率 - 在10倍压缩率下(用64个视觉token解码600-700个文本token),OCR精度高达96.5% [17] - 在20倍压缩率下(用64个token解码1200+token),模型精度保持在约60%的可用水平 [17] - 在OmniDocBench基准测试中,DeepSeek-OCR(Small模式)仅用100个视觉token,性能就超过了使用256个token的GOT-OCR2.0 [19] - DeepSeek-OCR(Gundam模式)使用不到800个视觉token,性能全面超越了需要近7000个token的MinerU2.0 [19] - 单颗英伟达A100 GPU即可每日处理超过20万页文档 [20] - 配备20台服务器(每台搭载8颗A100 GPU)时,系统日处理能力可提升至约3300万页 [20] - 模型支持约100种语言,能识别处理纯文本、图表、化学式与几何图形等多种文档类型 [20] 行业影响与未来愿景 - 该方法不需要额外的基础设施成本,因为在现有的多模态系统上即可实现 [22] - 该方法模拟人类的遗忘机制,通过多分辨率设计实现分层记忆管理,为理论上无限上下文提供了可能路径 [25][27][28][29][31][32] - 当前压缩是无选择性的均匀压缩,未来的方向是让压缩变得有选择性,更符合人类记忆机制 [33][34][35] - 该方法可能实现输入上的统一,因为图像模态更合乎人类认知,所有给LLM的输入都可能被先渲染成图像 [37] - 这被视为一条模拟人类认知和遗忘、通向AGI记忆和输入系统的新路径 [38]
特斯拉call back李想的线索
理想TOP2· 2025-10-21 11:13
特斯拉FSD V14与VLA技术路线 - 特斯拉FSD V14证明其采用与VLA相同的技术路线 核心特点是具备对空间的完整理解能力以及执行长任务的多任务能力[1] - 特斯拉前自动驾驶软件总监Ashok Elluswamy指出 FSD系统整合摄像头 LBS定位 自车信息和音频输入至大型升级网络 后端结合语言模型 3D占用网络和3D高斯技术 最终输出动作指令 语言信息对齐被视为关键选项[1] 技术验证与行业动态 - 理想汽车此前已强调语言模型与3D高斯技术的应用 Ashok的表述在实质上呼应了其观点 尽管双方可能并无直接交流[2] - 相关论述出现在ICCV 2025的"自动驾驶基础模型蒸馏"研讨会 该会议于2025年10月20日在夏威夷檀香山举行 专注于通过蒸馏技术将视觉语言模型和生成式AI等大型基础模型部署到自动驾驶车辆中[3][6] 研讨会核心内容 - 特斯拉AI软件副总裁Ashok Elluswamy在会上发表主题演讲"为特斯拉机器人构建基础模型" 演讲时段可能为11:10至11:45[5][6][7] - 研讨会涵盖自动驾驶基础模型 知识蒸馏 小型语言模型 视觉语言模型 生成式AI模型 多模态运动预测与规划 领域自适应及可信机器学习等多个前沿技术话题[6]
光会“看”和“说”还不够,还得会“算”!Tool-Use+强化学习:TIGeR让机器人实现精准操作
具身智能之心· 2025-10-12 00:02
文章核心观点 - 公司提出TIGeR框架 旨在解决当前视觉语言模型在机器人操作中缺乏精确几何量化能力的关键痛点 通过工具调用和强化学习使AI模型能从定性感知转向定量计算 [2] - TIGeR框架的技术路线具有前瞻性 与最新发布的Gemini Robotics 1.5所强调的Agentic Tool Use方向一致 [3] - 在多项空间理解基准测试中 TIGeR的表现超越了包括Gemini-2.5-Pro和GPT-4o在内的主流模型 并在真机测试中完成了其他模型无法胜任的高精度操作任务 [11][16] TIGeR框架的技术优势 - 实现精确定位 通过集成深度信息和相机参数 能将如“上方10厘米”的指令精确转换为三维坐标 达到普通视觉语言模型无法实现的操作精度 [7] - 支持多视角统一推理 在多镜头场景下可将各视角信息合并 并在统一的世界坐标系中进行场景构建和推理 [7] - 具备透明可解释性 模型的每一步推理过程清晰可见 包括工具调用 参数输入和结果输出 便于调试优化并增强操作可信度 [7] TIGeR的训练方法与数据 - 采用两阶段训练流程 第一阶段通过监督学习使用大规模数据集教授基础工具使用方法和推理链 第二阶段通过创新的分层奖励机制进行强化学习 精细打磨模型使用工具的准确性和过程完美度 [8] - 为训练构建了TIGeR-300K大规模高质量数据集 包含30万个样本 覆盖各类核心任务 其构建结合了模板化生成以保证规模和基础问题解决能力 以及利用大模型改写以增强泛化性和应对真实世界复杂指令 [10][13] 性能表现与基准测试 - 在CV-Bench基准的2D-Rel 3D-Depth 3D-Dist任务上分别达到93.85% 96.33% 95.17%的准确率 均超过对比模型 [10][14] - 在BLINK基准的Depth和Spatial任务上分别达到91.94%和86.01%的准确率 [10][14] - 在RoboSpatial基准的M.V. Conf. Comp. Cont.任务上分别达到60.15% 82.11% 82.86% 32.79%的准确率 在EmbSpatial和Q-Spatial++任务上分别达到80.82%和70.30%的准确率 [10][14]
机器人「看片」自学新技能:NovaFlow从生成视频中提取动作流,实现零样本操控
机器之心· 2025-10-09 10:24
NovaFlow 框架概述 - 提出一种名为 NovaFlow 的全新自动操作框架,其核心目标是绕过机器人学习中的数据瓶颈,实现无需真实演示或训练的零样本复杂操控任务 [2] - 该框架的关键创新在于将任务理解与底层控制解耦,并利用大型视频生成模型中蕴含的常识知识,而非依赖昂贵的机器人亲身经历数据 [4] - 通过让机器人观看由视频模型生成的任务视频,并从中提炼出“可执行3D对象流”作为任务表征,指导机器人执行动作 [2] 核心技术:可执行3D对象流 - 引入核心中间表征“可执行3D对象流”,本质是目标物体在三维空间中运动轨迹的点云集合,只描述物体本身应如何移动 [5] - 这种以物体为中心的设计是实现跨不同机器人平台泛化的关键,使得方法与具体机器人形态无关 [5] - 该动作流作为抽象的任务表征,可被后续模块转化为针对刚性、关节体和可变形物体的具体机器人动作序列 [7][15] 动作流生成器工作流程 - 流程始于使用先进视频生成模型,根据初始场景RGB-D图像和文本指令生成一段任务教学视频 [9][12] - 通过单目视频深度估计算法将2D视频提升至3D空间,并利用第一帧真实深度图对估计深度进行校准,以解决系统性误差 [13] - 使用3D点追踪模型密集追踪场景运动,再通过开放词汇对象检测分割模型提取目标物体的运动轨迹,得到纯净的3D对象流 [14] - 为应对视频模型可能产生的“幻觉”,引入拒绝采样步骤,利用视觉语言模型评估并选择最合理的候选动作流 [14] 动作流执行器控制策略 - 针对刚性物体和铰接物体,通过分析动作流中关键点变化,计算物体在每个时间步的6D位姿,进而生成机械臂末端执行器的位姿序列和关节指令 [20] - 针对可变形物体,将3D动作流用作密集追踪目标,指导基于模型的规划器进行操作,通过粒子动力学模型预测形态变化并优化机器人动作以拟合理想状态 [20] 实验验证与性能表现 - 在Franka机械臂和波士顿动力Spot四足机器人上进行了广泛实验,任务涵盖刚性物体、铰接物体和可变形物体三大类 [16] - 实验结果显示,NovaFlow在所有零样本方法中表现最佳,其成功率甚至超过了使用10个和30个真实示教数据训练的模仿学习策略 [18][19] - 成功率的优势归因于其精确的3D动作表示,相比依赖2D光流的方法,具备更好的3D感知和长期一致性 [19] 挑战与未来方向 - 当前方法的主要局限性在于物理执行的“最后一公里”,如抓取失败或意外物理动态导致的执行偏差,暴露了开环规划系统的脆弱性 [23] - 未来的重要研究方向是开发闭环反馈系统,通过实时感知环境反馈来动态调整生成的动作流,以增强对现实世界不确定性和干扰的鲁棒性 [23]
RoboDexVLM:基于VLM分层架构的通用灵巧机器人操作
具身智能之心· 2025-09-26 08:04
技术框架概述 - RoboDexVLM是一个面向配备灵巧手的协作机械臂的创新性机器人任务规划与抓取检测框架 [2] - 该框架利用灵巧手抓取不同形状和尺寸物体的能力,并基于自然语言指令执行任务 [2] - 该框架是首个融合视觉语言模型的通用灵巧机器人操作框架,支持自然语言指令下的长序列任务规划与零样本抓取控制 [6] 核心技术组件 - 设计了一个具备任务级恢复机制的鲁棒任务规划器,利用视觉语言模型解析并执行开放词汇指令以完成长序列任务 [2] - 提出了一种基于机器人运动学和形式化方法的语言引导灵巧抓取感知算法,专为零样本灵巧操作而设计 [2] - 框架突破传统方法与端到端方法的局限,为具身智能与人机协作开辟新路径 [6] 功能特性与优势 - 支持语言即指令,让机器人听懂自然语言 [7] - 实现灵巧手操作,具备零样本抓取千奇百怪物体的能力 [7] - 利用视觉语言模型作为“大脑”,确保长程任务执行不迷路 [7] - 全面的实验结果验证了该框架在处理长时序场景和执行灵巧抓取方面的有效性、适应性和鲁棒性 [2] 应用与演示 - 框架展示了在复杂环境中运行的能力,以及在开放词汇灵巧操作方面的潜力 [2] - 直播将展示RoboDexVLM从理论到真实世界的实战表现 [7]
全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考
量子位· 2025-09-15 11:59
模型核心突破 - 推出开源视觉语言模型Mini-o3,能够进行长达数十个步骤的深度多轮视觉推理,在训练轮次限制仅为6轮的情况下,测试阶段可将思考轮数扩展到数十轮[1][2][13] - 模型通过恰当的数据、初始化方法和强化学习微调实现长周期视觉搜索能力,无需消耗大量训练周期资源[13] - 在多个视觉搜索基准测试中达到当前最佳水平,显著优于其他开源基线模型[15][43] 技术架构与训练方法 - 采用两阶段训练流程:第一阶段为冷启动监督微调,仅使用6个人工示范样本便生成约6000条高质量推理轨迹[19][22][24] - 第二阶段实施强化学习,关键创新包括将单张图像最大像素限制从1200万降至200万,使相同上下文容量内容纳更多交互轮次[25][26][27] - 提出超轮次掩码技术,避免对达到最大交互轮次的响应进行惩罚,平衡训练效率与测试扩展性,使测试推理轨迹能延伸至数十轮[28][34][35] 数据集构建 - 专门构建视觉探测数据集VisualProbe,包含4000个训练用视觉问答对和500个测试用问答对,涵盖简单、中等、困难三个难度级别[38] - 数据集特点包括小目标、众多干扰物体和高分辨率图像,这些特性使任务更具挑战性并自然要求迭代探索和试错[39][42] 性能表现 - 在VisualProbe数据集上,Mini-o3在困难、中等、简单任务准确率分别达到48.0%、50.4%、67.0%,显著超越GPT-40的11.2%、15.4%、47.5%[40] - 在V* Bench评估中取得88.2分,优于DyFot的81.2分和Chain-of-FocusT的88.0分[40] - 消融实验显示,移除RL数据导致模型在VisualProbe-Hard上性能下降约8.6分,验证了具有挑战性的RL样本对复杂推理轨迹的重要性[45] 行业影响 - 该技术方案为多轮交互式多模态模型的开发与强化学习应用提供实用指导,相关代码已全部开源[52][53] - 模型由字节跳动与香港大学团队联合开发,团队核心成员在大型多模态模型领域有深厚积累,曾发表多项重要研究成果[54][55][58][61]
自动驾驶超视距VLA如何实现?小鹏NavigScene另辟蹊径!
自动驾驶之心· 2025-09-05 07:33
文章核心观点 - 小鹏汽车团队提出NavigScene系统 旨在解决自动驾驶领域局部感知与全局导航信息脱节的关键瓶颈 通过导航引导的自然语言数据集和三种创新方法实现超越视觉范围的推理能力 显著提升自动驾驶系统的感知、预测和规划性能 [3][4][9] 技术方案 - NavigScene构建导航引导的自然语言数据集 在自动驾驶系统内部仿真类人化驾驶环境 弥合局部传感器数据与全局导航信息之间的差距 [4][5] - 开发导航引导推理范式 通过将导航上下文融入提示方法增强视觉语言模型的推理能力 [5] - 采用导航引导偏好优化方法 扩展直接偏好优化技术 通过建立导航相关信息摘要的偏好关系改进视觉语言模型响应 [5] - 创建导航引导视觉-语言-动作模型(NVLA) 通过特征融合将导航引导和视觉语言模型与传统端到端驾驶模型集成 [5] 应用价值 - 系统显著提升自动驾驶在基于局部视觉信息的问答、感知、预测和规划方面的性能 为构建更可靠的自动驾驶系统奠定基础 [4][9] - 使自动驾驶系统具备"高瞻远瞩"的导航思维 突破当前系统只能"看清"周围却难以"预见"远方道路与决策的限制 [3] - 研究成果以论文形式发布 标题为《NavigScene: Bridging Local Perception and Global Navigation for Beyond-Visual-Range Autonomous Driving》 [6] 内容安排 - 直播将涵盖自动驾驶研究问题简介 导航数据集的视觉生成和文本生成 基于导航数据集的多模态大模型后训练 以及视觉-语言-动作模型等核心内容 [10] - 技术分享由NavigScene论文第一作者Qucheng Peng主讲 深度解析团队如何开创性弥合局部感知与全局导航的鸿沟 [3]
百度视觉技术部多模态感知与理解招聘(社招/校招/实习)
自动驾驶之心· 2025-09-04 07:33
百度视频理解算法岗位招聘 - 招聘类型包括校招、社招和实习(可转正) 工作地点为北京或深圳 [2] - 负责文心一言在视频理解方向的SOTA算法研发 聚焦视频问答、视频描述/摘要生成、时序行为定位、视频主题检测等核心任务 [2] - 要求计算机/人工智能相关领域硕士或博士学历 在顶级会议(CVPR/ICCV等)发表论文者优先 [4][5] 团队优势与福利 - 团队处于快速扩张期 校招、社招、实习岗位Headcount充足 [6] - 提供大牛导师一对一指导 深度参与文心大模型项目 [6] - 福利包含免费水果、健身房及有竞争力的薪资 [6] AutoRobo求职社区资源 - 社区专注自动驾驶/机器人/具身智能/大模型领域 已有近1000名成员 涵盖智元机器人、地平线、理想汽车等企业员工及2024/2025届校招者 [9] - 每日更新算法/开发/产品岗位招聘信息 包含校招、社招、实习等类型 [10] - 提供行业研报如《世界机器人报告》《中国人形机器人发展蓝皮书》等 覆盖技术路线与市场前景分析 [19] 专业面试资源库 - 汇总自动驾驶领域专项问题集 包括毫米波视觉融合、BEV感知、多传感器标定等10个核心模块的"一百问"专题 [14] - 包含具身智能方向Nerf应用、轨迹预测、Occupancy感知等6个技术方向的面试题库 [15][18] - 整理多家企业面经 如滴滴算法工程师、英伟达春招、小米汽车算法岗等7类实战案例 [21] 职业发展支持服务 - 提供谈薪技巧指导 包含HR面常见问题汇总与薪资谈判关键回答 [23][25] - 分享转行自动驾驶行业经验 面试官建议及算法岗基础技能树构建方法 [25] - 提供专业书籍资源与简历优化服务 支持C++、产品经理等岗位面试准备 [24]
苹果FastVLM视觉语言模型开放试用:视频字幕生成速度可提升85倍
环球网资讯· 2025-09-02 12:07
公司技术发布 - 苹果发布视觉语言模型FastVLM 并已在Hugging Face平台开放访问 [1] - 模型提供近乎即时的高分辨率图像处理能力 [2] - 视频字幕生成速度提高85倍 [2] - 模型体积比同类产品小3倍以上 [2] 技术性能表现 - 用户可在浏览器内加载轻量级FastVLM-0.5B版本 [2] - 在16GB M2 Pro MacBook Pro设备上加载耗时数分钟 [2] - 加载完成后可准确识别用户外貌 房间环境及周边物体 [2] 技术应用优势 - 模型在浏览器本地运行确保数据不离开设备 [2] - 支持完全离线运行模式 [2] - 轻便性与低延迟特性特别适合可穿戴设备应用场景 [2] - 在辅助技术领域展现显著应用潜力 [2]