Workflow
视觉语言模型
icon
搜索文档
全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考
量子位· 2025-09-15 11:59
OpenAI o3的多轮视觉推理,有开源平替版了。 并且,与先前局限于1-2轮对话的视觉语言模型(VLM)不同,它在训练限制轮数只有6轮的情况下,测试阶段能将思考轮数扩展到 数十轮 。 不圆 发自 凹非寺 量子位 | 公众号 QbitAI 这个模型叫Mini-o3,它无需消耗大量训练周期资源,通过恰当的数据、初始化方法和强化学习微调,即可实现长周期视觉搜索能力。由字 节、香港大学团队联合开发。 跨越数十个步骤的深度推理 最近的多模态大模型虽然能通过"图像工具+强化学习"处理视觉问题,但现有开源方案存在很大的短板: 比如推理方式单调、交互轮次受限、遇到需要反复试错的复杂任务就束手无策。 而Mini-o3突破了上述局限——它能够进行 长达数十个步骤的深度多轮推理 ,在高难度视觉搜索任务中达到了当前最佳水平。 这得益于它的三个关键设计: 第一,研究团队构建了视觉探测数据集VisualProbe,包含数千个专为探索式推理设计的视觉搜索难题; 第二,开发了迭代式数据收集流程,让模型能学会深度优先搜索、试错探索、目标维持等多样化推理策略; 第三,提出超轮次掩码策略,在强化学习中避免对达到最大交互轮次的响应进行惩罚,从而平 ...
自动驾驶超视距VLA如何实现?小鹏NavigScene另辟蹊径!
自动驾驶之心· 2025-09-05 07:33
文章核心观点 - 小鹏汽车团队提出NavigScene系统 旨在解决自动驾驶领域局部感知与全局导航信息脱节的关键瓶颈 通过导航引导的自然语言数据集和三种创新方法实现超越视觉范围的推理能力 显著提升自动驾驶系统的感知、预测和规划性能 [3][4][9] 技术方案 - NavigScene构建导航引导的自然语言数据集 在自动驾驶系统内部仿真类人化驾驶环境 弥合局部传感器数据与全局导航信息之间的差距 [4][5] - 开发导航引导推理范式 通过将导航上下文融入提示方法增强视觉语言模型的推理能力 [5] - 采用导航引导偏好优化方法 扩展直接偏好优化技术 通过建立导航相关信息摘要的偏好关系改进视觉语言模型响应 [5] - 创建导航引导视觉-语言-动作模型(NVLA) 通过特征融合将导航引导和视觉语言模型与传统端到端驾驶模型集成 [5] 应用价值 - 系统显著提升自动驾驶在基于局部视觉信息的问答、感知、预测和规划方面的性能 为构建更可靠的自动驾驶系统奠定基础 [4][9] - 使自动驾驶系统具备"高瞻远瞩"的导航思维 突破当前系统只能"看清"周围却难以"预见"远方道路与决策的限制 [3] - 研究成果以论文形式发布 标题为《NavigScene: Bridging Local Perception and Global Navigation for Beyond-Visual-Range Autonomous Driving》 [6] 内容安排 - 直播将涵盖自动驾驶研究问题简介 导航数据集的视觉生成和文本生成 基于导航数据集的多模态大模型后训练 以及视觉-语言-动作模型等核心内容 [10] - 技术分享由NavigScene论文第一作者Qucheng Peng主讲 深度解析团队如何开创性弥合局部感知与全局导航的鸿沟 [3]
百度视觉技术部多模态感知与理解招聘(社招/校招/实习)
自动驾驶之心· 2025-09-04 07:33
招聘岗位: 工作职责: 1. 校招/社招/实习(可转正) 2. Base 北京/深圳 1. 前沿算法研发: 负责文心一言在视频理解方向的算法研究与开发,探索和实现世界领先的(SOTA)视 频理解模型。 2. 核心任务攻关: 聚焦于一项或多项核心视频理解任务,包括但不限于: 视频问答 (Video QA) & 对话: 实现模型对视频内容的深度推理和对话能力。 视频描述/摘要生成 (Video Captioning/Summarization): 让模型能用自然语言精准描述或概括视频内 容。 时序行为定位与识别 (Temporal Action Localization & Recognition): 精准识别视频中人物的行为及 其发生的时间段。 视频主题/事件检测 (Video Topic/Event Detection): 对长视频进行结构化分析,理解其核心主题与关 键事件。 3. 大规模数据构建: 负责视频理解所需的大规模、高质量多模态数据集的构建,包括数据采集、清洗、 标注和管理策略的制定与执行。 4. 大规模训练: 负责视频理解大模型的分布式训练、微调和性能优化,解决训练过程中的效率和收敛性 挑战。 5 ...
苹果FastVLM视觉语言模型开放试用:视频字幕生成速度可提升85倍
环球网资讯· 2025-09-02 12:07
公司技术发布 - 苹果发布视觉语言模型FastVLM 并已在Hugging Face平台开放访问 [1] - 模型提供近乎即时的高分辨率图像处理能力 [2] - 视频字幕生成速度提高85倍 [2] - 模型体积比同类产品小3倍以上 [2] 技术性能表现 - 用户可在浏览器内加载轻量级FastVLM-0.5B版本 [2] - 在16GB M2 Pro MacBook Pro设备上加载耗时数分钟 [2] - 加载完成后可准确识别用户外貌 房间环境及周边物体 [2] 技术应用优势 - 模型在浏览器本地运行确保数据不离开设备 [2] - 支持完全离线运行模式 [2] - 轻便性与低延迟特性特别适合可穿戴设备应用场景 [2] - 在辅助技术领域展现显著应用潜力 [2]
告别高耗时!上交Prune2Drive:自动驾驶VLM裁剪利器,加速6倍性能保持
自动驾驶之心· 2025-08-29 07:32
研究背景与挑战 - 视觉语言模型(VLMs)为自动驾驶提供统一的感知、推理与决策框架,通过联合建模视觉输入与自然语言指令实现可解释性更强的场景理解,端到端设计可缓解传统模块化系统的误差传播问题 [2] - VLMs在真实驾驶场景部署面临核心障碍:多视图高分辨率图像带来巨大计算开销,自动驾驶系统通常采用6个同步相机实现全环境感知,这些图像经视觉编码器会生成大量视觉token,而Transformer架构的自注意力机制存在二次复杂度,视觉token与文本token拼接后会显著增加推理延迟与内存消耗,难以满足实时性要求 [3] - 现有token修剪方法存在三大局限:仅针对单张图像设计忽略多视图场景下的空间语义多样性与视图间冗余;多依赖特定层注意力权重选token与Flash Attention等高效注意力实现不兼容;未考虑不同相机视图对驾驶决策的贡献差异采用均匀修剪或手工设定比例无法实现全局最优 [4] Prune2Drive框架核心设计 - 提出Token-wise Farthest Point Sampling(T-FPS)机制,受点云处理中最远点采样启发,核心目标是最大化多视图token的语义与空间覆盖度而非仅依赖单个token显著性 [6] - T-FPS采用余弦距离衡量token间语义相似性避免因嵌入空间尺度差异导致的误选,每次新增token时选择与已选token集合语义距离最大的token,确保保留非冗余且语义丰富的信息 [7] - 设计视图自适应修剪控制器,将视图专属修剪比例转化为优化问题,以任务性能最大化为目标同时约束总修剪量保证效率,优化目标含奖励项通过语言相似度衡量VLM输出与真值任务匹配度,惩罚项为所有视图修剪比例总和反映计算开销 [11][12][13] 实验设计与结果 - 实验针对两大自动驾驶多视图VLM基准数据集DriveLM和DriveLMM-o1,验证Prune2Drive性能保留与效率提升能力,对比基线包括FastV、SparseVLM、DART、PACT等主流无重训token修剪方法 [16] - 在DriveLM数据集上修剪75%(保留180 token/图)时准确率达0.80(原模型0.81),BLEU-4达0.60高于所有基线,Match评分34.0甚至超过原模型33.9,平均得分58.3仅比原模型低0.8;修剪90%(保留72 token/图)时平均得分57.4比FastV高3.3比PACT高0.6 [20] - 在DriveLMM-o1数据集上修剪90%(保留25 token/图)时风险评估准确率达68.34比PACT高1.33,场景感知与目标理解达69.86比FastV高3.43,整体推理得分68.3比所有基线高1-3分 [21][22] - 效率提升显著:在保留10%token场景下,DriveMM上预填充阶段加速6.40倍,解码阶段加速1.09倍,FLOPs仅为原模型13.4%;DriveLMM-o1上预填充阶段加速2.64倍,解码阶段加速1.04倍,FLOPs为原模型20.3% [24][25] 消融实验与关键发现 - 距离度量中余弦距离表现最优,DriveLMM-o1整体得分达68.3;若改用选最近token策略性能暴跌至63.0,证明冗余token剔除对性能的关键作用;l1和l2距离性能稍差说明余弦距离更适配token嵌入空间的语义相似性衡量 [26][27] - 优化策略中TPE效果最好,DriveLM平均得分57.4;GridSearch和Evolutionary仅轻微落后分别得57.2和57.1,证明框架对优化策略鲁棒性 [27] - 定性对比显示FastV存在位置偏差因依赖注意力权重而过多保留后视图token漏掉前视图关键车辆;DART均匀修剪各视图未考虑视图重要性导致后右视图关键障碍物丢失;Prune2Drive通过视图自适应比例和T-FPS精准保留前视图白色车、黑色车及后右视图黑色车 [31] 核心优势总结 - 即插即用无需重训VLM,不依赖注意力图,兼容Flash Attention等高效实现 [31] - 多视图适配首次考虑自动驾驶多视图的空间语义多样性与视图贡献差异 [31] - 性能-效率平衡极端修剪保留10%token下仅降3-6%性能,同时实现6.4倍加速与86%以上FLOPs降低 [31]
真实场景也能批量造「险」!VLM+扩散模型打造极限测试
具身智能之心· 2025-08-26 08:03
自动驾驶系统测试现状 - 懂车帝测试显示目前量产自动驾驶系统的NOA功能在黑夜施工工地、高速公路前方车辆事故及障碍物后突然驶出车辆等高危场景中均无法完全避免事故[2] - 此类安全关键场景在真实道路中发生率低但潜在危害大 可能导致严重交通事故[3] - 提升系统可靠性需在多样化高风险场景中进行广泛测试 但现实采集难度极高[4][5] 仿真测试技术挑战 - 现有模拟器画面真实度不足 难以直接用于真实域下端到端系统的极限测试[6] - 安全关键车辆选择依赖简单启发式规则(如选择最近车辆) 缺乏场景关系理解易导致选错目标车辆[9] - 多视角视频生成模型因训练数据缺乏极端场景 在碰撞或近距离互动时生成质量显著下降[9] SafeMVDrive技术创新 - 首创面向真实域的多视角安全关键驾驶视频生成框架 结合VLM关键车辆选择器与两阶段轨迹生成[7] - 采用GRPO微调视觉语言模型 从多视角画面推理交通关系精准识别对抗车辆[10] - 双阶段轨迹生成:先生成符合物理规律的碰撞轨迹 再转化为接近碰撞但成功规避的轨迹[10][22] - 通过三类损失函数(对抗损失/无碰损失/在路损失)确保轨迹合理性与威胁性[22] 系统性能表现 - 碰撞率指标显著优于基线:Sample-level CR达0.097(Origin方法仅0.001) Scene-level CR达0.207(Origin仅0.004)[29] - 视频真实感指标FID为20.626 远优于Naive方法的23.346 更接近真实视频质量[29] - VLM车辆选择器精准度超传统方法:F1-score达0.675(最近车辆法仅0.654 基于规则法仅0.600)[33] - 支持生成加塞/急刹/后方突然加速等危险行为 并呈现自车规避动作[12] 技术实现路径 - 采用UniMLVG作为骨干网络 支持显式控制车辆运动轨迹并保持长时视频稳定[26] - 通过自回归滚动生成方式 将规避轨迹编码为逐帧控制信号(3D边界框/高清地图/相机参数)[26] - 首阶段碰撞轨迹模拟通过test-time loss guidance引导车辆发生有效碰撞[22] - 次阶段仅更新自车轨迹 以无碰损失和在路损失引导实现自然规避[22] 行业应用价值 - 实现高保真多视角安全关键视频批量生成 显著提升极端场景覆盖率[11][28] - 为端到端自动驾驶系统提供兼具真实性及危险性的极限压测数据[11][30] - 研究成果由浙江大学与哈工大(深圳)联合发布 获论文/代码/数据集全方位开源支持[7][9]
均普智能发展逐步多元化 具身智能机器人业务实现突破式进展
证券日报网· 2025-08-23 12:13
财务表现 - 2025年上半年营业收入10.32亿元[1] - 期末在手订单规模34.64亿元[1] - 新接订单11.12亿元,同比增长20.22%[1] 业务结构 - 非汽车业务订单达4.45亿元,占总新接订单约40%[1] - 医疗健康领域中标连续血糖监测传感器生产线项目,年设计产能1500万件[1] - 获得胰岛素注射笔及自动注射器全自动生产线项目[1] 技术创新与突破 - 自主研发多刃体智能装配工艺应用于国际知名品牌剃须刀刀片组装订单[1] - 获得高端电动牙刷驱动单元柔性装配线订单[1] - 人形机器人贾维斯2.0智能系统完成多模态升级,接入大语言模型和视觉语言模型[2] 战略合作与产能建设 - 与国内头部医疗企业达成战略合作开发胰岛素注射笔平台化凸轮技术[1] - 与智元机器人合资公司首条本体量产中试线投产[2] - 合资公司接获超2800万元人形机器人生产销售订单,三款具身智能机器人同步生产[2] 研发与教育合作 - 贾维斯轻量化1.0版本交付清华大学等高校用于科研教学[2]
又帮到了一位同学拿到了VLA算法岗......
具身智能之心· 2025-08-23 00:03
具身智能行业发展趋势 - 具身智能行业处于早期发展阶段 对标自动驾驶行业2017-2018年阶段 仍存在窗口期机会 [83] - 技术发展重点从传统SLAM转向大模型和端到端方案 传统机器人从业者与具身感知技术派系分化明显 [83] - 行业平均薪资水平较高 初创公司1-2年工作经验人员总包可达70-80万 但稳定性较差 [83] 技术发展重点 - 视觉语言模型(VLA)和视觉语言动作模型(VLA)成为技术热点 应用涵盖机器人抓取与规划任务 [2][58] - 强化学习与VLA结合(VLA+RL)成为重要技术方向 [40][42] - 多模态大模型技术快速发展 涵盖理解与生成两大方向 包括Image+Text到Text等多种模态组合 [52][54] - 仿真技术(sim2real)和数据采集成为关键环节 存在real2sim2real等解决方案 [2][66] 人才需求与就业情况 - 企业招聘偏好有实习经验的候选人 机器人创业公司普遍要求实习经历 [81] - 自动驾驶领域人才向具身智能领域迁移 技术栈通用性较高 [80][83] - 算法岗位需求旺盛 VLA算法岗位薪资较高 某案例显示强化学习岗位薪资达(N+6000)*15水平 [1][81] 技术社区生态 - 具身智能之心知识星球为国内首个具身全栈技术社区 成员近2000人 目标2年内达到近万人规模 [1][16] - 社区汇聚40+开源项目 60+数据集 30+技术路线 覆盖感知、交互、导航等全方位技术领域 [16] - 社区成员来自斯坦福大学、清华大学等顶尖高校和智元机器人、优必选等头部企业 [16] - 建立企业内推机制 与多家具身公司合作提供岗位对接服务 [10] 技术资源体系 - 汇总国内外40+高校实验室资源 提供读研、申博参考 [18][20] - 汇总国内外具身机器人公司 涵盖教育、工业、医疗等多个应用方向 [21] - 整理机器人相关书籍 包括导航、动力学、运动学等基础学习资料 [26] - 汇集零部件制造厂商信息 涵盖芯片、激光雷达、相机等核心部件 [28] 技术应用方向 - 视觉语言导航成为自动驾驶与机器人的重要应用领域 [48] - 触觉感知为前沿应用方向 包括传感器应用和多模态算法集成 [50] - 机械臂技术涵盖抓取、位姿估计和策略学习等多个环节 [69] - 双足与四足机器人技术发展迅速 提供从零搭建机器人的完整方案 [71] 学习与培训体系 - 为入门者提供完整技术栈和学习路线 [11] - 为从业者提供产业体系和项目方案 [13] - 社区提供问答交流、直播分享等多元学习方式 [76][78] - 建立专家答疑机制 数十位产业界和工业界大佬提供技术支持 [2]
VLA方向的论文还不知怎么下手?有的同学已经CCF-A了......
自动驾驶之心· 2025-08-22 20:00
理想VLA司机大模型技术突破 - 多模态输入提升语义理解能力,结合动态目标、静态元素、导航地图和空间理解实现综合决策 [1] - 思维链推理技术增强模型逻辑能力,轨迹规划更接近人类驾驶直觉 [1][3] - 采用RAG技术强化记忆能力,整合视觉语言模型与端到端自动驾驶框架 [3][5] 自动驾驶技术发展趋势 - VLA成为学术界和工业界核心方向,涵盖端到端学习、轨迹预测和强化学习等技术栈 [5] - 传统BEV感知和Occupancy技术研究热度下降,顶会论文方向转向大模型应用 [5] - 工业界持续优化传统感知方案,学术界聚焦VLA子领域创新 [5] VLA科研培训课程体系 - 课程周期为14周,包含先导课、传统端到端自动驾驶介绍(4周)、VLA端到端自动驾驶介绍(4周)和论文写作指导 [9][11][30] - 提供模块化VLA模型(Week8-9)、统一端到端模型(Week10-11)和推理增强模型(Week12)三大研究方向 [30][35] - 每周课时1-1.5小时,覆盖算法原理、代码实践和论文写作方法论 [30][34] 课程资源与支持 - 提供公开数据集包括nuScenes、Waymo和Argoverse,支持感知任务和VLA任务开发 [27] - Baseline代码库涵盖模仿学习(VAD、UniAD)、扩散模型(DiffusionDrive、OccNet)和VLA模型(OpenDriveVLA、Senna) [26] - 必读论文包括Senna(2410.22313)、SimLingo(2503.09594)和OpenDriveVLA(2503.23463)等5篇核心文献 [28][29] 学员成果与培养目标 - 产出论文初稿、结业证书和推荐信(根据优秀程度) [24][34] - 获得定制化研究idea(每位学员1个)、baseline代码调试能力和数据集应用经验 [20][34] - 掌握创新点挖掘、实验方法设计和投稿策略等全流程科研能力 [6][20] 技术实施要求 - 硬件最低要求4张4090显卡,推荐8张4090或云服务器租赁方案 [21] - 需掌握Python编程、PyTorch框架和Linux开发环境,具备深度学习基础 [21] - 每周课后需投入1-2小时自学,完成作业和论文阅读任务 [19][23]
当一家成立11年的AI公司投身具身智能战场
36氪· 2025-08-19 18:12
公司战略转型 - 宇泛智能宣布全面拥抱具身智能时代 推出空间认知大模型Manas和四足机器狗两款产品 并采取"智能+硬件"全栈自研战略 [1][3][5] - 公司具备11年视觉AI技术积累 拥有软硬件协同开发经验 曾基于端侧芯片性能重构算法实现端到端性能优化 [1][20] - 创始团队2014年就以机器人Demo获得天使投资 现技术条件成熟后重启智能机器人梦想 [10] 产品技术布局 - 空间认知大模型Manas为多模态语言模型 在VSI-Bench和SQA3D数据集上取得SOTA成绩 专门强化空间理解能力 [3][14] - 四足机器狗完全自研机械结构 电机和运动控制平台 目前已迭代至第三代产品 [4][17] - 技术演进路径包括:自研多模态推理架构UUMM 创新图像分割集成方案HiMTok 以及强化学习提升多模态输出能力 [16] 行业发展趋势 - 2024年被称为具身智能元年 机器视觉与多模态大模型融合推动机器人向具备自主决策能力进化 [1][6] - 视觉能力成为机器理解物理世界的核心入口 计算机视觉派系成为具身智能领域重要力量 [7][10] - 行业技术路线尚未收敛 存在VLA模型 大小脑架构和世界模型等多种方案 [11] 竞争优势 - 具备软硬件协同开发能力 曾通过算法整形计算和硬件适配实现端到端优化 [20] - 拥有11年智能硬件落地经验 积累丰富渠道 供应链和量产能力 [23] - 全栈自研战略确保大脑 小脑与本体之间的系统配合 提升产品质量控制效果 [18] 技术突破方向 - 多模态视觉-语言模型需实现跨模态对齐 将像素 3D结构和文字映射到同一向量空间 [11] - 机器人大脑需融合语言模型与空间感知能力 同时具备语义理解和空间推理功能 [13] - 宇泛Manas模型在目标计数 绝对/相对距离 物理尺寸等空间理解基准测试中表现优异 [17]