视觉语言模型
搜索文档
苹果FastVLM视觉语言模型开放试用:视频字幕生成速度可提升85倍
环球网资讯· 2025-09-02 12:07
公司技术发布 - 苹果发布视觉语言模型FastVLM 并已在Hugging Face平台开放访问 [1] - 模型提供近乎即时的高分辨率图像处理能力 [2] - 视频字幕生成速度提高85倍 [2] - 模型体积比同类产品小3倍以上 [2] 技术性能表现 - 用户可在浏览器内加载轻量级FastVLM-0.5B版本 [2] - 在16GB M2 Pro MacBook Pro设备上加载耗时数分钟 [2] - 加载完成后可准确识别用户外貌 房间环境及周边物体 [2] 技术应用优势 - 模型在浏览器本地运行确保数据不离开设备 [2] - 支持完全离线运行模式 [2] - 轻便性与低延迟特性特别适合可穿戴设备应用场景 [2] - 在辅助技术领域展现显著应用潜力 [2]
告别高耗时!上交Prune2Drive:自动驾驶VLM裁剪利器,加速6倍性能保持
自动驾驶之心· 2025-08-29 07:32
研究背景与挑战 - 视觉语言模型(VLMs)为自动驾驶提供统一的感知、推理与决策框架,通过联合建模视觉输入与自然语言指令实现可解释性更强的场景理解,端到端设计可缓解传统模块化系统的误差传播问题 [2] - VLMs在真实驾驶场景部署面临核心障碍:多视图高分辨率图像带来巨大计算开销,自动驾驶系统通常采用6个同步相机实现全环境感知,这些图像经视觉编码器会生成大量视觉token,而Transformer架构的自注意力机制存在二次复杂度,视觉token与文本token拼接后会显著增加推理延迟与内存消耗,难以满足实时性要求 [3] - 现有token修剪方法存在三大局限:仅针对单张图像设计忽略多视图场景下的空间语义多样性与视图间冗余;多依赖特定层注意力权重选token与Flash Attention等高效注意力实现不兼容;未考虑不同相机视图对驾驶决策的贡献差异采用均匀修剪或手工设定比例无法实现全局最优 [4] Prune2Drive框架核心设计 - 提出Token-wise Farthest Point Sampling(T-FPS)机制,受点云处理中最远点采样启发,核心目标是最大化多视图token的语义与空间覆盖度而非仅依赖单个token显著性 [6] - T-FPS采用余弦距离衡量token间语义相似性避免因嵌入空间尺度差异导致的误选,每次新增token时选择与已选token集合语义距离最大的token,确保保留非冗余且语义丰富的信息 [7] - 设计视图自适应修剪控制器,将视图专属修剪比例转化为优化问题,以任务性能最大化为目标同时约束总修剪量保证效率,优化目标含奖励项通过语言相似度衡量VLM输出与真值任务匹配度,惩罚项为所有视图修剪比例总和反映计算开销 [11][12][13] 实验设计与结果 - 实验针对两大自动驾驶多视图VLM基准数据集DriveLM和DriveLMM-o1,验证Prune2Drive性能保留与效率提升能力,对比基线包括FastV、SparseVLM、DART、PACT等主流无重训token修剪方法 [16] - 在DriveLM数据集上修剪75%(保留180 token/图)时准确率达0.80(原模型0.81),BLEU-4达0.60高于所有基线,Match评分34.0甚至超过原模型33.9,平均得分58.3仅比原模型低0.8;修剪90%(保留72 token/图)时平均得分57.4比FastV高3.3比PACT高0.6 [20] - 在DriveLMM-o1数据集上修剪90%(保留25 token/图)时风险评估准确率达68.34比PACT高1.33,场景感知与目标理解达69.86比FastV高3.43,整体推理得分68.3比所有基线高1-3分 [21][22] - 效率提升显著:在保留10%token场景下,DriveMM上预填充阶段加速6.40倍,解码阶段加速1.09倍,FLOPs仅为原模型13.4%;DriveLMM-o1上预填充阶段加速2.64倍,解码阶段加速1.04倍,FLOPs为原模型20.3% [24][25] 消融实验与关键发现 - 距离度量中余弦距离表现最优,DriveLMM-o1整体得分达68.3;若改用选最近token策略性能暴跌至63.0,证明冗余token剔除对性能的关键作用;l1和l2距离性能稍差说明余弦距离更适配token嵌入空间的语义相似性衡量 [26][27] - 优化策略中TPE效果最好,DriveLM平均得分57.4;GridSearch和Evolutionary仅轻微落后分别得57.2和57.1,证明框架对优化策略鲁棒性 [27] - 定性对比显示FastV存在位置偏差因依赖注意力权重而过多保留后视图token漏掉前视图关键车辆;DART均匀修剪各视图未考虑视图重要性导致后右视图关键障碍物丢失;Prune2Drive通过视图自适应比例和T-FPS精准保留前视图白色车、黑色车及后右视图黑色车 [31] 核心优势总结 - 即插即用无需重训VLM,不依赖注意力图,兼容Flash Attention等高效实现 [31] - 多视图适配首次考虑自动驾驶多视图的空间语义多样性与视图贡献差异 [31] - 性能-效率平衡极端修剪保留10%token下仅降3-6%性能,同时实现6.4倍加速与86%以上FLOPs降低 [31]
真实场景也能批量造「险」!VLM+扩散模型打造极限测试
具身智能之心· 2025-08-26 08:03
自动驾驶系统测试现状 - 懂车帝测试显示目前量产自动驾驶系统的NOA功能在黑夜施工工地、高速公路前方车辆事故及障碍物后突然驶出车辆等高危场景中均无法完全避免事故[2] - 此类安全关键场景在真实道路中发生率低但潜在危害大 可能导致严重交通事故[3] - 提升系统可靠性需在多样化高风险场景中进行广泛测试 但现实采集难度极高[4][5] 仿真测试技术挑战 - 现有模拟器画面真实度不足 难以直接用于真实域下端到端系统的极限测试[6] - 安全关键车辆选择依赖简单启发式规则(如选择最近车辆) 缺乏场景关系理解易导致选错目标车辆[9] - 多视角视频生成模型因训练数据缺乏极端场景 在碰撞或近距离互动时生成质量显著下降[9] SafeMVDrive技术创新 - 首创面向真实域的多视角安全关键驾驶视频生成框架 结合VLM关键车辆选择器与两阶段轨迹生成[7] - 采用GRPO微调视觉语言模型 从多视角画面推理交通关系精准识别对抗车辆[10] - 双阶段轨迹生成:先生成符合物理规律的碰撞轨迹 再转化为接近碰撞但成功规避的轨迹[10][22] - 通过三类损失函数(对抗损失/无碰损失/在路损失)确保轨迹合理性与威胁性[22] 系统性能表现 - 碰撞率指标显著优于基线:Sample-level CR达0.097(Origin方法仅0.001) Scene-level CR达0.207(Origin仅0.004)[29] - 视频真实感指标FID为20.626 远优于Naive方法的23.346 更接近真实视频质量[29] - VLM车辆选择器精准度超传统方法:F1-score达0.675(最近车辆法仅0.654 基于规则法仅0.600)[33] - 支持生成加塞/急刹/后方突然加速等危险行为 并呈现自车规避动作[12] 技术实现路径 - 采用UniMLVG作为骨干网络 支持显式控制车辆运动轨迹并保持长时视频稳定[26] - 通过自回归滚动生成方式 将规避轨迹编码为逐帧控制信号(3D边界框/高清地图/相机参数)[26] - 首阶段碰撞轨迹模拟通过test-time loss guidance引导车辆发生有效碰撞[22] - 次阶段仅更新自车轨迹 以无碰损失和在路损失引导实现自然规避[22] 行业应用价值 - 实现高保真多视角安全关键视频批量生成 显著提升极端场景覆盖率[11][28] - 为端到端自动驾驶系统提供兼具真实性及危险性的极限压测数据[11][30] - 研究成果由浙江大学与哈工大(深圳)联合发布 获论文/代码/数据集全方位开源支持[7][9]
均普智能发展逐步多元化 具身智能机器人业务实现突破式进展
证券日报网· 2025-08-23 12:13
财务表现 - 2025年上半年营业收入10.32亿元[1] - 期末在手订单规模34.64亿元[1] - 新接订单11.12亿元,同比增长20.22%[1] 业务结构 - 非汽车业务订单达4.45亿元,占总新接订单约40%[1] - 医疗健康领域中标连续血糖监测传感器生产线项目,年设计产能1500万件[1] - 获得胰岛素注射笔及自动注射器全自动生产线项目[1] 技术创新与突破 - 自主研发多刃体智能装配工艺应用于国际知名品牌剃须刀刀片组装订单[1] - 获得高端电动牙刷驱动单元柔性装配线订单[1] - 人形机器人贾维斯2.0智能系统完成多模态升级,接入大语言模型和视觉语言模型[2] 战略合作与产能建设 - 与国内头部医疗企业达成战略合作开发胰岛素注射笔平台化凸轮技术[1] - 与智元机器人合资公司首条本体量产中试线投产[2] - 合资公司接获超2800万元人形机器人生产销售订单,三款具身智能机器人同步生产[2] 研发与教育合作 - 贾维斯轻量化1.0版本交付清华大学等高校用于科研教学[2]
又帮到了一位同学拿到了VLA算法岗......
具身智能之心· 2025-08-23 00:03
具身智能行业发展趋势 - 具身智能行业处于早期发展阶段 对标自动驾驶行业2017-2018年阶段 仍存在窗口期机会 [83] - 技术发展重点从传统SLAM转向大模型和端到端方案 传统机器人从业者与具身感知技术派系分化明显 [83] - 行业平均薪资水平较高 初创公司1-2年工作经验人员总包可达70-80万 但稳定性较差 [83] 技术发展重点 - 视觉语言模型(VLA)和视觉语言动作模型(VLA)成为技术热点 应用涵盖机器人抓取与规划任务 [2][58] - 强化学习与VLA结合(VLA+RL)成为重要技术方向 [40][42] - 多模态大模型技术快速发展 涵盖理解与生成两大方向 包括Image+Text到Text等多种模态组合 [52][54] - 仿真技术(sim2real)和数据采集成为关键环节 存在real2sim2real等解决方案 [2][66] 人才需求与就业情况 - 企业招聘偏好有实习经验的候选人 机器人创业公司普遍要求实习经历 [81] - 自动驾驶领域人才向具身智能领域迁移 技术栈通用性较高 [80][83] - 算法岗位需求旺盛 VLA算法岗位薪资较高 某案例显示强化学习岗位薪资达(N+6000)*15水平 [1][81] 技术社区生态 - 具身智能之心知识星球为国内首个具身全栈技术社区 成员近2000人 目标2年内达到近万人规模 [1][16] - 社区汇聚40+开源项目 60+数据集 30+技术路线 覆盖感知、交互、导航等全方位技术领域 [16] - 社区成员来自斯坦福大学、清华大学等顶尖高校和智元机器人、优必选等头部企业 [16] - 建立企业内推机制 与多家具身公司合作提供岗位对接服务 [10] 技术资源体系 - 汇总国内外40+高校实验室资源 提供读研、申博参考 [18][20] - 汇总国内外具身机器人公司 涵盖教育、工业、医疗等多个应用方向 [21] - 整理机器人相关书籍 包括导航、动力学、运动学等基础学习资料 [26] - 汇集零部件制造厂商信息 涵盖芯片、激光雷达、相机等核心部件 [28] 技术应用方向 - 视觉语言导航成为自动驾驶与机器人的重要应用领域 [48] - 触觉感知为前沿应用方向 包括传感器应用和多模态算法集成 [50] - 机械臂技术涵盖抓取、位姿估计和策略学习等多个环节 [69] - 双足与四足机器人技术发展迅速 提供从零搭建机器人的完整方案 [71] 学习与培训体系 - 为入门者提供完整技术栈和学习路线 [11] - 为从业者提供产业体系和项目方案 [13] - 社区提供问答交流、直播分享等多元学习方式 [76][78] - 建立专家答疑机制 数十位产业界和工业界大佬提供技术支持 [2]
VLA方向的论文还不知怎么下手?有的同学已经CCF-A了......
自动驾驶之心· 2025-08-22 20:00
理想VLA司机大模型技术突破 - 多模态输入提升语义理解能力,结合动态目标、静态元素、导航地图和空间理解实现综合决策 [1] - 思维链推理技术增强模型逻辑能力,轨迹规划更接近人类驾驶直觉 [1][3] - 采用RAG技术强化记忆能力,整合视觉语言模型与端到端自动驾驶框架 [3][5] 自动驾驶技术发展趋势 - VLA成为学术界和工业界核心方向,涵盖端到端学习、轨迹预测和强化学习等技术栈 [5] - 传统BEV感知和Occupancy技术研究热度下降,顶会论文方向转向大模型应用 [5] - 工业界持续优化传统感知方案,学术界聚焦VLA子领域创新 [5] VLA科研培训课程体系 - 课程周期为14周,包含先导课、传统端到端自动驾驶介绍(4周)、VLA端到端自动驾驶介绍(4周)和论文写作指导 [9][11][30] - 提供模块化VLA模型(Week8-9)、统一端到端模型(Week10-11)和推理增强模型(Week12)三大研究方向 [30][35] - 每周课时1-1.5小时,覆盖算法原理、代码实践和论文写作方法论 [30][34] 课程资源与支持 - 提供公开数据集包括nuScenes、Waymo和Argoverse,支持感知任务和VLA任务开发 [27] - Baseline代码库涵盖模仿学习(VAD、UniAD)、扩散模型(DiffusionDrive、OccNet)和VLA模型(OpenDriveVLA、Senna) [26] - 必读论文包括Senna(2410.22313)、SimLingo(2503.09594)和OpenDriveVLA(2503.23463)等5篇核心文献 [28][29] 学员成果与培养目标 - 产出论文初稿、结业证书和推荐信(根据优秀程度) [24][34] - 获得定制化研究idea(每位学员1个)、baseline代码调试能力和数据集应用经验 [20][34] - 掌握创新点挖掘、实验方法设计和投稿策略等全流程科研能力 [6][20] 技术实施要求 - 硬件最低要求4张4090显卡,推荐8张4090或云服务器租赁方案 [21] - 需掌握Python编程、PyTorch框架和Linux开发环境,具备深度学习基础 [21] - 每周课后需投入1-2小时自学,完成作业和论文阅读任务 [19][23]
当一家成立11年的AI公司投身具身智能战场
36氪· 2025-08-19 18:12
公司战略转型 - 宇泛智能宣布全面拥抱具身智能时代 推出空间认知大模型Manas和四足机器狗两款产品 并采取"智能+硬件"全栈自研战略 [1][3][5] - 公司具备11年视觉AI技术积累 拥有软硬件协同开发经验 曾基于端侧芯片性能重构算法实现端到端性能优化 [1][20] - 创始团队2014年就以机器人Demo获得天使投资 现技术条件成熟后重启智能机器人梦想 [10] 产品技术布局 - 空间认知大模型Manas为多模态语言模型 在VSI-Bench和SQA3D数据集上取得SOTA成绩 专门强化空间理解能力 [3][14] - 四足机器狗完全自研机械结构 电机和运动控制平台 目前已迭代至第三代产品 [4][17] - 技术演进路径包括:自研多模态推理架构UUMM 创新图像分割集成方案HiMTok 以及强化学习提升多模态输出能力 [16] 行业发展趋势 - 2024年被称为具身智能元年 机器视觉与多模态大模型融合推动机器人向具备自主决策能力进化 [1][6] - 视觉能力成为机器理解物理世界的核心入口 计算机视觉派系成为具身智能领域重要力量 [7][10] - 行业技术路线尚未收敛 存在VLA模型 大小脑架构和世界模型等多种方案 [11] 竞争优势 - 具备软硬件协同开发能力 曾通过算法整形计算和硬件适配实现端到端优化 [20] - 拥有11年智能硬件落地经验 积累丰富渠道 供应链和量产能力 [23] - 全栈自研战略确保大脑 小脑与本体之间的系统配合 提升产品质量控制效果 [18] 技术突破方向 - 多模态视觉-语言模型需实现跨模态对齐 将像素 3D结构和文字映射到同一向量空间 [11] - 机器人大脑需融合语言模型与空间感知能力 同时具备语义理解和空间推理功能 [13] - 宇泛Manas模型在目标计数 绝对/相对距离 物理尺寸等空间理解基准测试中表现优异 [17]
在复杂真实场景中评估 π0 这类通用 policy 的性能和边界
自动驾驶之心· 2025-08-17 11:23
核心观点 - PI0-FAST-DROID是一种通用机器人策略模型,能够在复杂真实场景中执行多样化任务,展现出强大的视觉-语言理解能力和适应性 [4][13][16] - 模型在透明物体识别、铰接物体操作等任务中表现优异,但存在空间推理不足、动作冻结等局限性 [20][48][39] - 通过300多次试验验证,模型平均任务完成度为42%,对提示工程和摄像头角度高度敏感 [77][12][61] 技术架构 - 采用Google DeepMind的3B参数PaliGemma作为视觉编码器,仅依赖未校准单目RGB输入(224x224像素) [19] - 基于FAST+动作标记器,预训练数据包含100万条真实机器人轨迹,在DROID数据集上微调 [79] - 硬件配置:Franka Panda机械臂+Robotiq夹持器,ZED 2立体相机+ZED Mini腕部摄像头 [79] 性能表现 优势领域 - 透明物体操作:成功抓取透明瓶子并完成放置任务,无需特殊重建技术 [20] - 复杂背景识别:在彩色棋盘背景中准确定位黄色鱼形物体 [21] - 人体干扰鲁棒性:侧视摄像头捕捉移动人体时仍能专注任务 [25] 主要局限 - 空间推理缺陷:无法精确判断容器高度导致放置失败率高达50% [48][50] - 动作冻结:30%试验因语义模糊或解码错误导致任务中断 [39][43] - 触觉反馈缺失:对精细物体施力不当,塑料瓶抓取失败率63% [58] 任务分类表现 - 拾取放置:平均完成度53.5%,透明物体成功率76% [82][20] - 铰接物体:抽屉操作成功率63%,但咖啡机操作仅8%进度 [91][111] - 人机交互:物体传递成功率62.5%,但握手任务完全失败 [109][115] - 织物处理:T恤折叠进度35%,报纸折叠成功率62% [99][107] 影响因素 - 提示工程:指令措辞变化可使成功率从0%提升至100% [61] - 摄像头依赖:腕部摄像头遮挡直接导致0%成功率 [67] - 数据偏差:无指令时默认抓取出现频率16.67%的记号笔 [63] 行业意义 - 首次实现开箱即用的跨场景策略部署,突破传统策略环境适应性瓶颈 [4][77] - 验证了视觉语言模型在具身智能领域的迁移潜力,为通用机器人开发提供新范式 [19][28] - 当前20-50%的任务成功率虽不足,但标志机器人技术从专用系统向通用系统的范式转变 [77]
VLA与自动驾驶科研论文辅导第二期来啦~
自动驾驶之心· 2025-08-16 20:00
理想VLA司机大模型技术进展 - 核心能力提升体现在三方面:更懂语义(多模态输入)、更擅长推理(思维链)、更接近人类驾驶直觉(轨迹规划)[1] - 四大核心能力展示:空间理解能力、思维能力、沟通与记忆能力(含RAG技术)、行为能力[1][3] - 技术演进路径:从VLM+E2E发展为涵盖端到端、轨迹预测、视觉语言模型、强化学习的综合技术栈[5] 自动驾驶技术研究趋势 - 学术界焦点转移:传统BEV感知、车道线检测等研究减少,大模型与VLA成为顶会主流方向[5] - 工业界动态:传统感知/规划方案仍在优化,但技术迭代明显向VLA倾斜[5] - 典型技术融合案例:思维链输出结合动态目标、静态元素、导航地图等多维度数据[3] VLA论文指导课程体系 课程架构 - 周期设置:12周在线科研+2周论文指导+10周维护期[14][34] - 核心模块:模块化VLA模型(Week8-9)、统一端到端模型(Week10-11)、推理增强模型(Week12)[9][11][35][37] - 方法论覆盖:选题(Week3)、传统端到端技术(Week4-5)、VLA端到端技术(Week6-7)[9][11][30] 教学资源 - 代码库支持:提供基于模仿学习、扩散模型、VLA的6个开源项目基准代码[26] - 数据集配置:采用nuScenes/Waymo/Argoverse等公开数据集,VLA任务结合大语言模型生成数据[27] - 必读论文清单:包含5篇顶会论文如《Senna》《OpenDriveVLA》等[28][29] 学员培养目标 - 能力输出:完成论文初稿、掌握算法对比分析方法、获得定制化研究idea[20][34] - 技术深化路径:从理论认知(Week1-2)到代码实践(Week6-8)最终形成完整论文(Week13-14)[30][31] - 硬件门槛:建议配置8张NVIDIA 4090显卡,最低要求4张[21]
全球工业机器人市场遇冷,中国逆势增长成最大亮点
第一财经· 2025-08-10 09:23
全球工业机器人市场概况 - 2024年全球工业机器人新装机量下降3%至52 3万台 亚欧美三大市场集体遇冷 亚洲下滑2% 欧洲萎缩6% 美洲跌幅达9% [3] - 主要客户行业分化明显 电子行业略有增长 汽车行业出现较大下滑 金属和机械行业保持全球第三大客户地位 塑料 化学品 食品行业均处于增长期 [3] - 区域分化显著 中国市场逆势增长5%至29万台 全球份额占比从51%升至54% 通用工业领域装机量占比从38%跃升至53% 电子行业份额从45%骤降至28% [3] 中国机器人产业表现 - 2024年中国工业机器人市场销量达30 2万套 连续12年保持全球最大市场地位 工业机器人产量从2015年3 3万套增长至2024年55 6万套 服务机器人产量1051 9万套 同比增长34 3% [4] - 中国机器人专利申请量占全球总量2/3 机器人密度达470台/万人 首次超越日本和德国跃居全球第三 仅次于韩国(1012台/万人)和新加坡(770台/万人) [4][6] 其他主要市场动态 - 日本工业机器人装机量下滑7%至4 3万台 仅汽车行业同比增长11% 美国市场萎缩9% 汽车业贡献近40%装机量 欧洲下降6%至8 6万台 创历史第二高位 塑料化工和食品行业成为新增长极 [6] - 德国作为欧洲最大市场装机量下降5%至2 7万台 但机械与电子领域展现韧性 [6] 行业未来趋势 - 亚洲市场2025年一季度订单呈个位数增长 电子业温和复苏 中国将持续引领全球机器人需求 [6] - 技术发展方向聚焦人工智能融合 数字孪生技术突破训练瓶颈 视觉语言模型提升人机交互能力 AI编程重构生产流程 [6] - 人形机器人领域商业化关键在安全性与场景适配 物流与物料搬运或成早期落地领域 建筑业 实验室自动化 仓储物流等行业加速机器人渗透 [6]