视觉语言模型

搜索文档
AI们数不清六根手指,这事没那么简单
虎嗅· 2025-07-11 10:54
视觉语言模型的偏见问题 - 核心观点:视觉语言模型(VLMs)并非真正"看"图像,而是依赖记忆中的先验知识进行判断,导致对反常识图像的识别错误[19][20][38] - 实验证据:当展示6根手指图片时,包括GPT-4、Gemini-2.5 Pro、Claude 3.7等主流模型100%错误识别为5根[40][45][63] - 机制分析:模型通过高频关联建立强先验知识(如"阿迪达斯=三条纹"),当视觉输入与常识冲突时优先选择记忆而非真实观察[54][55][64] 行业应用风险案例 - 工业质检:AI可能将罕见零件缺陷误判为光学误差,导致安全隐患[72][73][74] - 医疗领域:肺癌筛查等医疗诊断仍需医生复核AI判断,显示可靠性存疑[77] - 自动驾驶:对非常规交通场景(如异常数量行人)的识别可能失效[77] 技术局限性数据 - 品牌标识测试:修改阿迪达斯条纹数量后,所有模型仍坚持回答3条[39][40] - 动物肢体测试:5腿狮子/3脚鸟等异常图片识别准确率仅2%[43][45] - 国旗测试:美国国旗条纹数识别错误率达92%(模型回答13条vs实际12/14条)[47] 底层机制解释 - 数据训练方式:模型通过吸收数百亿张图片建立关联记忆而非理解[50][51] - 决策冲突:视觉模块与知识模块产生矛盾时,后者权重显著更高[63][65] - 干预无效:明确要求模型"仅根据图片回答"仅提升2%准确率[67][68]
AI们数不清六根手指,这事没那么简单。
数字生命卡兹克· 2025-07-11 04:40
视觉语言模型的偏见问题 - 核心观点:当前主流视觉语言模型(如GPT-4、Gemini、Claude等)在图像识别中严重依赖先验记忆而非实际视觉分析,导致对反事实图像(如六指手、四条纹阿迪达斯鞋)的识别准确率极低[5][12][17] - 实验数据:模型在识别异常图像(五腿狮子、三脚鸟等)时平均准确率仅2.12%[15],数国旗条纹错误率超80%[16] - 机制解释:模型通过海量数据训练形成强关联性先验知识(如"狗=四条腿"、"阿迪达斯=三条纹"),视觉输入与记忆冲突时优先选择记忆答案[23][25][26] 多模态模型测试结果 - 跨模型验证:OpenAI o3/o3 pro、豆包、Kimi、Gemini等模型对六指图像均错误识别为五指,仅Claude 4存在部分正确率[4][5] - 响应特征:模型在48秒推理后仍坚持错误结论,人工提示仅提升2%准确率[3][28] - 表格数据:阿迪达斯四条纹被100%错误识别为三条纹,PUMA标识错误率超75%[13] 工业应用风险 - 质检场景:AI可能因罕见缺陷(如零件裂缝)不符合先验知识而误判合格,潜在导致安全事故[30][32] - 医疗领域:肺癌筛查等场景需医生二次验证AI判断,反映模型可靠性存疑[34] - 交通隐患:对异常目标(夜间行人、突发障碍物)的识别可能受偏见影响[35][36] 技术本质分析 - 训练缺陷:模型通过记忆数百亿图片文本建立知识库,而非真正理解视觉元素[18][19] - 认知类比:与人类"雷碧"误认现象类似,依赖快速模式匹配而非细节分析[11][12] - 矛盾机制:视觉模块与知识模块冲突时,模型优先选择高概率常识答案[24][25] 行业启示 - 当前局限:视觉语言模型在反事实识别、细节观察等场景存在系统性缺陷[37][38] - 应用建议:关键领域需保留人工复核机制,不能完全依赖AI视觉判断[34][39] - 发展需求:需突破基于记忆的推理框架,建立真正的视觉理解能力[26][38]
以玩促学?游戏代码驱动数据合成,提升多模态大模型通用推理
机器之心· 2025-07-04 16:59
核心观点 - 游戏代码可自动合成视觉推理数据,提升AI几何与图表推理能力 [1][4] - 游戏具备三大优势:规则明确、因果推理链完整、LLM生成成本低 [12] - Code2Logic方法通过LLM三步骤转化游戏代码为多模态推理数据 [13][14][15] - GameQA数据集含14万问答对,覆盖4类认知能力与30种游戏 [18][21] - 游戏数据训练使模型在域外任务和通用基准上均获显著提升 [24][25][26] 研究方法 - 游戏代码构建:LLM自动生成完整游戏逻辑(如推箱子) [13] - QA模板设计:从代码提取推理模式并设计任务模板 [14] - 数据引擎构建:自动化生成问答实例且保证正确性 [15] - 数据集特点:细粒度难度控制(Easy/Medium/Hard三级) [20] - 对比实验:5K GameQA样本效果优于8K几何数据集 [28][29] 数据集表现 - 人类在域内游戏测试准确率达84.75%,Claude-3.5仅47.69% [22] - Gemini-2.5-Pro表现最佳达58.95%,仍显著低于人类 [22] - 开源模型Qwen2.5-VL-7B训练后平均提升2.33% [25][26] - InternVL3-8B在MathVista达73%,超几何数据集67.63% [26][29] - 游戏多样性提升域外泛化效果1.80% [37] 模型能力分析 - 3D空间感知是最大短板,易混淆物体高度关系 [42] - 非网格化场景(如祖玛)中模式识别困难 [43] - 多次识图易受文本干扰导致图文不符 [44] - 策略规划能力不足,缺乏直觉剪枝能力 [45] - GRPO训练后视觉感知提升10.94%,文本推理提升14.95% [32] 行业意义 - 首次验证游戏作为可验证环境提升通用智能的潜力 [48] - 低成本可扩展数据合成方法突破多模态数据稀缺瓶颈 [4][19] - 游戏认知多样性能迁移至数学等非对口领域 [29] - 揭示当前VLMs在3D感知和策略规划的根本缺陷 [42][45] - 为多模态大模型训练评估提供理想数据源 [48]
今年大火的目标导航到底是什么?从目标搜索到触达有哪些路线?
具身智能之心· 2025-06-26 22:19
目标驱动导航技术概述 - 具身导航涉及语言理解、环境感知、路径规划三大技术支柱,目标驱动导航是其最具代表性的方向,要求智能体在陌生环境中仅凭目标描述自主完成探索与路径规划[2] - 与传统视觉语言导航不同,目标驱动导航需实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁,涉及语义解析、环境建模和动态决策能力[2] 产业化落地现状 - 终端配送场景中,美团无人配送车通过动态路径重规划在复杂城市环境执行任务,Starship Technologies的园区配送机器人已在欧美高校和社区部署[3] - 医疗/酒店/餐饮场景中,嘉楠科技、云迹科技、擎朗智能的商用服务机器人及美国Aethon的TUG系列实现药品、文件和餐食自主配送[3] - 人形机器人领域,宇树科技Unitree系列通过Habitat预训练完成基础导航,智元机器人集成目标导航模块,特斯拉Optimus展示端到端操作能力[3] 技术发展代际 - 第一代端到端方法:基于强化学习与模仿学习,在PointNav和闭集图片导航任务中SPL指标逼近人类表现[5] - 第二代模块化方法:通过显式构建语义地图分解任务,在零样本ObjectNav任务中未见物体场景成功率显著提升[5] - 第三代LLM/VLM融合方法:利用大语言模型生成语义指导策略,视觉语言模型提升开放词汇匹配精度,当前重点为设计场景表征接口[7] Habitat仿真生态 - 2020年CVPR提出PointNav基准后,评测体系扩展至ImageNav、ObjectNav及移动抓取任务,形成技术闭环[4] - 视觉预训练模型提升特征泛化能力,DDPPO框架使PointNav任务SPL指标显著提升,LLM解决部分开放词汇导航难题[4] - Meta AI的Sim2Real迁移框架为仿真到真实部署提供方法论,CMU与Stanford推动动态环境语义地图更新技术[4] 技术挑战与课程设计 - 学习路径需整合自然语言处理、计算机视觉、强化学习和场景图知识,面临论文碎片化与实战闭环缺失的挑战[9] - 课程覆盖三代技术演进路径(端到端/模块化/LLM融合),包含Habitat仿真生态解析及VLFM算法复现等实战环节[15][16][24] - 学员将掌握零样本导航、开放词汇识别等关键技术,理解Sim2Real部署流程,具备论文级算法改进能力[31]
上海交大最新!DyNaVLM:零样本、端到端导航框架
具身智能之心· 2025-06-22 18:56
出发点与优化目标 - 导航是自主智能体领域的基础能力,需要融合空间推理、实时决策和环境适应能力,但人工系统复现这一能力仍面临巨大挑战 [4] - 传统导航方法存在泛化性差、可扩展性不足和部署困难等问题,因其依赖模块化设计和特定任务工程 [4] - 视觉语言模型(VLM)为导航领域带来新思路,但受限于空间粒度和上下文推理能力不足 [4] - DyNaVLM提出零样本、端到端导航框架,无需微调或接触导航特定数据即可直接作为导航策略使用 [4] DyNaVLM核心创新点 - 动态动作空间构建:通过视觉语言推理实现自由形式目标选择,摒弃固定运动原语,提升运动灵活性和导航效率 [6] - 协作图记忆机制:受检索增强生成(RAG)启发,开发动态知识图捕捉空间关系和语义对象信息 [8] - 无需训练的部署模式:无需任务特定微调即可直接应用于新场景,降低部署成本并提高泛化能力 [8] 系统架构与方法 - 问题形式化定义:输入包括目标描述、RGB-D观测和机器人位姿,输出为动作,采用极坐标参数化动作空间 [11] - 记忆管理器:维护动态知识图,实现持久空间知识表示、跨机器人记忆共享和上下文感知记忆检索 [12][13] - 动作Proposer:采用基于候选的离散化策略,将连续搜索空间简化为有限均匀采样点集合 [14] - 动作Selector:综合几何候选点、感知上下文和记忆生成最终导航动作,包括空间采样和安全感知过滤 [14][16] 实验评估 - 模拟环境评估:在ObjectNav基准上取得45%成功率和0.232 SPL,优于PIVOT和VLMnav等框架 [19][22] - 真实世界评估:部署在Unitree Go2机器人上,在定位多个目标任务中成功率和行进距离显著优于VLMnav [25][27] - 协作图记忆机制在长且复杂导航任务中表现关键,帮助跟踪已访问位置并有效规划未来移动 [22]
万马科技20250612
2025-06-12 23:07
纪要涉及的行业和公司 - 行业:车联网行业、Robotaxi 行业 - 公司:万马科技、有方科技、优卡科技 纪要提到的核心观点和论据 万马科技业务情况 - 万马科技成立于 1997 年,2017 年在深交所上市,有通信类产品和车联网产品服务及支架两大业务板块,通信类业务占收入约 55%,车联网及支架业务占 45% [3] - 2021 年收购有方科技切入车联网领域,车联网收入从 2021 年的 5000 万元增长到 2024 年的 2.6 亿元,利润从不到 2000 万元增长到 6000 万元 [2][3] - 已建立完整的数据闭环工具链,在常州设立智驾算力中心 [3] 车联网市场现状及前景 - 国内车联网行业渗透率约 80%,海外市场渗透率不足 30%,随着智能驾驶对数据需求增加,国内外市场均有较大发展空间 [2][4] - Robotaxi 对实时数据监控和技术要求高,单车价值显著提升 [2][4][5] 优卡科技解决方案 - 提供蓝海全球车联和云自动驾驶数据闭环两大解决方案,支持 1400 万辆车辆,客户包括吉利、上汽等 [2][6] - 针对 Robotaxi 行业推出车端、网络和云端综合解决方案,包括双 SIM 卡流量服务、边缘计算架构等,提升联网质量和降低控车时延 [4][12] - 通过蓝海 one SIM 方案支持 Robotaxi 企业全球业务布局,在海外设十多个分支机构,与全球几十家运营商合作 [4][15] Robotaxi 行业发展趋势 - 被视为车联网行业发展的“皇冠上的明珠”,高盛预测中国 Robotaxi 市场年化增长率将达 96%,低速无人驾驶产业联盟预测低速无人驾驶增速接近 40% [2][7] - 已在多个城市常态化运营,特斯拉即将推出相关业务 [2][7][19] Robotaxi 对网络质量要求 - 运行安全需高清地图、车路协同和远程脱困功能 [10] - 用户交互涉及叫车、人车交互等,需高效网络支持 [10] - 合规性要求留存运营数据 [10] - 自动驾驶数据采集依赖海量数据和云端 AI 算力训练 [10] - 运维需运维人员本地介入和远程开锁、安全接管车辆 [10] 公司支持 Robotaxi 企业的方式 - 蓝海方案提升联网质量,采用一车双卡联网和边缘计算架构,降低控车时延,实现毫秒级切换 [13][14] - 数据闭环工具链帮助训练算法,支持自动化标注等技术应用,与英伟达合作提升模型训练推理性能 30 - 40% [16] - 优咖科技为 Robotaxi 企业提供基于大语言模型和视觉语言模型的多模态数据管道构建方案 [17] 其他重要但可能被忽略的内容 - Robotaxi 运营可能遇到碰撞行人、难识别交警手势等小概率事件,可通过云座舱远程脱困 [9] - Robotaxi 整体运营系统包括端侧、网络和云端,各部分有不同功能 [11] - RoboTaxi 和 RoboVan 处于爆发前夜,低速物流车 RoboVan 在末端物流领域潜力大,运营企业车辆规模增速达 100% [19][20] - 优咖科技与中国头部无人驾驶公司在蓝海连接解决方案上合作,为运营方提供网络等服务 [20] - 优咖科技 5G 专网有领先优势,能平衡用户体验、安全性与成本,Robotaxi 数据采集与回传需求和可靠性要求显著提升 [21] - 公司成立针对 Robotaxi 综合解决方案焦点小组,与各行业头部企业合作,因车联网经验和蓝海奥云解决方案受青睐 [22] - 过去两年公司积极布局海外市场,在多地设分支机构,投入 one SIM 技术,与各地运营商密切沟通 [23]
中金《秒懂研报》 | 智能驾驶:引领出行变革的新时代
中金点睛· 2025-05-24 16:32
智能驾驶背后的技术引擎 - 端到端架构降低数据标注难度并优化数据处理流程,减少人工工作量,提升信息传递效率[2] - 视觉语言模型和云端模型的引入增强系统处理复杂场景的能力[3] - 城市导航辅助驾驶(NOA)或成为车企竞争新热点,未来可能向L3/L4高阶自动驾驶发展[3] 智能驾驶的普及步伐 - 高速NOA功能2024年已规模化上车,有望成为20万元以上智能驾驶汽车的标配[5] - 城市NOA渗透率2024年有望达6.5%,成本降低推动搭载车型价格下探至20万元级市场[7] 智能驾驶的商业模式 - L2++智能驾驶软件收费面临挑战,车企多选择标配系统积累用户数据,探索减配方案增厚硬件利润[11] - 头部车企尝试买断或订阅付费模式,如华为ADS 3.0订阅价720元/月或7200元/年,买断价36000元[12] - L3自动驾驶功能落地可能推动后向功能订阅收费,2025年或迎来收获期[12] 城市NOA的益处 - 带动高配置、高毛利车型销售,硬件成本增加但单车毛利增量可观[13][14] - 理想L7 Pro/Max车型差价28000元,单车毛利润增量13700元;小鹏G6 Pro/Max差价20000元,毛利润增量10000元[15] - Robotaxi与城市NOA技术栈需求重叠,2025年头部智驾企业或公布相关路标推动行业转型[15] - 国内Tier1企业凭借技术和量产经验具国际市场代际优势,合资车企合作推动全球化发展[16][17]
智能辅助驾驶竞速与暗战:自研派VS合作派,功能水平分化加剧
贝壳财经· 2025-05-22 18:37
车企自研辅助驾驶技术进展 - 理想汽车智能驾驶正式进入AI大模型时代,本次OTA更新重点围绕智能驾驶能力升级,同步更新智能空间和智能电动 [3] - 蔚来智能辅助驾驶NOP+截至3月31日已避免超350万次碰撞风险,截至2025年5月15日累计行驶里程达49.357亿公里 [3] - 奇瑞猎鹰智驾系统分为500/700/900三个级别,依托1600万全球用户每年积累超20亿公里智驾里程,生成1000万+高价值训练数据和180万+世界模型场景 [3] - 音和汽车千里浩瀚规划了H1/H3/H5/H7/H9等多层级辅助驾驶方案,吉利控股旗下极氪、领克等品牌将采用该系统 [3] - 广汽集团GSD智能驾驶辅助系统基于生成式AI端到端架构,已沉淀500万用户驾驶场景和超4000万公里L4级Robo-taxi数据 [3] 行业技术路线分化 - 比亚迪全栈自研"天神之眼"系统,与小鹏、理想等同属第一梯队车企自研阵营 [4] - 博世认为中阶智能辅助驾驶应交给供应链处理,主机厂每年投入数亿至数十亿全栈自研成本过高 [4] - 华为预计2024年将有7家车企10个品牌采用乾崑解决方案,包括长安深蓝、赛力斯问界等,预计采用华为智驾汽车超50万辆 [4] 华为合作模式分析 - 华为汽车业务有三种合作模式:零部件供应模式(如宝马、比亚迪)、HI模式(如北汽极狐、阿维塔)、智选车模式(问界、智界) [5] - 智选车模式合作深度最紧密,华为参与产品设计、营销及销售,合作车型会在华为体验中心展示 [5] - 上汽集团从"掌握灵魂"转向与华为合作尚界,但合作伙伴面临核心技术自主性质疑 [6]
85倍速度碾压:苹果开源FastVLM,能在iphone直接运行的视觉语言模型
机器之心· 2025-05-17 00:31
苹果开源FastVLM模型 - 苹果开源高效视觉语言模型FastVLM,可在iPhone上直接运行,优化苹果设备性能[2][3] - 模型推出0.5B、1.5B、7B三个参数量级版本,提供stage2和stage3两阶段微调权重[7] - 代码仓库包含基于MLX框架的iOS/macOS演示应用,提升用户体验[3] FastVLM技术优势 - 首个token输出速度比同类模型提升85倍,视觉token数量比传统ViT少16倍[6] - 采用新型混合视觉编码器FastViTHD,融合卷积层和Transformer模块[6] - 多尺度池化和下采样技术显著降低图片处理所需视觉token数量[6] 模型架构创新 - FastViTHD专为高分辨率视觉语言处理设计,参数量比ViT-L/14小2.4倍,速度快6.9倍[37] - 架构包含五个阶段,前三阶段使用RepMixer模块,后两阶段采用多头自注意力[36] - 支持静态与动态输入分辨率策略,在目标分辨率下实现最佳精度-延迟平衡[49] 性能表现 - 在38项多模态零样本任务中表现与ViT-L/14相当,推理速度快5.6倍[37] - 相同0.5B LLM条件下性能媲美LLaVa-OneVision,TTFT快85倍[16] - 参数量仅为ConvNeXT-XXL的1/6.8,速度提升3.3倍[42] 应用场景 - 兼容主流LLM并适配iOS/Mac生态,适合边缘设备和端侧AI应用[6] - 支持图像自动生成陈述、问答、数据分析和对象识别等功能[6] - 优化实时图文任务场景,显著提升AI与图像交互体验[6]
百模竞发的 365 天:Hugging Face 年度回顾揭示 VLM 能力曲线与拐点 | Jinqiu Select
锦秋集· 2025-05-16 23:42
新模型趋势 - 任意到任意(Any-to-any)多模态模型实现图像、文本、音频等多种模态无缝输入输出,如Meta Chameleon和Qwen2.5-Omni [5][6][7] - 推理型视觉语言模型涌现,具备复杂场景下的逻辑推理与长链思维能力,如Kimi-VL-A3B-Thinking(16B参数,激活参数2.8B)[11][12] - 小参数高性能多模态模型推动本地化应用普及,如SmolVLM2(256M/500M/2.2B参数)和Gemma3-4b-it(4B参数,支持140+语言)[15][16] 混合专家架构 - MoE解码器通过动态激活子模型提升效率,如Kimi-VL(开源推理SOTA)和DeepSeek-VL2 [19][20] - MoE在Transformer中替代FFN层,减少计算资源消耗但增加内存成本 [19] 视觉语言动作模型 - VLA扩展VLM能力至机器人控制,如π0/π0-FAST(支持7个机器人平台)和GR00T N1(NVIDIA人形机器人基础模型)[21][22] 专业化能力发展 - 多模态安全模型过滤有害内容,如ShieldGemma 2(谷歌)和Llama Guard 4(Meta)[31][32] - 多模态RAG简化文档处理,采用DSE和类ColBERT架构提升检索精度 [40][44] 智能体与视频理解 - 智能体模型实现GUI控制,如UI-TARS-1.5(字节跳动)和Qwen2.5-VL-32B(智能体任务优化)[47][54] - 视频理解技术突破帧限制,如LongVU(Meta)和Qwen2.5VL(动态FPS适应)[57] 基准测试与对齐技术 - 新基准MMT-Bench(31325项多模态任务)和MMMU-Pro(10选项复杂度提升)取代饱和旧基准 [67][68] - DPO偏好优化扩展至VLM微调,如RLAIF-V数据集(83000+样本) [61][63] 精选模型 - Qwen2.5-VL(3B-72B参数)以智能体能力突出 [71] - Kimi-VL-Thinking(16B MoE)为复杂推理首选 [71] - SmolVLM2(最小视频模型)和Llama 4 Scout(109B/400B MoE)覆盖不同规模需求 [71]