视觉语言模型
搜索文档
今年大火的目标导航到底是什么?从目标搜索到触达有哪些路线?
具身智能之心· 2025-06-26 22:19
目标驱动导航技术概述 - 具身导航涉及语言理解、环境感知、路径规划三大技术支柱,目标驱动导航是其最具代表性的方向,要求智能体在陌生环境中仅凭目标描述自主完成探索与路径规划[2] - 与传统视觉语言导航不同,目标驱动导航需实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁,涉及语义解析、环境建模和动态决策能力[2] 产业化落地现状 - 终端配送场景中,美团无人配送车通过动态路径重规划在复杂城市环境执行任务,Starship Technologies的园区配送机器人已在欧美高校和社区部署[3] - 医疗/酒店/餐饮场景中,嘉楠科技、云迹科技、擎朗智能的商用服务机器人及美国Aethon的TUG系列实现药品、文件和餐食自主配送[3] - 人形机器人领域,宇树科技Unitree系列通过Habitat预训练完成基础导航,智元机器人集成目标导航模块,特斯拉Optimus展示端到端操作能力[3] 技术发展代际 - 第一代端到端方法:基于强化学习与模仿学习,在PointNav和闭集图片导航任务中SPL指标逼近人类表现[5] - 第二代模块化方法:通过显式构建语义地图分解任务,在零样本ObjectNav任务中未见物体场景成功率显著提升[5] - 第三代LLM/VLM融合方法:利用大语言模型生成语义指导策略,视觉语言模型提升开放词汇匹配精度,当前重点为设计场景表征接口[7] Habitat仿真生态 - 2020年CVPR提出PointNav基准后,评测体系扩展至ImageNav、ObjectNav及移动抓取任务,形成技术闭环[4] - 视觉预训练模型提升特征泛化能力,DDPPO框架使PointNav任务SPL指标显著提升,LLM解决部分开放词汇导航难题[4] - Meta AI的Sim2Real迁移框架为仿真到真实部署提供方法论,CMU与Stanford推动动态环境语义地图更新技术[4] 技术挑战与课程设计 - 学习路径需整合自然语言处理、计算机视觉、强化学习和场景图知识,面临论文碎片化与实战闭环缺失的挑战[9] - 课程覆盖三代技术演进路径(端到端/模块化/LLM融合),包含Habitat仿真生态解析及VLFM算法复现等实战环节[15][16][24] - 学员将掌握零样本导航、开放词汇识别等关键技术,理解Sim2Real部署流程,具备论文级算法改进能力[31]
上海交大最新!DyNaVLM:零样本、端到端导航框架
具身智能之心· 2025-06-22 18:56
出发点与优化目标 - 导航是自主智能体领域的基础能力,需要融合空间推理、实时决策和环境适应能力,但人工系统复现这一能力仍面临巨大挑战 [4] - 传统导航方法存在泛化性差、可扩展性不足和部署困难等问题,因其依赖模块化设计和特定任务工程 [4] - 视觉语言模型(VLM)为导航领域带来新思路,但受限于空间粒度和上下文推理能力不足 [4] - DyNaVLM提出零样本、端到端导航框架,无需微调或接触导航特定数据即可直接作为导航策略使用 [4] DyNaVLM核心创新点 - 动态动作空间构建:通过视觉语言推理实现自由形式目标选择,摒弃固定运动原语,提升运动灵活性和导航效率 [6] - 协作图记忆机制:受检索增强生成(RAG)启发,开发动态知识图捕捉空间关系和语义对象信息 [8] - 无需训练的部署模式:无需任务特定微调即可直接应用于新场景,降低部署成本并提高泛化能力 [8] 系统架构与方法 - 问题形式化定义:输入包括目标描述、RGB-D观测和机器人位姿,输出为动作,采用极坐标参数化动作空间 [11] - 记忆管理器:维护动态知识图,实现持久空间知识表示、跨机器人记忆共享和上下文感知记忆检索 [12][13] - 动作Proposer:采用基于候选的离散化策略,将连续搜索空间简化为有限均匀采样点集合 [14] - 动作Selector:综合几何候选点、感知上下文和记忆生成最终导航动作,包括空间采样和安全感知过滤 [14][16] 实验评估 - 模拟环境评估:在ObjectNav基准上取得45%成功率和0.232 SPL,优于PIVOT和VLMnav等框架 [19][22] - 真实世界评估:部署在Unitree Go2机器人上,在定位多个目标任务中成功率和行进距离显著优于VLMnav [25][27] - 协作图记忆机制在长且复杂导航任务中表现关键,帮助跟踪已访问位置并有效规划未来移动 [22]
万马科技20250612
2025-06-12 23:07
纪要涉及的行业和公司 - 行业:车联网行业、Robotaxi 行业 - 公司:万马科技、有方科技、优卡科技 纪要提到的核心观点和论据 万马科技业务情况 - 万马科技成立于 1997 年,2017 年在深交所上市,有通信类产品和车联网产品服务及支架两大业务板块,通信类业务占收入约 55%,车联网及支架业务占 45% [3] - 2021 年收购有方科技切入车联网领域,车联网收入从 2021 年的 5000 万元增长到 2024 年的 2.6 亿元,利润从不到 2000 万元增长到 6000 万元 [2][3] - 已建立完整的数据闭环工具链,在常州设立智驾算力中心 [3] 车联网市场现状及前景 - 国内车联网行业渗透率约 80%,海外市场渗透率不足 30%,随着智能驾驶对数据需求增加,国内外市场均有较大发展空间 [2][4] - Robotaxi 对实时数据监控和技术要求高,单车价值显著提升 [2][4][5] 优卡科技解决方案 - 提供蓝海全球车联和云自动驾驶数据闭环两大解决方案,支持 1400 万辆车辆,客户包括吉利、上汽等 [2][6] - 针对 Robotaxi 行业推出车端、网络和云端综合解决方案,包括双 SIM 卡流量服务、边缘计算架构等,提升联网质量和降低控车时延 [4][12] - 通过蓝海 one SIM 方案支持 Robotaxi 企业全球业务布局,在海外设十多个分支机构,与全球几十家运营商合作 [4][15] Robotaxi 行业发展趋势 - 被视为车联网行业发展的“皇冠上的明珠”,高盛预测中国 Robotaxi 市场年化增长率将达 96%,低速无人驾驶产业联盟预测低速无人驾驶增速接近 40% [2][7] - 已在多个城市常态化运营,特斯拉即将推出相关业务 [2][7][19] Robotaxi 对网络质量要求 - 运行安全需高清地图、车路协同和远程脱困功能 [10] - 用户交互涉及叫车、人车交互等,需高效网络支持 [10] - 合规性要求留存运营数据 [10] - 自动驾驶数据采集依赖海量数据和云端 AI 算力训练 [10] - 运维需运维人员本地介入和远程开锁、安全接管车辆 [10] 公司支持 Robotaxi 企业的方式 - 蓝海方案提升联网质量,采用一车双卡联网和边缘计算架构,降低控车时延,实现毫秒级切换 [13][14] - 数据闭环工具链帮助训练算法,支持自动化标注等技术应用,与英伟达合作提升模型训练推理性能 30 - 40% [16] - 优咖科技为 Robotaxi 企业提供基于大语言模型和视觉语言模型的多模态数据管道构建方案 [17] 其他重要但可能被忽略的内容 - Robotaxi 运营可能遇到碰撞行人、难识别交警手势等小概率事件,可通过云座舱远程脱困 [9] - Robotaxi 整体运营系统包括端侧、网络和云端,各部分有不同功能 [11] - RoboTaxi 和 RoboVan 处于爆发前夜,低速物流车 RoboVan 在末端物流领域潜力大,运营企业车辆规模增速达 100% [19][20] - 优咖科技与中国头部无人驾驶公司在蓝海连接解决方案上合作,为运营方提供网络等服务 [20] - 优咖科技 5G 专网有领先优势,能平衡用户体验、安全性与成本,Robotaxi 数据采集与回传需求和可靠性要求显著提升 [21] - 公司成立针对 Robotaxi 综合解决方案焦点小组,与各行业头部企业合作,因车联网经验和蓝海奥云解决方案受青睐 [22] - 过去两年公司积极布局海外市场,在多地设分支机构,投入 one SIM 技术,与各地运营商密切沟通 [23]
中金《秒懂研报》 | 智能驾驶:引领出行变革的新时代
中金点睛· 2025-05-24 16:32
智能驾驶背后的技术引擎 - 端到端架构降低数据标注难度并优化数据处理流程,减少人工工作量,提升信息传递效率[2] - 视觉语言模型和云端模型的引入增强系统处理复杂场景的能力[3] - 城市导航辅助驾驶(NOA)或成为车企竞争新热点,未来可能向L3/L4高阶自动驾驶发展[3] 智能驾驶的普及步伐 - 高速NOA功能2024年已规模化上车,有望成为20万元以上智能驾驶汽车的标配[5] - 城市NOA渗透率2024年有望达6.5%,成本降低推动搭载车型价格下探至20万元级市场[7] 智能驾驶的商业模式 - L2++智能驾驶软件收费面临挑战,车企多选择标配系统积累用户数据,探索减配方案增厚硬件利润[11] - 头部车企尝试买断或订阅付费模式,如华为ADS 3.0订阅价720元/月或7200元/年,买断价36000元[12] - L3自动驾驶功能落地可能推动后向功能订阅收费,2025年或迎来收获期[12] 城市NOA的益处 - 带动高配置、高毛利车型销售,硬件成本增加但单车毛利增量可观[13][14] - 理想L7 Pro/Max车型差价28000元,单车毛利润增量13700元;小鹏G6 Pro/Max差价20000元,毛利润增量10000元[15] - Robotaxi与城市NOA技术栈需求重叠,2025年头部智驾企业或公布相关路标推动行业转型[15] - 国内Tier1企业凭借技术和量产经验具国际市场代际优势,合资车企合作推动全球化发展[16][17]
智能辅助驾驶竞速与暗战:自研派VS合作派,功能水平分化加剧
贝壳财经· 2025-05-22 18:37
车企自研辅助驾驶技术进展 - 理想汽车智能驾驶正式进入AI大模型时代,本次OTA更新重点围绕智能驾驶能力升级,同步更新智能空间和智能电动 [3] - 蔚来智能辅助驾驶NOP+截至3月31日已避免超350万次碰撞风险,截至2025年5月15日累计行驶里程达49.357亿公里 [3] - 奇瑞猎鹰智驾系统分为500/700/900三个级别,依托1600万全球用户每年积累超20亿公里智驾里程,生成1000万+高价值训练数据和180万+世界模型场景 [3] - 音和汽车千里浩瀚规划了H1/H3/H5/H7/H9等多层级辅助驾驶方案,吉利控股旗下极氪、领克等品牌将采用该系统 [3] - 广汽集团GSD智能驾驶辅助系统基于生成式AI端到端架构,已沉淀500万用户驾驶场景和超4000万公里L4级Robo-taxi数据 [3] 行业技术路线分化 - 比亚迪全栈自研"天神之眼"系统,与小鹏、理想等同属第一梯队车企自研阵营 [4] - 博世认为中阶智能辅助驾驶应交给供应链处理,主机厂每年投入数亿至数十亿全栈自研成本过高 [4] - 华为预计2024年将有7家车企10个品牌采用乾崑解决方案,包括长安深蓝、赛力斯问界等,预计采用华为智驾汽车超50万辆 [4] 华为合作模式分析 - 华为汽车业务有三种合作模式:零部件供应模式(如宝马、比亚迪)、HI模式(如北汽极狐、阿维塔)、智选车模式(问界、智界) [5] - 智选车模式合作深度最紧密,华为参与产品设计、营销及销售,合作车型会在华为体验中心展示 [5] - 上汽集团从"掌握灵魂"转向与华为合作尚界,但合作伙伴面临核心技术自主性质疑 [6]
85倍速度碾压:苹果开源FastVLM,能在iphone直接运行的视觉语言模型
机器之心· 2025-05-17 00:31
苹果开源FastVLM模型 - 苹果开源高效视觉语言模型FastVLM,可在iPhone上直接运行,优化苹果设备性能[2][3] - 模型推出0.5B、1.5B、7B三个参数量级版本,提供stage2和stage3两阶段微调权重[7] - 代码仓库包含基于MLX框架的iOS/macOS演示应用,提升用户体验[3] FastVLM技术优势 - 首个token输出速度比同类模型提升85倍,视觉token数量比传统ViT少16倍[6] - 采用新型混合视觉编码器FastViTHD,融合卷积层和Transformer模块[6] - 多尺度池化和下采样技术显著降低图片处理所需视觉token数量[6] 模型架构创新 - FastViTHD专为高分辨率视觉语言处理设计,参数量比ViT-L/14小2.4倍,速度快6.9倍[37] - 架构包含五个阶段,前三阶段使用RepMixer模块,后两阶段采用多头自注意力[36] - 支持静态与动态输入分辨率策略,在目标分辨率下实现最佳精度-延迟平衡[49] 性能表现 - 在38项多模态零样本任务中表现与ViT-L/14相当,推理速度快5.6倍[37] - 相同0.5B LLM条件下性能媲美LLaVa-OneVision,TTFT快85倍[16] - 参数量仅为ConvNeXT-XXL的1/6.8,速度提升3.3倍[42] 应用场景 - 兼容主流LLM并适配iOS/Mac生态,适合边缘设备和端侧AI应用[6] - 支持图像自动生成陈述、问答、数据分析和对象识别等功能[6] - 优化实时图文任务场景,显著提升AI与图像交互体验[6]
百模竞发的 365 天:Hugging Face 年度回顾揭示 VLM 能力曲线与拐点 | Jinqiu Select
锦秋集· 2025-05-16 23:42
新模型趋势 - 任意到任意(Any-to-any)多模态模型实现图像、文本、音频等多种模态无缝输入输出,如Meta Chameleon和Qwen2.5-Omni [5][6][7] - 推理型视觉语言模型涌现,具备复杂场景下的逻辑推理与长链思维能力,如Kimi-VL-A3B-Thinking(16B参数,激活参数2.8B)[11][12] - 小参数高性能多模态模型推动本地化应用普及,如SmolVLM2(256M/500M/2.2B参数)和Gemma3-4b-it(4B参数,支持140+语言)[15][16] 混合专家架构 - MoE解码器通过动态激活子模型提升效率,如Kimi-VL(开源推理SOTA)和DeepSeek-VL2 [19][20] - MoE在Transformer中替代FFN层,减少计算资源消耗但增加内存成本 [19] 视觉语言动作模型 - VLA扩展VLM能力至机器人控制,如π0/π0-FAST(支持7个机器人平台)和GR00T N1(NVIDIA人形机器人基础模型)[21][22] 专业化能力发展 - 多模态安全模型过滤有害内容,如ShieldGemma 2(谷歌)和Llama Guard 4(Meta)[31][32] - 多模态RAG简化文档处理,采用DSE和类ColBERT架构提升检索精度 [40][44] 智能体与视频理解 - 智能体模型实现GUI控制,如UI-TARS-1.5(字节跳动)和Qwen2.5-VL-32B(智能体任务优化)[47][54] - 视频理解技术突破帧限制,如LongVU(Meta)和Qwen2.5VL(动态FPS适应)[57] 基准测试与对齐技术 - 新基准MMT-Bench(31325项多模态任务)和MMMU-Pro(10选项复杂度提升)取代饱和旧基准 [67][68] - DPO偏好优化扩展至VLM微调,如RLAIF-V数据集(83000+样本) [61][63] 精选模型 - Qwen2.5-VL(3B-72B参数)以智能体能力突出 [71] - Kimi-VL-Thinking(16B MoE)为复杂推理首选 [71] - SmolVLM2(最小视频模型)和Llama 4 Scout(109B/400B MoE)覆盖不同规模需求 [71]
苹果发布FastVLM模型,可在iPhone上运行的极速视觉语言模型;昆仑万维宣布开源Matrix-Game大模型丨AIGC日报
创业邦· 2025-05-14 07:52
昆仑万维开源Matrix-Game大模型 - 昆仑万维正式开源17B+参数的Matrix-Game大模型 该模型为Matrix-Zero世界模型中的可交互视频生成大模型 是工业界首个开源的10B+空间智能大模型 [1] - Matrix-Game专为开放式环境中的高质量生成与精确控制设计 面向游戏世界建模的交互式世界基础模型 [1] 百型智能推出外贸行业垂类Agent - 百型智能发布国内首个外贸行业垂类Agent AI外贸员Zoe 可独立完成外贸开发拓客全链路 包括市场分析、客户寻找、精准筛选、开发触达、转化跟进 [2] - Zoe的转化率高出传统人工方式10倍以上 [2] 火山引擎发布豆包视频生成模型 - 火山引擎发布豆包视频生成模型Seedance 1 0 lite 支持文生视频、图生视频 视频生成时长支持5s、10s 分辨率提供480P、720P [3] - 同时发布豆包1 5视觉深度思考模型 并升级豆包音乐模型 企业用户可在火山方舟平台使用API 个人用户可在豆包APP体验 [3] 苹果发布FastVLM模型 - 苹果发布FastVLM视觉语言模型 专为高分辨率图像处理优化 可在iPhone等移动设备上高效运行 [4] - FastVLM通过FastViTHD视觉编码器实现85倍编码速度提升 为实时多模态AI应用铺平道路 [4]
ICML 2025 | 长视频理解新SOTA!蚂蚁&人大开源ViLAMP-7B,单卡可处理3小时视频
机器之心· 2025-05-12 17:06
核心观点 - 蚂蚁和人大研究团队提出视觉语言大模型ViLAMP 通过混合精度策略实现对超长视频的高效处理 在单张A100 GPU上可处理10,000帧视频 并在多个视频理解基准上全面超越现有方案[1][2][9] 技术原理 - 视频信息在时空维度均呈现稀疏性与冗余性 90%注意力仅分布在不到5%的视频帧上 50%的patch承载80%的模型注意力[7][19] - 提出差分蒸馏原则 识别并保留高查询相关性且低信息冗余的重要视频信息[8] - 采用双层混合精度架构:差分关键帧选择(DKS)实现关键帧高效识别 差分特征合并(DFM)将非关键帧压缩为单个信息量最大化的token[12][13][14] 性能表现 - 以7B参数量达到或超越部分70B量级模型表现 在Video-MME长视频子集上比现有最优模型提升4.8%[17] - 在VideoNIAH任务中处理10K帧视频保持58.15%准确率 超越VideoChat-Flash基线模型12.82%[18] - 内存消耗相比LLaMA-VID基线降低约50% 在8,192帧情况下计算量减少80%以上[20] 效率突破 - 可在单张A100 GPU上连续处理10,000帧视频 按每秒1帧计算约3小时内容[2] - DKS在长视频场景下表现明显优势 DFM相比特征融合方案在所有数据集上展现3个百分点以上性能优势[20] 应用前景 - 突破长视频处理计算瓶颈 为在线教育 视频监控 直播分析等实际应用场景带来新的可能[2][22] - 相关论文已被ICML 2025接收 提供新的研究思路和实用价值[2][22]
32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强
量子位· 2025-03-25 08:59
阿里通义千问Qwen2.5-VL-32B-Instruct发布 - 公司发布Qwen2.5-VL-32B-Instruct视觉语言模型,进一步扩充开源家族产品线[1][2] - 新模型尺寸为32B,填补了此前3B、7B和72B之间的空白,兼顾本地运行能力与性能表现[2][3] - 通过强化学习优化,模型在文本能力上达到同规模SOTA水平,部分基准测试甚至超越72B版本[4] 模型技术性能突破 - 具备精细化图像理解与推理能力,可结合时间、距离、限速等要素进行多步骤逻辑推算[5] - 数学推理能力显著提升,能完成几何角度计算等复杂问题,分步骤推导过程清晰[8][9][10][11] - 图像解析和视觉逻辑推导任务中表现出更高准确性与细粒度分析能力[5][13] 行业影响与用户反馈 - 模型已在Hugging Face平台开源,支持在Qwen Chat直接体验[14][15] - 技术社区快速响应,MLX Community已有用户成功运行[16] - Hacker News网友热议开源策略,认为此举验证了开源模式优势[17] 行业动态观察 - 公司近期与DeepSeek多次同步发布新模型,引发行业对协同策略的关注[18] - 模型发布节奏显示国内AI企业技术迭代加速,形成竞争性创新格局[1][18]