Workflow
视觉语言模型
icon
搜索文档
万马科技20250612
2025-06-12 23:07
纪要涉及的行业和公司 - 行业:车联网行业、Robotaxi 行业 - 公司:万马科技、有方科技、优卡科技 纪要提到的核心观点和论据 万马科技业务情况 - 万马科技成立于 1997 年,2017 年在深交所上市,有通信类产品和车联网产品服务及支架两大业务板块,通信类业务占收入约 55%,车联网及支架业务占 45% [3] - 2021 年收购有方科技切入车联网领域,车联网收入从 2021 年的 5000 万元增长到 2024 年的 2.6 亿元,利润从不到 2000 万元增长到 6000 万元 [2][3] - 已建立完整的数据闭环工具链,在常州设立智驾算力中心 [3] 车联网市场现状及前景 - 国内车联网行业渗透率约 80%,海外市场渗透率不足 30%,随着智能驾驶对数据需求增加,国内外市场均有较大发展空间 [2][4] - Robotaxi 对实时数据监控和技术要求高,单车价值显著提升 [2][4][5] 优卡科技解决方案 - 提供蓝海全球车联和云自动驾驶数据闭环两大解决方案,支持 1400 万辆车辆,客户包括吉利、上汽等 [2][6] - 针对 Robotaxi 行业推出车端、网络和云端综合解决方案,包括双 SIM 卡流量服务、边缘计算架构等,提升联网质量和降低控车时延 [4][12] - 通过蓝海 one SIM 方案支持 Robotaxi 企业全球业务布局,在海外设十多个分支机构,与全球几十家运营商合作 [4][15] Robotaxi 行业发展趋势 - 被视为车联网行业发展的“皇冠上的明珠”,高盛预测中国 Robotaxi 市场年化增长率将达 96%,低速无人驾驶产业联盟预测低速无人驾驶增速接近 40% [2][7] - 已在多个城市常态化运营,特斯拉即将推出相关业务 [2][7][19] Robotaxi 对网络质量要求 - 运行安全需高清地图、车路协同和远程脱困功能 [10] - 用户交互涉及叫车、人车交互等,需高效网络支持 [10] - 合规性要求留存运营数据 [10] - 自动驾驶数据采集依赖海量数据和云端 AI 算力训练 [10] - 运维需运维人员本地介入和远程开锁、安全接管车辆 [10] 公司支持 Robotaxi 企业的方式 - 蓝海方案提升联网质量,采用一车双卡联网和边缘计算架构,降低控车时延,实现毫秒级切换 [13][14] - 数据闭环工具链帮助训练算法,支持自动化标注等技术应用,与英伟达合作提升模型训练推理性能 30 - 40% [16] - 优咖科技为 Robotaxi 企业提供基于大语言模型和视觉语言模型的多模态数据管道构建方案 [17] 其他重要但可能被忽略的内容 - Robotaxi 运营可能遇到碰撞行人、难识别交警手势等小概率事件,可通过云座舱远程脱困 [9] - Robotaxi 整体运营系统包括端侧、网络和云端,各部分有不同功能 [11] - RoboTaxi 和 RoboVan 处于爆发前夜,低速物流车 RoboVan 在末端物流领域潜力大,运营企业车辆规模增速达 100% [19][20] - 优咖科技与中国头部无人驾驶公司在蓝海连接解决方案上合作,为运营方提供网络等服务 [20] - 优咖科技 5G 专网有领先优势,能平衡用户体验、安全性与成本,Robotaxi 数据采集与回传需求和可靠性要求显著提升 [21] - 公司成立针对 Robotaxi 综合解决方案焦点小组,与各行业头部企业合作,因车联网经验和蓝海奥云解决方案受青睐 [22] - 过去两年公司积极布局海外市场,在多地设分支机构,投入 one SIM 技术,与各地运营商密切沟通 [23]
中金《秒懂研报》 | 智能驾驶:引领出行变革的新时代
中金点睛· 2025-05-24 16:32
智能驾驶背后的技术引擎 - 端到端架构降低数据标注难度并优化数据处理流程,减少人工工作量,提升信息传递效率[2] - 视觉语言模型和云端模型的引入增强系统处理复杂场景的能力[3] - 城市导航辅助驾驶(NOA)或成为车企竞争新热点,未来可能向L3/L4高阶自动驾驶发展[3] 智能驾驶的普及步伐 - 高速NOA功能2024年已规模化上车,有望成为20万元以上智能驾驶汽车的标配[5] - 城市NOA渗透率2024年有望达6.5%,成本降低推动搭载车型价格下探至20万元级市场[7] 智能驾驶的商业模式 - L2++智能驾驶软件收费面临挑战,车企多选择标配系统积累用户数据,探索减配方案增厚硬件利润[11] - 头部车企尝试买断或订阅付费模式,如华为ADS 3.0订阅价720元/月或7200元/年,买断价36000元[12] - L3自动驾驶功能落地可能推动后向功能订阅收费,2025年或迎来收获期[12] 城市NOA的益处 - 带动高配置、高毛利车型销售,硬件成本增加但单车毛利增量可观[13][14] - 理想L7 Pro/Max车型差价28000元,单车毛利润增量13700元;小鹏G6 Pro/Max差价20000元,毛利润增量10000元[15] - Robotaxi与城市NOA技术栈需求重叠,2025年头部智驾企业或公布相关路标推动行业转型[15] - 国内Tier1企业凭借技术和量产经验具国际市场代际优势,合资车企合作推动全球化发展[16][17]
智能辅助驾驶竞速与暗战:自研派VS合作派,功能水平分化加剧
贝壳财经· 2025-05-22 18:37
车企自研辅助驾驶技术进展 - 理想汽车智能驾驶正式进入AI大模型时代,本次OTA更新重点围绕智能驾驶能力升级,同步更新智能空间和智能电动 [3] - 蔚来智能辅助驾驶NOP+截至3月31日已避免超350万次碰撞风险,截至2025年5月15日累计行驶里程达49.357亿公里 [3] - 奇瑞猎鹰智驾系统分为500/700/900三个级别,依托1600万全球用户每年积累超20亿公里智驾里程,生成1000万+高价值训练数据和180万+世界模型场景 [3] - 音和汽车千里浩瀚规划了H1/H3/H5/H7/H9等多层级辅助驾驶方案,吉利控股旗下极氪、领克等品牌将采用该系统 [3] - 广汽集团GSD智能驾驶辅助系统基于生成式AI端到端架构,已沉淀500万用户驾驶场景和超4000万公里L4级Robo-taxi数据 [3] 行业技术路线分化 - 比亚迪全栈自研"天神之眼"系统,与小鹏、理想等同属第一梯队车企自研阵营 [4] - 博世认为中阶智能辅助驾驶应交给供应链处理,主机厂每年投入数亿至数十亿全栈自研成本过高 [4] - 华为预计2024年将有7家车企10个品牌采用乾崑解决方案,包括长安深蓝、赛力斯问界等,预计采用华为智驾汽车超50万辆 [4] 华为合作模式分析 - 华为汽车业务有三种合作模式:零部件供应模式(如宝马、比亚迪)、HI模式(如北汽极狐、阿维塔)、智选车模式(问界、智界) [5] - 智选车模式合作深度最紧密,华为参与产品设计、营销及销售,合作车型会在华为体验中心展示 [5] - 上汽集团从"掌握灵魂"转向与华为合作尚界,但合作伙伴面临核心技术自主性质疑 [6]
85倍速度碾压:苹果开源FastVLM,能在iphone直接运行的视觉语言模型
机器之心· 2025-05-17 00:31
苹果开源FastVLM模型 - 苹果开源高效视觉语言模型FastVLM,可在iPhone上直接运行,优化苹果设备性能[2][3] - 模型推出0.5B、1.5B、7B三个参数量级版本,提供stage2和stage3两阶段微调权重[7] - 代码仓库包含基于MLX框架的iOS/macOS演示应用,提升用户体验[3] FastVLM技术优势 - 首个token输出速度比同类模型提升85倍,视觉token数量比传统ViT少16倍[6] - 采用新型混合视觉编码器FastViTHD,融合卷积层和Transformer模块[6] - 多尺度池化和下采样技术显著降低图片处理所需视觉token数量[6] 模型架构创新 - FastViTHD专为高分辨率视觉语言处理设计,参数量比ViT-L/14小2.4倍,速度快6.9倍[37] - 架构包含五个阶段,前三阶段使用RepMixer模块,后两阶段采用多头自注意力[36] - 支持静态与动态输入分辨率策略,在目标分辨率下实现最佳精度-延迟平衡[49] 性能表现 - 在38项多模态零样本任务中表现与ViT-L/14相当,推理速度快5.6倍[37] - 相同0.5B LLM条件下性能媲美LLaVa-OneVision,TTFT快85倍[16] - 参数量仅为ConvNeXT-XXL的1/6.8,速度提升3.3倍[42] 应用场景 - 兼容主流LLM并适配iOS/Mac生态,适合边缘设备和端侧AI应用[6] - 支持图像自动生成陈述、问答、数据分析和对象识别等功能[6] - 优化实时图文任务场景,显著提升AI与图像交互体验[6]
百模竞发的 365 天:Hugging Face 年度回顾揭示 VLM 能力曲线与拐点 | Jinqiu Select
锦秋集· 2025-05-16 23:42
新模型趋势 - 任意到任意(Any-to-any)多模态模型实现图像、文本、音频等多种模态无缝输入输出,如Meta Chameleon和Qwen2.5-Omni [5][6][7] - 推理型视觉语言模型涌现,具备复杂场景下的逻辑推理与长链思维能力,如Kimi-VL-A3B-Thinking(16B参数,激活参数2.8B)[11][12] - 小参数高性能多模态模型推动本地化应用普及,如SmolVLM2(256M/500M/2.2B参数)和Gemma3-4b-it(4B参数,支持140+语言)[15][16] 混合专家架构 - MoE解码器通过动态激活子模型提升效率,如Kimi-VL(开源推理SOTA)和DeepSeek-VL2 [19][20] - MoE在Transformer中替代FFN层,减少计算资源消耗但增加内存成本 [19] 视觉语言动作模型 - VLA扩展VLM能力至机器人控制,如π0/π0-FAST(支持7个机器人平台)和GR00T N1(NVIDIA人形机器人基础模型)[21][22] 专业化能力发展 - 多模态安全模型过滤有害内容,如ShieldGemma 2(谷歌)和Llama Guard 4(Meta)[31][32] - 多模态RAG简化文档处理,采用DSE和类ColBERT架构提升检索精度 [40][44] 智能体与视频理解 - 智能体模型实现GUI控制,如UI-TARS-1.5(字节跳动)和Qwen2.5-VL-32B(智能体任务优化)[47][54] - 视频理解技术突破帧限制,如LongVU(Meta)和Qwen2.5VL(动态FPS适应)[57] 基准测试与对齐技术 - 新基准MMT-Bench(31325项多模态任务)和MMMU-Pro(10选项复杂度提升)取代饱和旧基准 [67][68] - DPO偏好优化扩展至VLM微调,如RLAIF-V数据集(83000+样本) [61][63] 精选模型 - Qwen2.5-VL(3B-72B参数)以智能体能力突出 [71] - Kimi-VL-Thinking(16B MoE)为复杂推理首选 [71] - SmolVLM2(最小视频模型)和Llama 4 Scout(109B/400B MoE)覆盖不同规模需求 [71]
苹果发布FastVLM模型,可在iPhone上运行的极速视觉语言模型;昆仑万维宣布开源Matrix-Game大模型丨AIGC日报
创业邦· 2025-05-14 07:52
昆仑万维开源Matrix-Game大模型 - 昆仑万维正式开源17B+参数的Matrix-Game大模型 该模型为Matrix-Zero世界模型中的可交互视频生成大模型 是工业界首个开源的10B+空间智能大模型 [1] - Matrix-Game专为开放式环境中的高质量生成与精确控制设计 面向游戏世界建模的交互式世界基础模型 [1] 百型智能推出外贸行业垂类Agent - 百型智能发布国内首个外贸行业垂类Agent AI外贸员Zoe 可独立完成外贸开发拓客全链路 包括市场分析、客户寻找、精准筛选、开发触达、转化跟进 [2] - Zoe的转化率高出传统人工方式10倍以上 [2] 火山引擎发布豆包视频生成模型 - 火山引擎发布豆包视频生成模型Seedance 1 0 lite 支持文生视频、图生视频 视频生成时长支持5s、10s 分辨率提供480P、720P [3] - 同时发布豆包1 5视觉深度思考模型 并升级豆包音乐模型 企业用户可在火山方舟平台使用API 个人用户可在豆包APP体验 [3] 苹果发布FastVLM模型 - 苹果发布FastVLM视觉语言模型 专为高分辨率图像处理优化 可在iPhone等移动设备上高效运行 [4] - FastVLM通过FastViTHD视觉编码器实现85倍编码速度提升 为实时多模态AI应用铺平道路 [4]
ICML 2025 | 长视频理解新SOTA!蚂蚁&人大开源ViLAMP-7B,单卡可处理3小时视频
机器之心· 2025-05-12 17:06
该工作第一作者为中国人民大学高瓴人工智能学院硕士生程传奇, 目前于蚂蚁技术研究院实习,其主要研究领域为多模态大模型,蚂蚁技术研究院副研究员关健 为共同第一作者。 在视觉语言模型(Vision-Language Models,VLMs)取得突破性进展的当下,长视频理解的挑战显得愈发重要。以标准 24 帧率的标清视频为例,仅需数分钟即可 产生逾百万的视觉 token,这已远超主流大语言模型 4K-128K 的上下文处理极限。当面对影视级的长视频内容时,传统解决方案的不足愈加凸显:粗放式的帧采样 策略往往造成关键帧信息遗漏,而特征融合方法虽能降低数据维度,却不可避免地导致语义完整性受损。 近日, 蚂蚁和人大 的研究团队带来了一个创新性的解决方案。他们提出视觉语言大模型 ViLAMP (Video-Language Model with Mixed Precision),实现了对超长 视频的高效处理。这个方法的核心在于其独特的 " 混合精度 " 策略:对视频中的关键内容保持高精度分析,而对次要内容进行强力压缩,就像人类在观看视频时会 重点关注关键场景,而对过渡时空信息只做快速扫描一样。 论文标题:Scaling Vi ...
32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强
量子位· 2025-03-25 08:59
阿里通义千问Qwen2.5-VL-32B-Instruct发布 - 公司发布Qwen2.5-VL-32B-Instruct视觉语言模型,进一步扩充开源家族产品线[1][2] - 新模型尺寸为32B,填补了此前3B、7B和72B之间的空白,兼顾本地运行能力与性能表现[2][3] - 通过强化学习优化,模型在文本能力上达到同规模SOTA水平,部分基准测试甚至超越72B版本[4] 模型技术性能突破 - 具备精细化图像理解与推理能力,可结合时间、距离、限速等要素进行多步骤逻辑推算[5] - 数学推理能力显著提升,能完成几何角度计算等复杂问题,分步骤推导过程清晰[8][9][10][11] - 图像解析和视觉逻辑推导任务中表现出更高准确性与细粒度分析能力[5][13] 行业影响与用户反馈 - 模型已在Hugging Face平台开源,支持在Qwen Chat直接体验[14][15] - 技术社区快速响应,MLX Community已有用户成功运行[16] - Hacker News网友热议开源策略,认为此举验证了开源模式优势[17] 行业动态观察 - 公司近期与DeepSeek多次同步发布新模型,引发行业对协同策略的关注[18] - 模型发布节奏显示国内AI企业技术迭代加速,形成竞争性创新格局[1][18]
理想汽车(02015) - 自愿公告 2024年12月交付更新资料
2025-01-01 18:03
香港交易及結算所有限公司及香港聯合交易所有限公司對本公告的內容概不負責,對其準確性 或完整性亦不發表任何聲明,並明確表示概不會就本公告全部或任何部分內容而產生或因倚賴 該等內容而引致的任何損失承擔任何責任。 Li Auto Inc. 理想汽車 (於開曼群島註冊成立以不同投票權控制的有限責任公司) (股份代號:2015) 自願公告 2024年12月交付更新資料 股東及潛在投資者於買賣本公司證券時,務請謹慎行事。 承董事會命 理想汽車 董事長 李想 香港,2025年1月1日 12月,理想汽車交付量創月度新高。自開啟交付以來,本公司歷時五年創造了豪 華汽車品牌在中國市場達成超50萬台年交付量的最快紀錄。理想同學APP目前已 開放給移動端用戶下載,為更多的用戶創造價值。理想汽車OTA 7.0版本車機系 統將於1月開啟用戶推送,高速NOA升級為端到端技術架構,由此,理想汽車全 棧自研的端到端(E2E)+視覺語言模型(VLM)雙系統將打通城市NOA和高速NOA的 邊界,實現全場景端到端能力。此外,理想汽車還將推出首個智能推理可視化功 能,讓駕駛員理解智能系統的思考和執行過程,更安心地使用智能駕駛功能。 截至2024年12 ...