视觉语言模型

搜索文档
苹果发布FastVLM模型,可在iPhone上运行的极速视觉语言模型;昆仑万维宣布开源Matrix-Game大模型丨AIGC日报
创业邦· 2025-05-14 07:52
昆仑万维开源Matrix-Game大模型 - 昆仑万维正式开源17B+参数的Matrix-Game大模型 该模型为Matrix-Zero世界模型中的可交互视频生成大模型 是工业界首个开源的10B+空间智能大模型 [1] - Matrix-Game专为开放式环境中的高质量生成与精确控制设计 面向游戏世界建模的交互式世界基础模型 [1] 百型智能推出外贸行业垂类Agent - 百型智能发布国内首个外贸行业垂类Agent AI外贸员Zoe 可独立完成外贸开发拓客全链路 包括市场分析、客户寻找、精准筛选、开发触达、转化跟进 [2] - Zoe的转化率高出传统人工方式10倍以上 [2] 火山引擎发布豆包视频生成模型 - 火山引擎发布豆包视频生成模型Seedance 1 0 lite 支持文生视频、图生视频 视频生成时长支持5s、10s 分辨率提供480P、720P [3] - 同时发布豆包1 5视觉深度思考模型 并升级豆包音乐模型 企业用户可在火山方舟平台使用API 个人用户可在豆包APP体验 [3] 苹果发布FastVLM模型 - 苹果发布FastVLM视觉语言模型 专为高分辨率图像处理优化 可在iPhone等移动设备上高效运行 [4] - FastVLM通过FastViTHD视觉编码器实现85倍编码速度提升 为实时多模态AI应用铺平道路 [4]
ICML 2025 | 长视频理解新SOTA!蚂蚁&人大开源ViLAMP-7B,单卡可处理3小时视频
机器之心· 2025-05-12 17:06
该工作第一作者为中国人民大学高瓴人工智能学院硕士生程传奇, 目前于蚂蚁技术研究院实习,其主要研究领域为多模态大模型,蚂蚁技术研究院副研究员关健 为共同第一作者。 在视觉语言模型(Vision-Language Models,VLMs)取得突破性进展的当下,长视频理解的挑战显得愈发重要。以标准 24 帧率的标清视频为例,仅需数分钟即可 产生逾百万的视觉 token,这已远超主流大语言模型 4K-128K 的上下文处理极限。当面对影视级的长视频内容时,传统解决方案的不足愈加凸显:粗放式的帧采样 策略往往造成关键帧信息遗漏,而特征融合方法虽能降低数据维度,却不可避免地导致语义完整性受损。 近日, 蚂蚁和人大 的研究团队带来了一个创新性的解决方案。他们提出视觉语言大模型 ViLAMP (Video-Language Model with Mixed Precision),实现了对超长 视频的高效处理。这个方法的核心在于其独特的 " 混合精度 " 策略:对视频中的关键内容保持高精度分析,而对次要内容进行强力压缩,就像人类在观看视频时会 重点关注关键场景,而对过渡时空信息只做快速扫描一样。 论文标题:Scaling Vi ...
32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强
量子位· 2025-03-25 08:59
阿里通义千问Qwen2.5-VL-32B-Instruct发布 - 公司发布Qwen2.5-VL-32B-Instruct视觉语言模型,进一步扩充开源家族产品线[1][2] - 新模型尺寸为32B,填补了此前3B、7B和72B之间的空白,兼顾本地运行能力与性能表现[2][3] - 通过强化学习优化,模型在文本能力上达到同规模SOTA水平,部分基准测试甚至超越72B版本[4] 模型技术性能突破 - 具备精细化图像理解与推理能力,可结合时间、距离、限速等要素进行多步骤逻辑推算[5] - 数学推理能力显著提升,能完成几何角度计算等复杂问题,分步骤推导过程清晰[8][9][10][11] - 图像解析和视觉逻辑推导任务中表现出更高准确性与细粒度分析能力[5][13] 行业影响与用户反馈 - 模型已在Hugging Face平台开源,支持在Qwen Chat直接体验[14][15] - 技术社区快速响应,MLX Community已有用户成功运行[16] - Hacker News网友热议开源策略,认为此举验证了开源模式优势[17] 行业动态观察 - 公司近期与DeepSeek多次同步发布新模型,引发行业对协同策略的关注[18] - 模型发布节奏显示国内AI企业技术迭代加速,形成竞争性创新格局[1][18]
理想汽车(02015) - 自愿公告 2024年12月交付更新资料
2025-01-01 18:03
业绩相关 - 2024年12月交付新车58,513辆,同比增16.2%[2] - 2024年全年交付500,508辆,累计交付1,133,872辆[2] 市场布局 - 2024年底全国有502家零售中心,覆盖150个城市[3] - 2024年底售后及钣喷中心478家,覆盖225个城市[3] - 2024年底投入1,727座超充站,有9,100个充电桩[3] 技术与产品 - OTA 7.0车机系统1月推送,高速NOA升级架构[2] - 自研双系统打通城市与高速NOA边界[2] - 将推出智能推理可视化功能[2] 其他信息 - 现有车型包括理想MEGA等[4] - 董事会成员含李想、王兴等[7]