多模态大语言模型 - 财报，业绩电话会，研报，新闻

多模态大语言模型

搜索文档

GPT-4o不敌Qwen，无一模型及格！UC伯克利/港大等联合团队提出多模态新基准：考察多视图理解能力

量子位· 2025-05-14 14:07

多视图理解推理新标准 - 多视图理解指从不同视角整合视觉信息实现理解决策，对机器人在复杂环境中执行任务至关重要[1] - 过去因评估基准稀缺导致研究进展缓慢，UC伯克利等机构联合推出All-Angles Bench填补空白[2] - 该基准包含90个真实场景下2100组人工标注多视图问答对，数据集和评测代码已开源[2][3] 数据集构建 - 数据来源于EGO4D-EXO和EgoHumans数据集，涵盖六大挑战性任务：计数、属性识别、相对距离、相对方向、物体操控和相机位姿估计[8] - 构建过程分三阶段：1) 用GPT设计任务相关问题 2) 人工标注细化问题并交叉检查 3) 生成视角对应的成对问题并进行质量控制[12] 模型性能评估 - 测试27个领先MLLMs（包括GPT-4o、Gemini-2.0-Flash等），发现与人类水平存在显著差距[4][14] - 人类在相机位姿估计任务准确率达88.9%，顶尖模型落后超50%[16] - 开源模型Ovis2-34B和Qwen2.5-VL-72B在方向敏感任务上超越闭源模型[17] 关键发现 - 模型在成对问答中表现不一致：GPT-4o在相对距离任务IC得分达70%，所有模型在方向变化任务表现最差[20][22][23] - 跨视角整合碎片化信息能力弱，如GPT-4o会统计单视角最大数量而非跨视角总和[24][25] - 思维链方法对部分模型提升有限，需专门多视图训练实现根本性改进[31][32] - 相机位姿估计能力薄弱，难以对齐不同视角的变换[34]

多视图理解

多模态大语言模型

Artificial Intelligence

Artificial Intelligence

All - Angles Bench

GPT - 4o

Gemini - 2.0 - Flash

推出金融交易AI Agent，可全天候智能盯盘，这家新加坡金融企业获1000万美元融资｜早起看早期

36氪· 2025-05-13 07:56

公司融资与产品发布 - 新加坡人工智能金融科技公司RockFlow完成1000万美元A1轮融资由头部互联网公司创始人领投老股东持续加注资金将用于提升AI技术和推出金融AI Agent Bobby [3] - 公司此前获得硅谷顶级美元基金数千万美元投资目前在全球有5个办公室业务覆盖30多个国家的9种语言 [4] - 金融AI Agent产品Bobby将于近期全球上线团队来自人工智能、金融数学和投资交易等多领域创始人Vakee赖蕴琦曾主导投资20多家中美、以色列高科技公司 [6] 技术架构与产品功能 - RockFlow基于自研架构结合多模态大语言模型(LLM)、Fin-Tuning、RAG、MultiAgent和CoT等前沿技术开发了适合金融投资场景的AI Agent架构提升模型理解生成能力和多源数据分析效率 [4] - AI Agent将投资交易流程抽象为实时信息获取、分析、交易策略构建、订单执行四大核心环节解决"买什么"和"怎么买"痛点 [5] - 产品功能包括：实时监控市场动态并分析财务数据/社交媒体情绪/公司公告一键下单根据用户收益目标和风险偏好生成个性化投资配置和交易策略通过自然语言生成复杂条件订单并自动执行定投任务实现止盈止损和仓位管理 [5][6] 行业定位与产品差异化 - 公司认为AI Agent在金融投资领域机会巨大但该领域Agent数量和管理复杂度远高于其他行业 [4] - 创始人强调金融领域对专业性、容错率和时效性要求极高产品需做到低成本、高效和结果可控因此采用独特的multi-Agent技术路线实现全周期交易体验 [6] - 2023年4月推出的TradeGPT是全球首个交易AI产品利用多模态LLM能力实时分析市场信息和量价数据结合自研AI量化模型生成高质量交易机会 [4] 产品个性化案例 - AI Agent能识别用户兴趣点并推荐投资机会例如用户提及使用多邻国学习新语言并表达投资意愿时会分析标的优势及风险生成符合期望的策略 [6]

理想汽车MCAF重构辅助驾驶视觉认知新范式

理想TOP2· 2025-04-25 20:43

以下文章来源于AcademicDaily ，作者AcademicDaily AcademicDaily . AcademicDaily是一个跟踪、推荐和解读大模型等AI成果的技术交流平台，致力于传播和分享前沿技术。 MCAF在理想内部被称为自动驾驶第三只眼。兼容理想自研的Mind GPT-3o 与 BEV 大模型，无需重新训练。 MCAF是一个多模态粗到细注意力聚焦框架，核心解决的是长视频理解的关键瓶颈。当前视频理解领域对长视频（>5分钟）的处理存在显著缺陷，主流方法（如Video-MLLM）依赖全局压缩或均匀采样，导致细节丢失和冗余计算。MCAF直接针对这一问题，通过多模态分层注意力和时间扩展机制，在信息保留与计算效率之间找到了平衡点，这是其核心价值。在平均时长达60分钟的Video-MME数据集上，MCAF超越其他代理方法（如VideoTree、DrVideo）约3-5个百分点。不同于VideoTree等需要额外奖励模型评估置信度，MCAF利用单一LLM完成生成-评估-调整闭环。这不仅简化了架构（如代码实现仅需1个LLM接口），还避免了多模型协同的兼容性问题，更适合实际部署。不过在NEx ...

10倍吞吐提升无损性能：多模态适用的KV cache量化策略来了，即插即用无需改原模型

量子位· 2025-04-03 10:12

CalibQuant团队投稿量子位 | 公众号 QbitAI 在InternVL-2.5上实现 10倍吞吐量提升，模型性能几乎无损失。最新1-bit多模态大模型KV cache量化方案 CalibQuant 来了。通过结合后缩放和校准方法，可显著降低显存与计算成本，无需改动原模型即可直接使用。即插即用、无缝集成多模态大语言模型在各种应用中展现出了卓越的性能。然而，它们在部署过程中的计算开销仍然是一个关键瓶颈。虽然KV cache通过用显存换计算在一定程度上提高了推理效率，但随着KV cache的增大，显存占用不断增加，吞吐量受到了极大限制。为了解决这一挑战，作者提出了CalibQuant，一种简单却高效的视觉KV cache量化策略，能够大幅降低显存和计算开销。具体来说， CalibQuant引入了一种极端的1比特量化方案，采用了针对视觉KV cache内在模式设计的后缩放和校准技术，在保证高效性的同时，不牺牲模型性能。作者通过利用Triton进行runtime优化，在InternVL-2.5模型上实现了10倍的吞吐量提升。这一方法具有即插即用的特性，能够无缝集成到各种现有的多 ...

长视频理解新突破！Mamba混合架构让显存消耗腰斩，处理10万视频token不费力

量子位· 2025-03-27 12:16

模型架构创新 - 提出Mamba-Transformer混合架构Vamba模型通过改进架构设计而非压缩视频token来提升处理效率 [1][2] - 将传统因果自注意力分解为文本交叉注意力+视频Mamba-2模块的双路径设计计算复杂度从二次降至线性 [7] - Mamba-2模块采用选择性扫描机制在更新视频token时保持全局序列信息检索能力 [7] 性能突破 - 同等硬件下视频帧处理能力达传统Transformer的4倍训练内存消耗降低超50% [4] - 单步训练速度实现翻倍提升在128帧以上长视频场景运行时间与显存需求下降超50% [4][9] - LVBench长视频理解基准性能提升4.3% 完整保留原始视频时空特征避免信息丢失 [5][10] 技术实现细节 - 视频编码采用CLIP/SigLIP编码器每帧转换为196个token 512帧视频对应10万token量级 [6] - 文本处理保留因果自注意力机制通过交叉注意力实现视觉-语义对齐 [7] - 开源代码库包含模型权重(Qwen2-VL-7B)、训练推理脚本及7B参数规模预训练模型 [11] 应用场景优势 - 支持128帧以上超长视频理解准确描述内容并回答用户提问 [9] - 在中短时长视频任务中同样展现竞争力覆盖全视频时长区间的基准测试 [10] - 研究团队来自滑铁卢大学、多伦多大学及零一万物等机构产学研协同创新 [2]