多模态大语言模型
搜索文档
空间智能终极挑战MMSI-Video-Bench来了
具身智能之心· 2026-01-06 08:32
编辑丨机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 空间理解能力是多模态大语言模型(MLLMs)走向真实物理世界,成为 "通用型智能助手" 的关键基础。但现有的空间智能评测基准往往有两类问题:一类高度依 赖模板生成,限制了问题的多样性;另一类仅聚焦于某一种空间任务与受限场景,因此很难全面检验模型在真实世界中对空间的理解与推理能力。 要真正走入现实世界,模型不仅需要看得见,更要看得懂空间: 它需要在复杂、多变的真实场景中理解空间布局、感知运动变化、进行时空推理,并基于这些信 息做出合理决策,与环境产生有效交互。 为此, 上海人工 智能 实 验室 Inter nRobotics 团队 近日推出了一套 全面而硬核的空间智能视频基准 —— MMSI-Video-Bench ,对当前主流多模态大模型精心打 造了一场挑战系数极高的 "空间智能大考"。 本工作由上海人工智能实验室、上海交通大学、香港中文大学、浙江大学、香港大学、北京航空航天大学、西安交通大学、 ...
一个近300篇工作的综述!从“高层规划和低层控制”来看Manipulation任务的发展
具身智能之心· 2026-01-06 08:32
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在具身智能领域,机器人操纵作为核心难题,随着视觉、语言及多模态学习的飞速发展迎来变革。大型基础模型的出现,大幅提升了机器人的感知与语义表征能 力,使其能在非结构化环境中基于自然语言指令完成任务。由西安交通大学、香港科技大学(广州)等多所高校联合撰写的综述,以 "高层规划 + 低层控制" 的统一 框架,系统梳理了基于学习的机器人操纵方法,明确了当前技术瓶颈与未来方向,为该领域的研究提供了全面且结构化的参考。 论文名称:Embodied Robot Manipulation in the Era of Foundation Models: Planning and Learning Perspectives 论文链接:https://arxiv.org/pdf/2512.22983 项目链接:https://github.com/BaiShuangha ...
空间智能终极挑战MMSI-Video-Bench来了,顶级大模型全军覆没
机器之心· 2026-01-05 16:54
多模态大语言模型空间智能评测基准MMSI-Video-Bench的发布 - 上海人工智能实验室InternRobotics团队联合多所高校推出全新空间智能视频基准MMSI-Video-Bench,旨在全面检验多模态大模型在真实世界中的空间理解与推理能力 [2] - 该基准旨在解决现有评测体系的两类问题:依赖模板生成导致问题多样性不足,以及仅聚焦单一任务与受限场景,难以全面评估模型能力 [2] - 空间理解能力被视为多模态大语言模型走向真实物理世界、成为“通用型智能助手”的关键基础 [2] 基准的核心特点与设计 - **全面系统的题型设计**:基准构建了覆盖感知、推理与决策全过程的空间智能评测体系 [7] - 基础空间感知能力考察:包括**空间构建**(理解全局空间布局、实体与场景状态属性、两两空间位置关系)和**运动理解**(感知长时运动过程,包括实体、相机及交互运动)[6][8] - 高层决策能力考察:包括基于视频信息的**规划能力**和对未来状态的**预测想象能力**[6][8] - 扩展任务范畴:考察**跨视频推理能力**,包含跨时间的记忆更新能力和多视角信息整合能力,以覆盖现实中的复杂情形 [6] - **极具挑战性的问题设计**:所有问题由11位平均研究年限超过2.5年的3D视觉研究员精细设计,确保清晰准确且具有高挑战性 [10] - 所有受测模型表现均吃力,表现最好的Gemini 3 Pro准确率仅为**38%**[10] - 该基准创造了目前最高的**人类-AI性能差距**,约**60%**(人类水平为**96.4%**)[10][14] - **丰富多样的视频数据来源**:视频数据来源于**25个公开数据集**及**1个自建数据集**,涵盖机器人操作、室内外场景、自然风光、体育活动及电影片段等多种类型 [11] - **特定领域针对性测评**:得益于场景与任务的全面性,基准可划分出**室内场景感知**、**机器人**、**定位**三大子基准,用于针对性测评模型特定能力 [12] 主流模型评测结果与能力瓶颈分析 - **整体成绩单**:研究团队评测了**25个主流多模态模型**,整体得分普遍偏低 [14] - 表现最优的模型为Gemini 3 Pro,准确率为**38.0%**,与人类水平(**96.4%**)存在接近**60%**的显著差距 [14] - 开源模型中,QwenVL2.5-72B在“Sufficient-Coverage”设置下平均得分为**31.8%**,InternVL2.5-8B为**28.7%**[16] - **核心能力短板**:实验结果不仅证实了模型在**空间构建能力**上的不足,更全面揭示了在**运动理解、规划、预测以及跨视频推理**等能力上的明显瓶颈 [14] - **预测**是所有任务类型中挑战性最高的主任务 [15] - **相机-实体之间的空间关系建模**是难度最高的细分类别 [15] - 即便是经过专门空间任务微调的模型,其能力也未能有效泛化到该基准 [15] - **错误类型分析**:研究团队将模型错误归纳为五大类型,以定位性能受限的关键原因 [17] 1. **细致定位错误**:精细视觉感知失效,如目标遗漏混淆或时间点-事件对应关系错误 [17] 2. **ID匹配错误**:跨帧过程中难以保持一致的实体身份跟踪 [17] 3. **潜在逻辑推断错误**:在需要依赖隐含线索或常识知识的推理任务中失败 [17] 4. **提示输入对齐错误**:未能将提示信息与视频信息正确结合进行推理 [17] 5. **几何推理错误**:在空间几何关系理解上存在偏差,对相对位置或距离关系判断错误 [17] - **关键瓶颈定位**:对代表性模型的错误分析表明,**几何推理错误是最为普遍、影响最大的错误类型**[19] - **空间构建任务**的低表现主要源于几何推理能力不足 [19] - **运动理解任务**中,模型难以在快速、细微或长时间跨度的运动中保持精确定位 [21] - **规划与预测任务**中,模型除几何推理错误外,还往往无法有效理解提示输入并将其与视频信息进行联合推理 [21] - **跨视频推理任务**的失败主要源于多目标跨视频定位的复杂性,以及模型难以利用潜在线索完成推理 [21] 辅助方法尝试与未来研究方向 - **辅助方法效果有限**:研究尝试引入**3D空间线索**(通过3D重建模型生成全局图像作为额外输入)以及采用**思维链**技术引导规范推理,但均未能带来显著的性能提升 [22][24][27] - **揭示的关键事实**:上述结果揭示了两个关键事实 [27] - 如何设计模型真正“可理解、可利用”的空间线索,仍是一个开放且极具挑战性的问题 [27] - 当前模型的失败并非由于缺乏显式推理步骤,而是受限于**底层推理能力本身仍然不足**[27] - **基准价值与意义**:MMSI-Video-Bench是一个高质量、高挑战性且系统全面的评测基准,其评测结果清晰揭示了当前模型与人类表现的显著差距,明确了模型的关键能力瓶颈,并为未来空间智能模型的技术演进指明了研究方向 [26]
让模型自己找关键帧、视觉线索,小红书Video-Thinker破解视频推理困局
机器之心· 2026-01-02 11:12
核心观点 - 小红书研究团队提出了一种名为Video-Thinker的全新“Thinking with Videos”范式,旨在通过强化学习激发多模态大语言模型在视频推理中的内生智能,摆脱对外部工具的依赖 [2] - 该方法通过将“时序定位”与“视觉描述”能力内化在模型的思维链中,使模型能自主寻找关键帧并提取视觉线索,从而实现对视频内容的自主探索与理解 [2] - 实验表明,Video-Thinker-7B模型凭借极高的数据效率,在多个高难度视频推理榜单上显著超越现有基线,确立了7B量级模型的SOTA性能 [3] 方法:内生能力导向的“数据 - 训练”全链路设计 - **核心愿景与机制**:Video-Thinker旨在实现“能力内化”,通过构建高质量结构化数据(Video-Thinker-10K)和“监督微调+组相对策略优化”的两阶段训练范式,让模型学会在动态视频流中自主导航与思考 [10] - **高质量数据集构建**:团队整合六大主流数据集,通过“后见之明”自动化流水线,生产出兼具精准时序定位与详尽视觉描述的结构化推理数据,样本量达10K [13] - **监督微调阶段**:此阶段强制模型习得Video-Thinker独有的结构化思考范式,即“定位-感知-推理”的标准动作序列,有效抑制模型幻觉倾向 [16][18] - **强化学习阶段**:采用组相对策略优化激发模型内生潜能,通过并行采样多组推理轨迹并利用相对优势指导更新,使模型将机械的格式遵循升华为灵活的视频思维能力 [19] - **涌现的“顿悟时刻”**:经过强化学习训练,模型开始自发展现元认知特征,能对其初步生成的定位或描述进行自我质疑与修正,形成动态的内部反馈机制 [22] 评测:全面验证,7B模型刷新视频推理SOTA - **总体性能优势**:Video-Thinker-7B在域内和域外共11个评测数据集上全面领先,确立了7B参数量级模型的新SOTA [25][28] - **域外泛化能力突出**:在侦探推理类榜单Video-Holmes上准确率达**43.22%**,超越次优基线**4.68**个百分点;在综合性基准VRBench上准确率达**80.69%**,大幅领先最佳基线**11.44**个百分点 [29] - **训练阶段协同效应**:消融实验表明,仅监督微调无法实现强泛化,而随后的强化学习阶段是性能飞跃的关键,使模型在Video-Holmes上的性能提升了**11.70%**,在VRBench上提升了**18.29%** [29] - **推理帧数鲁棒性**:在16帧、32帧和64帧不同输入条件下,Video-Thinker-7B均持续优于对比基线,表明其具备更高效的时序信息整合机制 [30][31] - **内生能力定量验证**:在时序定位任务中,Video-Thinker-7B的平均交并比达**48.22%**,相比基础模型提升**75.5%**;在内容描述任务中,其整体描述质量相比基础模型提升**31.2%**,相比Video-R1提升**61.0%** [33][36] - **内生能力对比外部工具**:实验证明,将能力内化的Video-Thinker-7B表现远超简单外挂工具方案及现有的工具调用方法,在Video-Holmes上取得**43.22%**的最高分,显著优于VideoMind-7B的**38.98%** [34][35][37] 行业影响与未来展望 - Video-Thinker打破了“视频推理必须依赖外部工具”的固有认知,为视频推理领域提供了新范式 [38] - 其成功证明了视频推理能力并非依赖“大参数+大数据”的堆砌,而在于对核心内生能力的精准培养 [39] - 该技术路径有望加速AI在安防监控、智能教育、工业运维等领域的落地应用,赋能行业智能化升级 [39]
NeurIPS 2025 | 告别全量扫描!浙大提出COIDO:破解多模态数据选择「高耗」难题
机器之心· 2025-12-13 16:31
研究背景与动机 - 多模态大语言模型的能力高度依赖高质量的视觉指令微调,但数据集规模爆炸式增长导致全量微调计算开销巨大且存在冗余[8] - 现有数据筛选方法普遍存在两大痛点:筛选成本高昂,需要目标模型对全量数据进行反向传播;优化目标解耦,将重要性与多样性割裂处理,导致次优权衡[12] 方法论核心创新 - 引入轻量级插件评分器,仅需随机采样一小部分数据(例如20%)进行训练,即可学习整个数据集的分布特征并对剩余数据泛化评分,无需遍历全集[14] - 提出重要性与多样性的耦合优化框架,将两者统一在联合训练中,而非分阶段进行[14] - 重要性损失基于交叉熵损失的重加权,使评分器隐式学习样本重要性;多样性损失基于谱聚类的方差最小化,保证数据多样性分布[14] - 引入基于同方差不确定性的自动加权机制,通过动态调整损失权重,实现重要性与多样性的自适应平衡[15][18] 实验性能与效率 - 在多项基准测试中,仅利用20%的数据进行训练和筛选,即可达到全量数据微调98.2%的平均性能[20] - 与现有先进方法相比,COIDO拥有最低的总计算量,仅为4.2E FLOPs,计算效率最高[20][24] - 在相同数据留存率下,COIDO在各个基准测试上均取得了极具竞争力的结果,筛选质量最优[24] - 在LLaVA-665K上训练好的评分器,可直接应用于Vision-Flan数据集,其零样本迁移表现优于在该数据集上从头训练的评分器,证明了强大的泛化性与迁移性[21] 研究总结与意义 - COIDO提供了一种全新的多模态数据筛选范式,打破了“数据筛选必须昂贵”的刻板印象[23] - 该方法通过耦合优化和小样本学习,以极小的计算代价精准定位高价值视觉指令数据,实现了“以简驭繁”[4][23] - 该研究为资源受限的研究者高效微调多模态大语言模型提供了可能,并为未来大规模多模态数据的自动化清洗与治理提供了新思路[23]
大模型被确诊「视觉文盲」!多校联合提出MILO,为它植入空间想象力
量子位· 2025-12-04 17:55
多模态大语言模型空间理解能力的挑战与突破 - 空间推理是多模态大语言模型在实际应用中的关键挑战 当前大多数方法采用“语言描述式调优” 导致模型出现“视觉文盲”现象 无法在生成回答时关注到正确的视觉区域[2] - 基线模型在回答具体问题时 其视觉注意力分散在无关区域 反映出当前模型在空间语义与视觉感知之间缺乏跨模态对齐[3] MILO隐式空间世界建模范式 - 研究团队提出MILO范式 通过引入视觉生成反馈 将符号推理与感知经验隐式结合 旨在为模型植入“空间想象力”[4] - MILO采用两阶段训练流程 在传统语言调优基础上引入视觉生成调优 模型接收几何变换指令并调用视频扩散模型生成新视角图像 从而学习空间变换的视觉表现[5] - 该方法使多模态大语言模型能够内化几何变换的视觉表现 建立起类人的隐式空间世界模型[6] RePE相对位置编码方案 - 团队提出RePE方案 这是一种基于相对相机位姿变换的位置编码方案[8] - 与传统的绝对坐标系编码不同 RePE捕捉相邻帧之间的相对变换 从而具备更好的泛化性与跨数据集适应性[9] GeoGen几何感知生成数据集 - 研究团队构建了GeoGen数据集 包含约2,241个视频和26.7万个“观测-动作-结果”三元组的大规模几何感知生成数据集[10] - 数据集涵盖新视角合成与轨迹生成两类核心任务 数据来源包括扫描的3D场景和互联网视频 确保了数据的多样性和真实性[10][11] MILO在多类任务上的验证效果 - 在3D场景理解任务上 MILO在ScanRefer、Multi3DRefer等多个基准上取得最优性能 在ScanRefer上Acc@0.25指标提升3.2%[14] - 在空间推理任务上 在VSI-Bench上平均准确率达61.7% 超越基线VG-LLM模型2.2%[14] - 在具身任务上 在RefSpatial-Bench的三个子集上全面领先 尤其在未见组合关系任务上提升1.3%[16]
腾讯广告算法大赛圆满结束,多位选手现场获得腾讯Offer意向书
搜狐财经· 2025-11-28 12:16
赛事概况 - 2025腾讯算法大赛决赛于11月26-27日在深圳腾讯全球总部成功举办,赛事历时5个多月,全球超过2800支队伍参与,最终20支队伍进入决赛 [1] - 冠军队伍“Echoch”成员来自华中科技大学、北京大学、中国科学技术大学,亚军“leejt”队和季军“也许明天”队成员分别来自中山大学和香港大学 [1] - 前三甲队伍均获得腾讯的offer意向书及奖金,大赛另设20万元人民币的技术创新奖授予中国科学院计算技术研究所的队伍 [1] 赛事规模与影响力 - 本届大赛吸引全球近30个国家超过8400人报名,海外报名人数创历史新高,赛事奖金池达360万元人民币 [5] - 公司副总裁表示,超过8000人的报名是一个强烈信号,表明AI正吸引新一代年轻人,并印证了公司在技术生态上的凝聚力 [3] - 大赛为中国数据规模最大的全模态生成式推荐算法大赛,提供腾讯直通offer机会及真实广告业务场景实战机会 [5] 技术焦点与创新 - 赛题为“全模态生成式推荐”,选手在比赛中主动应用并创新升级LLM(大语言模型)、MLLM(多模态大语言模型)及推荐前沿技术 [3] - 决赛方案在生成式模型结构、多模态embedding应用及算法工程codesign等方面体现创新和突破 [3] - 该技术能综合运用各种形式的数据(全模态),采用生成式算法推荐个性化广告,对提升广告精准度和优化用户体验具有重要探索价值 [5] 业务应用与战略方向 - “全模态生成式推荐”是广告AI的发展方向,有助于广告系统优化推荐效率,提升广告转化率 [5] - 公司Q3财报中首次亮相“腾讯广告AIM+”智能投放产品矩阵,支持广告主自动配置定向、出价、版位及优化广告创意 [6] - 腾讯广告妙系列AI产品正逐步形成“陪伴—策略—内容—执行—优化”的Business Agent联动生态,并在实际业务中持续探索生成式推荐技术 [6] 产学结合与生态建设 - 大赛决赛评委由全球知名高校学者、技术专家及腾讯技术专家组成,赛后赛题数据集将开源以促进产学技术交流 [3][5] - 公司希望通过比赛让学界、业界结合,助力AI人才浮现,让技术创新想法有机会落地于业务并呈现真正价值 [3] - 经过长期深耕,腾讯广告已基于坚实的AI技术底座形成智能化营销体系,为商家降本增效、提升转化效果 [5]
李飞飞长文火爆硅谷
投资界· 2025-11-14 16:01
文章核心观点 - 空间智能是人工智能发展的下一个前沿领域,将推动大语言模型实现下一次质的飞跃 [4][6] - 构建具备空间智能的“世界模型”是解锁AI在创造力、机器人、科学、医疗和教育等领域潜力的关键技术路径 [8][16][18] - 世界模型需具备生成性、多模态和交互性三大核心能力,其技术挑战远超以往,但应用前景将深刻重塑人类与物理及虚拟世界的交互方式 [4][18][21] 空间智能的定义与重要性 - 空间智能是人类认知的脚手架,支撑着从日常动作到科学发现等一系列与物理世界互动的基础能力 [11][14] - 当前AI(如多模态大语言模型)的空间能力远未接近人类水平,在估计距离、方向、大小及预测物理规律等任务上存在根本性局限 [14][15] - 缺乏空间智能导致AI与物理现实脱节,无法安全驾驶汽车、引导家庭与医院中的机器人,或创造全新的沉浸式学习与娱乐体验 [16] 世界模型的核心能力与技术挑战 - 生成性:模型需能生成遵守物理定律、空间一致的虚拟世界,并保持世界状态的连贯性 [4][18][19] - 多模态:模型需能处理从图像、视频、深度图到文本指令、手势、动作等多种形式的输入 [4][19][20] - 交互性:模型需能根据输入的动作或目标,预测并输出世界的下一个状态 [4][20] - 技术挑战规模超越以往,需克服在通用训练任务函数、大规模多模态训练数据以及新型模型架构与表征学习等方面的巨大壁垒 [21][22][23] 世界模型的应用潜力 - 创造力:赋能电影人、游戏设计师、建筑师等创作者快速构建、迭代和探索三维世界,变革叙事与沉浸体验 [26][28][29] - 机器人:通过生成高质量仿真数据,扩展机器人学习,实现具备空间感知能力的人机协作伙伴及多样化的具身形态 [30][31][32] - 科学、医疗与教育:在科学研究中模拟实验、在医疗领域加速药物研发与辅助诊断、在教育领域实现沉浸式学习,增强人类专长与发现能力 [33][34][35] 行业发展趋势与公司进展 - World Labs公司成立于2024年初,致力于世界模型的基础性突破,其开发的Marble平台是全球首个可通过多模态输入生成一致性3D环境的世界模型 [8][23][26] - 行业共识认为,下一代世界模型将使机器在空间智能上达到新层次,开启AI理解与创造世界的时代,需要整个AI生态系统的集体努力 [24][26][27]
破解多模态大模型“选择困难症”!内部决策机制首次揭秘:在冲突信息间疯狂"振荡"
量子位· 2025-11-14 13:38
研究核心观点 - 多模态大语言模型的模态跟随行为并非静态属性,而是由案例特定的相对推理不确定性和模型稳定的固有模态偏好共同作用的动态过程[1] - 传统的宏观模态跟随统计数据具有误导性,因其混淆了模型的能力和偏好[1] - 模型跟随某一模态的概率会随着该模态相对推理不确定性的增加而单调递减,这一法则在测试的六个模型中普遍存在[5][19] 研究团队与贡献 - 主要作者来自北京大学、华南理工大学、佐治亚大学、KAUST和MBZUAI等机构[3] - 核心贡献包括构建新的可控玩具数据集,以及提出将模态跟随行为解耦为相对推理不确定性和固有模态偏好的分析框架[4] 框架设计:可控数据集与不确定性度量 - 构建了可通过视觉难度和文本难度两个独立设计等级系统控制模态推理复杂性的数据集[9][10] - 采用输出熵作为以模型为中心的不确定性度量指标,熵值随设计难度增加而一致上升[11] - 引入相对单模态不确定性指标,通过(文本熵减视觉熵)除以(两者之和)并归一化来计算,量化模型在每个冲突案例中的置信度差距[12] 传统指标的局限性 - 使用传统宏观指标(如文本跟随率TFR和视觉跟随率VFR)测试6个MLLM时,发现了令人困惑的组合模式,暴露了宏观指标的局限性[14] - 相似的难度感知下,模型可能表现出相反的宏观偏好;而宏观偏好相似的模型,其难度感知可能相反,这共同指向传统指标混淆了数据集伪影和固有模态偏好[15][16] 实验新范式与主要发现 - 设计新实验范式,以相对不确定性为横轴,文本跟随概率为纵轴绘制偏好曲线,成功解耦能力与偏好[18] - 所有被测试模型都展现出文本跟随概率随文本相对不确定性增加而单调递减的统一法则[19][21] - 将曲线穿过50%概率线的点定义为平衡点,作为量化固有模态偏好的原则性指标[22] - 平衡点框架成功解释了宏观指标下的矛盾:LLaVA和Qwen2.5-VL的固有偏好不同,而Qwen2-VL和Qwen2.5-VL的差异揭示了数据集伪影的影响[23][24] 内部决策机制 - 当相对不确定性接近模型的平衡点时(模糊区域),模型内部的逐层预测会在冲突答案间表现出强烈的振荡,而在清晰区域则迅速确定答案[29][30][34] - 模糊区域内冲突输入的振荡次数显著高于清晰区域和无关冲突情况,为模型外部的犹豫不决行为提供了机制性解释[33][34]
破解多模态大模型“选择困难症”!内部决策机制首次揭秘:在冲突信息间疯狂"振荡"
量子位· 2025-11-14 10:04
多模态大语言模型模态跟随行为研究框架 - 提出全新分析框架将模态跟随行为分解为相对推理不确定性和固有模态偏好两个核心组成部分[4] - 框架旨在将模型单模态能力与内在偏见清晰解耦以解决传统宏观统计指标的混淆问题[4][16] - 核心论点是宏观模态跟随统计数据具有误导性因为它混淆了模型能力和偏好[1] 可控数据集与不确定性度量方法 - 构建新颖可控玩具数据集通过视觉难度和文本难度两个独立设计等级系统控制模态推理复杂性[9][10] - 采用输出熵作为以模型为中心的不确定性度量指标熵值随设计难度增加而一致上升[11][13] - 引入相对单模态不确定性指标量化模型在每个冲突案例中的置信度差距构成分析核心[12] 传统宏观指标的局限性 - 传统文本跟随率TFR和视觉跟随率VFR等宏观指标将模型单模态能力和固有偏好混为一谈[14][16] - 实验发现相似难度感知下模型宏观偏好相反以及相似宏观偏好下难度感知相反的矛盾现象[15] - 宏观指标无法区分数据集伪影和固有模态偏好导致无法看清模型决策的真正动机[15][16] 实验新范式与核心发现 - 设计新实验范式以相对不确定性为横轴文本跟随概率为纵轴绘制模型偏好动态曲线[18][19] - 所有被测模型均展现统一单调法则文本跟随概率随其相对不确定性增加而严格单调递减[19][21] - 定义平衡点作为量化固有模态偏好的原则性指标平衡点位置揭示模型内在稳定偏向[22][24] 内部决策机制分析 - 采用类似LogitLens技术逐层探查模型预测发现模糊区域内部存在显著答案振荡现象[29][34] - 模糊区域内冲突答案的置信度差异在多层中保持零附近表明模型处于高度不确定状态[34][36] - 内部振荡机制为模型在外部表现出的犹豫不决和平均化选择行为提供了解释[33][34] 框架解释力与验证 - 平衡点框架成功解释LLaVA和Qwen2.5-VL在相似难度感知下偏好相反的现象源于固有偏好差异[23] - 揭示Qwen2-VL和Qwen2.5-VL宏观偏好相似但难度感知相反的现象源于数据集伪影和固有偏好共同作用[24] - 该框架在本文构造数据集和现有MC^2数据集颜色识别子集上均验证了单调关系的稳健性[26][28]