视频推理 - 财报，业绩电话会，研报，新闻

视频推理

搜索文档

36氪· 2026-01-29 17:29

核心观点 - 阿里巴巴未来生活实验室的研究团队发现，在视频推理任务中，简单地套用文本思维链（如“一步一步思考”）会因模型产生“脑补”和幻觉而导致效果不佳，甚至不如“直接回答”[1] - 团队认为，模型“思考”的效果取决于是否教会它“如何思考”，并为此提出了一套完整的解决方案，包括高质量数据集ReWatch和SOTA模型ReWatch-R1，论文已中稿ICLR 2026[1] 数据集ReWatch - 为解决现有训练数据视频描述粗糙、问答过于简单、思维链严重依赖文本常识而非视频内容三大痛点，团队构建了包含1万视频、17万问答对和13.5万思维链的ReWatch数据集[2] - 数据集具备三大核心优势：1) 高保真时序字幕，为长视频生成带精确时间戳的详细事件描述；2) 高难度视频问答，确保问题必须依赖视频细节解答；3) 视频接地的思维链，通过多智能体ReAct框架生成与视频内容紧密绑定的推理轨迹[2] - 整个数据集的构建过程包含分层字幕生成、高难度问答对生成以及多智能体思维链合成三个阶段，确保了数据的高质量和高难度[4] 模型ReWatch-R1 - 研究团队采用SFT+RL的范式训练模型，并通过一个创新的奖励机制让模型掌握思考的精髓，其核心是带过程奖励的强化学习[6] - 过程奖励具体拆解为观察奖励和推理奖励：观察奖励评估模型生成的“观察”是否与高保真字幕相符；推理奖励评估模型仅凭其生成的“观察”信息能否推导出正确答案[8] - 该方法使模型不仅学会得出正确答案，更学会了如何通过真实、有效的步骤进行思考，基于证据链进行推理[8] 实验结果与洞察 - 实验结果表明，ReWatch-R1在五个主流视频推理基准上，平均性能显著超越了所有同量级的开源模型，取得了SOTA的成绩[9] - 关键洞察发现，在监督微调阶段，“思考模式”性能无法超越“直接回答”模式，说明SFT只能教会模型思考的“形”；而经过强化学习阶段后，“思考模式”性能实现惊人飞跃，最终大幅超越“直接回答”模式[11] - 这证明了显式的、一步步的、有证据支撑的推理过程对解决复杂视频任务至关重要，而强化学习是激发这种能力的关键[11] 总结与贡献 - 该工作通过创新的“智能体合成数据”方法，解决了高质量视频推理数据稀缺的核心瓶颈[13] - 通过“过程奖励”强化学习，成功教会了模型如何基于视频证据进行“深度思考”，而不是空想[13] - 研究表明，让模型学会“如何思考”是通往更高阶视频智能的关键一步[13]

阿里巴巴(US:BABA)

视频推理

强化学习

Artificial Intelligence

Artificial Intelligence

ReWatch

ReWatch-R1

大模型学会拖进度条看视频了！阿里新研究让视频推理告别脑补，实现证据链思考 | ICLR 2026

量子位· 2026-01-29 16:27

文章核心观点 - 阿里巴巴未来生活实验室的研究团队指出，在视频推理任务中，简单地套用文本思维链（如“Let's think step by step”）效果不佳，甚至可能不如直接回答，其根本原因在于视频推理需要模型在视觉内容与文本逻辑之间反复穿梭验证，而纯文本思维链易导致模型产生“脑补”和幻觉 [1] - 研究团队提出，模型“思考”的效果取决于是否教会它“如何思考”，并为此推出了一套完整解决方案，包括高质量视频推理数据集ReWatch和能够像人类一样“回看”视频进行思考的SOTA模型ReWatch-R1 [1] 高质量视频推理数据集ReWatch - 为解决现有训练数据的三大痛点（视频描述粗糙、问答过于简单、思维链严重依赖文本常识而非视频内容），研究团队构建了ReWatch数据集，包含1万视频、17万问答对和13.5万思维链 [2] - 数据集具备三大核心优势：1) 高保真时序字幕（ReWatch-Caption），采用分层字幕生成方法为长视频生成带精确时间戳的详细事件描述；2) 高难度视频问答（ReWatch-QA），通过“摘要vs精读”对比生成策略和三层过滤机制，确保问题必须依赖视频细节解答；3) 视频接地的思维链（ReWatch-CoT），首创多智能体ReAct框架，模拟人类“回看、确认”行为，生成每一步都与视频内容紧密绑定的推理轨迹 [2] - 整个数据集的构建过程包含三个阶段：分层字幕生成、高难度问答对生成以及多智能体思维链合成，确保了数据的高质量和高难度 [4] 模型训练方法论：ReWatch-R1 - 研究团队采用SFT+RL的训练范式，并通过一个创新的奖励机制（带过程奖励的强化学习，GRPO with O&R Reward）来教会模型思考的精髓，该机制不再仅仅奖励“答对与否”，而是直接监督和奖励模型的中间推理过程，以有效抑制推理幻觉 [6] - 过程奖励（O&R Reward）的计算分为两部分：1) 观察奖励（Observation Reward），通过比对模型生成的观察结果与数据集中的高保真字幕，评估其真实性；2) 推理奖励（Reasoning Reward），评估模型推理中产生的“观察”结果能否作为唯一信息源推导出正确答案，以判断推理动作是否充分高效 [8] - 通过这种过程导向的奖励机制，模型学会了如何通过真实、有效的步骤进行思考，基于证据链进行推理 [8] 实验结果与关键洞察 - 实验结果表明，ReWatch-R1在五个主流视频推理基准上，平均性能显著超越了所有同量级的开源模型，取得了SOTA的成绩 [9] - 一个关键发现是：在监督微调（SFT）阶段，“思考模式”的性能始终无法超越“直接回答”模式，说明SFT只能教会模型思考的“形”；然而，经过RL阶段的训练后，“思考模式”的性能实现了惊人飞跃，最终大幅超越了“直接回答”模式，展现出最高的性能上限 [12] - 这证明了显式的、一步步的、有证据支撑的推理过程对于解决复杂视频任务至关重要，而强化学习是激发这种能力的关键 [12] 研究总结与贡献 - ReWatch-R1的工作为视频理解领域贡献了宝贵的思路和资源，通过创新的“智能体合成数据”方法解决了高质量视频推理数据稀缺的核心瓶颈，并通过“过程奖励”强化学习教会了模型如何基于视频证据进行“深度思考” [14] - 这项研究表明，让模型学会“如何思考”是通往更高阶视频智能的关键一步 [14]

视频推理

多模态大模型

强化学习

Artificial Intelligence

Artificial Intelligence

ReWatch数据集

ReWatch-R1模型

计算机行业周报：小红书Video-Thinker打破工具依赖，DeepSeek推出mHC-20260106

华鑫证券· 2026-01-06 20:34

报告行业投资评级 - 行业投资评级为“推荐(维持)” [1] 报告核心观点 - 报告认为AI应用板块维持高景气度，通用智能体作为下一代应用形态的战略价值凸显，维持对AI应用板块的长期看好态度 [6][57] - 报告通过分析近期产业动态（如小红书Video-Thinker、DeepSeek mHC架构、Kimi融资、Meta收购Manus）及市场数据，强调了AI技术在视频推理、模型架构效率、商业化落地及生态整合方面的快速进展 [3][4][5][6][57] 根据相关目录分别总结 1. 算力动态 - **算力租赁价格平稳**：上周（报告期内）算力租赁价格保持稳定，例如腾讯云A100-40G配置（16核+96G内存）价格为28.64元/小时，价格环比上周变化为0.00% [21][25] - **小红书推出Video-Thinker模型**：小红书研究团队推出全新视频推理模型Video-Thinker，其7B参数量版本在多个基准测试中刷新SOTA（State-of-the-Art）性能 [22] - **技术创新**：通过构建Video-Thinker-10K高质量数据集（整合六大主流数据集）和采用“监督微调（SFT）+组相对策略优化（GRPO）”的两阶段训练范式，将时序定位与视觉描述能力内化于思维链，打破行业对外部工具的依赖 [23][26] - **性能表现**：Video-Thinker-7B在域外评测中表现卓越，Video-Holmes榜单准确率达43.22%，VRBench综合基准准确率达80.69% [27][28] - **核心优势**：模型实现了端到端的自主视频思考，其内生能力在性能上超越外挂工具方案，例如在Video-Holmes基准上，比现有工具调用方法VideoMind-7B领先约4.2个百分点 [28][29] - **Tokens消耗跟踪**：2025年12月22日至28日，周度token调用量为5.57T，环比上周下降2.28% [16] - **市场份额**：Google以247B tokens占据23.2%的市场份额，位居首位；Anthropic以149B tokens占比14.1%，位列第二 [16] 2. AI应用动态 - **Character.AI周访问量环比增长8.32%**：在2025年12月25日至31日期间，Character.AI周平均访问量达46.62M，环比增长8.32%，平均停留时长为18分04秒，位居榜首 [30][31] - **DeepSeek推出流形约束超连接（mHC）架构**：DeepSeek于2026年1月1日发布全新架构mHC，旨在提升模型能力与效率 [3][31] - **技术原理**：mHC将超连接参数空间约束到特定流形（要求矩阵元素非负且行列和为1的双随机矩阵），以恢复恒等映射结构，有助于抑制梯度爆炸并保持训练稳定性 [32] - **效率与性能**：在27B参数模型上，mHC仅引入约6.7%的额外训练时间开销，即实现显著性能提升 [3] - **实验验证**：在27B模型的下游任务评估中，mHC模型在多个基准测试上持续超越基线模型，例如在BBH任务上准确率达51.0%（基线为43.8%），在DROP任务上F1值达53.9%（基线为47.0%） [38][40] 3. AI融资动向 - **Kimi完成35亿C轮融资**：2025年12月31日，月之暗面（Kimi）完成5亿美元（约35亿元人民币）C轮融资，投后估值达43亿美元，阿里、腾讯等投资方超额认购 [4][44] - **技术突破**：2025年推出的K2系列开源模型在核心基准测试中超越多款顶尖闭源模型，其KimiK2Thinking模型在HumanitysLastExam中取得44.9%的成绩 [45] - **商业化进展**：依托Agent功能产品矩阵，公司C端付费用户月环比增长超170%，海外API收入增长4倍，目前现金持有量超100亿元 [4][46] - **未来规划**：融资将重点用于K3模型研发与显卡扩增，目标使K3模型的等效FLOPs提升至少一个数量级，并聚焦Agent赛道实现营收量级增长 [4][47] - **Meta收购Manus**：Meta于2025年12月29日宣布以40亿—50亿美元收购通用型AI Agent产品Manus [5][48] - **产品优势**：Manus核心优势在于“直接交付任务结果”，上线8个月年度经常性收入（ARR）即突破1亿美元，年化运行率超1.25亿美元 [5][49] - **战略意义**：此次收购是Meta加速AI应用层布局、推进“超级智能”愿景的关键举措，旨在补齐其应用端执行能力短板，强化在复杂任务自动化赛道的优势 [5][6][57] - **收购细节**：Manus将保持独立运营，其创始人肖弘将出任Meta副总裁，负责通用AI智能体全球业务 [5][6] 4. 行情复盘 - **指数表现**：上周（2025.12.29-2026.1.02），AI应用指数日涨幅最大为0.99%，AI算力指数日涨幅最大为0.69% [51] - **个股涨跌**： - **AI算力指数内部**：南兴股份录得最大涨幅+21.61%，开普云录得最大跌幅-7.80% [51] - **AI应用指数内部**：蓝色光标录得最大涨幅+30.02%，亿纬锂能录得最大跌幅-8.41% [51] 5. 投资建议 - **维持看好AI应用板块**：报告基于Meta收购Manus等事件，认为此次收购印证了AI应用板块的高景气度，凸显通用智能体作为下一代应用形态的战略价值 [6][57] - **中长期关注公司**：报告建议关注四家公司 [7][58] - 迈信林（688685.SH）：加快扩张算力业务的精密零部件龙头 - 唯科科技（301196.SZ）：新能源业务高增并供货科尔摩根等全球电机巨头 - 合合信息（688615.SH）：AI智能文字识别与商业大数据领域巨头 - 能科科技（603859.SH）：深耕工业AI与软件并长期服务高端装备等领域头部客户

让模型自己找关键帧、视觉线索，小红书Video-Thinker破解视频推理困局

机器之心· 2026-01-02 11:12

核心观点 - 小红书研究团队提出了一种名为Video-Thinker的全新“Thinking with Videos”范式，旨在通过强化学习激发多模态大语言模型在视频推理中的内生智能，摆脱对外部工具的依赖 [2] - 该方法通过将“时序定位”与“视觉描述”能力内化在模型的思维链中，使模型能自主寻找关键帧并提取视觉线索，从而实现对视频内容的自主探索与理解 [2] - 实验表明，Video-Thinker-7B模型凭借极高的数据效率，在多个高难度视频推理榜单上显著超越现有基线，确立了7B量级模型的SOTA性能 [3] 方法：内生能力导向的“数据 - 训练”全链路设计 - **核心愿景与机制**：Video-Thinker旨在实现“能力内化”，通过构建高质量结构化数据（Video-Thinker-10K）和“监督微调+组相对策略优化”的两阶段训练范式，让模型学会在动态视频流中自主导航与思考 [10] - **高质量数据集构建**：团队整合六大主流数据集，通过“后见之明”自动化流水线，生产出兼具精准时序定位与详尽视觉描述的结构化推理数据，样本量达10K [13] - **监督微调阶段**：此阶段强制模型习得Video-Thinker独有的结构化思考范式，即“定位-感知-推理”的标准动作序列，有效抑制模型幻觉倾向 [16][18] - **强化学习阶段**：采用组相对策略优化激发模型内生潜能，通过并行采样多组推理轨迹并利用相对优势指导更新，使模型将机械的格式遵循升华为灵活的视频思维能力 [19] - **涌现的“顿悟时刻”**：经过强化学习训练，模型开始自发展现元认知特征，能对其初步生成的定位或描述进行自我质疑与修正，形成动态的内部反馈机制 [22] 评测：全面验证，7B模型刷新视频推理SOTA - **总体性能优势**：Video-Thinker-7B在域内和域外共11个评测数据集上全面领先，确立了7B参数量级模型的新SOTA [25][28] - **域外泛化能力突出**：在侦探推理类榜单Video-Holmes上准确率达**43.22%**，超越次优基线**4.68**个百分点；在综合性基准VRBench上准确率达**80.69%**，大幅领先最佳基线**11.44**个百分点 [29] - **训练阶段协同效应**：消融实验表明，仅监督微调无法实现强泛化，而随后的强化学习阶段是性能飞跃的关键，使模型在Video-Holmes上的性能提升了**11.70%**，在VRBench上提升了**18.29%** [29] - **推理帧数鲁棒性**：在16帧、32帧和64帧不同输入条件下，Video-Thinker-7B均持续优于对比基线，表明其具备更高效的时序信息整合机制 [30][31] - **内生能力定量验证**：在时序定位任务中，Video-Thinker-7B的平均交并比达**48.22%**，相比基础模型提升**75.5%**；在内容描述任务中，其整体描述质量相比基础模型提升**31.2%**，相比Video-R1提升**61.0%** [33][36] - **内生能力对比外部工具**：实验证明，将能力内化的Video-Thinker-7B表现远超简单外挂工具方案及现有的工具调用方法，在Video-Holmes上取得**43.22%**的最高分，显著优于VideoMind-7B的**38.98%** [34][35][37] 行业影响与未来展望 - Video-Thinker打破了“视频推理必须依赖外部工具”的固有认知，为视频推理领域提供了新范式 [38] - 其成功证明了视频推理能力并非依赖“大参数+大数据”的堆砌，而在于对核心内生能力的精准培养 [39] - 该技术路径有望加速AI在安防监控、智能教育、工业运维等领域的落地应用，赋能行业智能化升级 [39]

券商中国· 2025-10-29 07:33

基金经理金梓才三季度调仓分析 - 基金经理金梓才代表产品财通成长优选A类份额在三季度净值增长率高达90.4%，跑赢业绩基准超80个百分点 [2] - 其管理规模从46.18亿元增加到了65.25亿元 [5] - 基金大幅提高持股集中度，前十大重仓股占基金净值比从二季度末的83.2%提高到了91.6% [4] 持仓结构调整：减持光模块，增持PCB - 大幅减持此前重仓的新易盛、天孚通信等光模块龙头，其中天孚通信已被调出前十大重仓股 [2][3] - 大举加仓深南电路、生益科技、沪电股份等PCB产业链核心标的 [2][3] - 调仓后前五大重仓股分别为工业富联、深南电路、生益科技、沪电股份、中际旭创 [3] 调仓逻辑：认知差消除与供需矛盾 - 市场对光通信板块的认知差已逐渐消除，但一线光通信企业仍被认为具备显著投资价值 [3] - PCB产业及其上下游在2026年可能因供需结构性矛盾享受的价格上行将显著超出市场预期 [3] - 尽管对PCB行业竞争格局存在担心，但无需过度担忧海外客户供应链格局问题 [3] 对海外算力板块的持续看好 - 2025年三季度继续大幅超配海外算力板块，认为A股市场低估了该板块业绩增长的持续性和成长空间 [4][5] - 海外AI增长确定性比之前更高，增长斜率有所提升，预期2026年和2027年海外算力需求增长可能更快 [5] - 视频推理的加入将带动算力需求，目前算力需求增长可能仅是开始，推理端算力需求增长空间广阔 [5]

6大基准全面碾压！TW-GRPO刷新视频推理天花板，CLEVRER准确率突破50.4%！

机器人大讲堂· 2025-07-06 13:23

多模态大语言模型（MLLMs）与强化学习（RL）的融合 - 多模态大语言模型在视频推理等任务中快速进化，强化学习作为关键引擎显著提升模型推理能力 [1] - DeepSeek-R1通过纯RL优化实现推理能力质的飞跃，VideoR1引入T-GRPO增强视频时空逻辑拆解能力，VideoChat-R1通过多任务联合微调提升视频理解与多步推理表现 [1] - 当前RL优化面临思维链推理在多模态任务中效率低下、稀疏二元奖励信号忽略部分正确答案两大挑战 [1] TW-GRPO框架的创新设计 - TW-GRPO框架由多所高校联合提出，通过聚焦思维和密集奖励粒度增强视觉推理，解决传统GRPO的推理质量与奖励粒度问题 [2][7] - 动态加权机制通过分析token信息熵优先处理高信息密度内容，规避冗余干扰，提升推理精度与效率 [4] - 多层次奖励机制将单选题QA拓展为多选任务，结合视频定位IoU软奖励机制，对部分正确答案给予梯度反馈，改善训练稳定性 [5][9] - 问答反转（QAI）技术通过否定问题与反转答案扩充多选训练数据，解决数据稀缺问题 [6][9] TW-GRPO的性能表现 - 在CLEVRER、NExT-GQA和MMVU基准测试中，TW-GRPO分别以50.4%、76.1%和65.8%准确率超越Video-R1达18.8%、1.8%和1.6% [15][16] - 通用视频理解任务中，TW-GRPO在MVBench和TempCompass基准分别保持63.3%和73.3%的领先准确率，较基线模型最高提升0.4% [16] - 训练动态显示TW-GRPO奖励标准差收敛更快，输出序列长度缩短17%-23%，验证其推理简洁性与稳定性 [17][18][20] 技术实现细节 - Token重要性加权采用KL散度量化分布差异，通过最小-最大归一化与超参数α控制权重缩放，实现位置敏感优化 [8] - 多选软奖励设计借鉴视频定位IoU机制，依据预测与真实答案重叠度赋予分数，显著降低奖励波动 [9][10] - 实验基于Qwen2.5-VL-7B模型，使用NVIDIA H800 GPU处理128×28×28分辨率视频帧，推理时提升至256×28×28 [12] 定性分析案例 - 在MMVU密度估计任务中，TW-GRPO精准提取视频关键数值并正确应用阿基米德原理，而T-GRPO因错误假设体积导致计算结果偏差 [19][21][22] - 对比显示TW-GRPO在因果推理、定量推理和动态视觉线索处理方面具有显著优势 [22][24]

视频推理界的“福尔摩斯测试”：所有大模型，统统不及格 | 论文代码开源

量子位· 2025-05-29 15:19

视频推理新基准Video-Holmes - 腾讯ARC Lab与香港城市大学联合推出Video-Holmes基准测试，专为评估多模态大模型在复杂视频推理能力而设计，通过"推理杀人凶手"等高难度任务挑战模型极限 [1] - 该基准规避了现有测试中视频源和问题过于简单的痛点，要求模型主动关联分散在多段视频中的线索进行逻辑推理，例如需发现"过度使用超能力"这一非常规死因 [1][2] - 测试包含7类高推理要求的单选题：社会推理(SR)、意图与动机链(IMC)、时间因果推理(TCI)、时间线分析(TA)、多模态提示推理(MHR)、物理异常推理(PAR)、核心主题推理(CTI) [5][12] 大模型测试表现 - 参测20个主流大模型全部不及格，Gemini-2.5-Pro以平均分51.3位列第一，GPT-4以42分排名第六，Qwen2.5-Omni-7B以16.4分垫底 [6] - 细分领域表现最佳单项为Gemini-1.5-Pro的社会推理(SR)59.6分，最弱项为InternVL2.5-8B的时间线分析(TA)仅7.6分 [6] - 基准验证了推理模型与非推理版本的性能差距：Gemini-2.0-Thinking比Gemini-2.0提升12个点，SEED-Bench-R1比Qwen2.5-VL-7B高5个点 [18] 基准设计方法论 - 数据集包含270部1-5分钟人工标注的"推理短电影"，问题由DeepSeek生成并评估，强制模型串联分散线索推导真相 [9][10] - 问题设计突破传统显式提示模式，模拟人类主动搜索整合多线索的复杂推理过程，例如需正确解析"小丑与David实为陌生人"而非敌对关系 [8][16] - 现有模型主要缺陷集中在线索串联能力不足（推理能力欠缺）和关键视觉信息遗漏，尽管多数能正确感知基础视觉信息 [18] 技术实现与开源 - 提供完整开源方案包括标注数据、构建代码、测试流程及论文，支持GitHub/HuggingFace一键下载评估 [19][21] - 评估工具链支持QwenVL/InternVL/Gemini等主流模型，允许通过prepare_your_model和generate_your_model函数定制模型 [19] - 提供推理过程分析工具，需调用DeepSeek API密钥运行evaluate_reasoning.py脚本，支持生成带注释视频的问题集 [20]