视频推理
搜索文档
计算机行业周报:小红书Video-Thinker打破工具依赖,DeepSeek推出mHC-20260106
华鑫证券· 2026-01-06 20:34
报告行业投资评级 - 行业投资评级为“推荐(维持)” [1] 报告核心观点 - 报告认为AI应用板块维持高景气度,通用智能体作为下一代应用形态的战略价值凸显,维持对AI应用板块的长期看好态度 [6][57] - 报告通过分析近期产业动态(如小红书Video-Thinker、DeepSeek mHC架构、Kimi融资、Meta收购Manus)及市场数据,强调了AI技术在视频推理、模型架构效率、商业化落地及生态整合方面的快速进展 [3][4][5][6][57] 根据相关目录分别总结 1. 算力动态 - **算力租赁价格平稳**:上周(报告期内)算力租赁价格保持稳定,例如腾讯云A100-40G配置(16核+96G内存)价格为28.64元/小时,价格环比上周变化为0.00% [21][25] - **小红书推出Video-Thinker模型**:小红书研究团队推出全新视频推理模型Video-Thinker,其7B参数量版本在多个基准测试中刷新SOTA(State-of-the-Art)性能 [22] - **技术创新**:通过构建Video-Thinker-10K高质量数据集(整合六大主流数据集)和采用“监督微调(SFT)+组相对策略优化(GRPO)”的两阶段训练范式,将时序定位与视觉描述能力内化于思维链,打破行业对外部工具的依赖 [23][26] - **性能表现**:Video-Thinker-7B在域外评测中表现卓越,Video-Holmes榜单准确率达43.22%,VRBench综合基准准确率达80.69% [27][28] - **核心优势**:模型实现了端到端的自主视频思考,其内生能力在性能上超越外挂工具方案,例如在Video-Holmes基准上,比现有工具调用方法VideoMind-7B领先约4.2个百分点 [28][29] - **Tokens消耗跟踪**:2025年12月22日至28日,周度token调用量为5.57T,环比上周下降2.28% [16] - **市场份额**:Google以247B tokens占据23.2%的市场份额,位居首位;Anthropic以149B tokens占比14.1%,位列第二 [16] 2. AI应用动态 - **Character.AI周访问量环比增长8.32%**:在2025年12月25日至31日期间,Character.AI周平均访问量达46.62M,环比增长8.32%,平均停留时长为18分04秒,位居榜首 [30][31] - **DeepSeek推出流形约束超连接(mHC)架构**:DeepSeek于2026年1月1日发布全新架构mHC,旨在提升模型能力与效率 [3][31] - **技术原理**:mHC将超连接参数空间约束到特定流形(要求矩阵元素非负且行列和为1的双随机矩阵),以恢复恒等映射结构,有助于抑制梯度爆炸并保持训练稳定性 [32] - **效率与性能**:在27B参数模型上,mHC仅引入约6.7%的额外训练时间开销,即实现显著性能提升 [3] - **实验验证**:在27B模型的下游任务评估中,mHC模型在多个基准测试上持续超越基线模型,例如在BBH任务上准确率达51.0%(基线为43.8%),在DROP任务上F1值达53.9%(基线为47.0%) [38][40] 3. AI融资动向 - **Kimi完成35亿C轮融资**:2025年12月31日,月之暗面(Kimi)完成5亿美元(约35亿元人民币)C轮融资,投后估值达43亿美元,阿里、腾讯等投资方超额认购 [4][44] - **技术突破**:2025年推出的K2系列开源模型在核心基准测试中超越多款顶尖闭源模型,其KimiK2Thinking模型在HumanitysLastExam中取得44.9%的成绩 [45] - **商业化进展**:依托Agent功能产品矩阵,公司C端付费用户月环比增长超170%,海外API收入增长4倍,目前现金持有量超100亿元 [4][46] - **未来规划**:融资将重点用于K3模型研发与显卡扩增,目标使K3模型的等效FLOPs提升至少一个数量级,并聚焦Agent赛道实现营收量级增长 [4][47] - **Meta收购Manus**:Meta于2025年12月29日宣布以40亿—50亿美元收购通用型AI Agent产品Manus [5][48] - **产品优势**:Manus核心优势在于“直接交付任务结果”,上线8个月年度经常性收入(ARR)即突破1亿美元,年化运行率超1.25亿美元 [5][49] - **战略意义**:此次收购是Meta加速AI应用层布局、推进“超级智能”愿景的关键举措,旨在补齐其应用端执行能力短板,强化在复杂任务自动化赛道的优势 [5][6][57] - **收购细节**:Manus将保持独立运营,其创始人肖弘将出任Meta副总裁,负责通用AI智能体全球业务 [5][6] 4. 行情复盘 - **指数表现**:上周(2025.12.29-2026.1.02),AI应用指数日涨幅最大为0.99%,AI算力指数日涨幅最大为0.69% [51] - **个股涨跌**: - **AI算力指数内部**:南兴股份录得最大涨幅+21.61%,开普云录得最大跌幅-7.80% [51] - **AI应用指数内部**:蓝色光标录得最大涨幅+30.02%,亿纬锂能录得最大跌幅-8.41% [51] 5. 投资建议 - **维持看好AI应用板块**:报告基于Meta收购Manus等事件,认为此次收购印证了AI应用板块的高景气度,凸显通用智能体作为下一代应用形态的战略价值 [6][57] - **中长期关注公司**:报告建议关注四家公司 [7][58] - 迈信林(688685.SH):加快扩张算力业务的精密零部件龙头 - 唯科科技(301196.SZ):新能源业务高增并供货科尔摩根等全球电机巨头 - 合合信息(688615.SH):AI智能文字识别与商业大数据领域巨头 - 能科科技(603859.SH):深耕工业AI与软件并长期服务高端装备等领域头部客户
让模型自己找关键帧、视觉线索,小红书Video-Thinker破解视频推理困局
机器之心· 2026-01-02 11:12
核心观点 - 小红书研究团队提出了一种名为Video-Thinker的全新“Thinking with Videos”范式,旨在通过强化学习激发多模态大语言模型在视频推理中的内生智能,摆脱对外部工具的依赖 [2] - 该方法通过将“时序定位”与“视觉描述”能力内化在模型的思维链中,使模型能自主寻找关键帧并提取视觉线索,从而实现对视频内容的自主探索与理解 [2] - 实验表明,Video-Thinker-7B模型凭借极高的数据效率,在多个高难度视频推理榜单上显著超越现有基线,确立了7B量级模型的SOTA性能 [3] 方法:内生能力导向的“数据 - 训练”全链路设计 - **核心愿景与机制**:Video-Thinker旨在实现“能力内化”,通过构建高质量结构化数据(Video-Thinker-10K)和“监督微调+组相对策略优化”的两阶段训练范式,让模型学会在动态视频流中自主导航与思考 [10] - **高质量数据集构建**:团队整合六大主流数据集,通过“后见之明”自动化流水线,生产出兼具精准时序定位与详尽视觉描述的结构化推理数据,样本量达10K [13] - **监督微调阶段**:此阶段强制模型习得Video-Thinker独有的结构化思考范式,即“定位-感知-推理”的标准动作序列,有效抑制模型幻觉倾向 [16][18] - **强化学习阶段**:采用组相对策略优化激发模型内生潜能,通过并行采样多组推理轨迹并利用相对优势指导更新,使模型将机械的格式遵循升华为灵活的视频思维能力 [19] - **涌现的“顿悟时刻”**:经过强化学习训练,模型开始自发展现元认知特征,能对其初步生成的定位或描述进行自我质疑与修正,形成动态的内部反馈机制 [22] 评测:全面验证,7B模型刷新视频推理SOTA - **总体性能优势**:Video-Thinker-7B在域内和域外共11个评测数据集上全面领先,确立了7B参数量级模型的新SOTA [25][28] - **域外泛化能力突出**:在侦探推理类榜单Video-Holmes上准确率达**43.22%**,超越次优基线**4.68**个百分点;在综合性基准VRBench上准确率达**80.69%**,大幅领先最佳基线**11.44**个百分点 [29] - **训练阶段协同效应**:消融实验表明,仅监督微调无法实现强泛化,而随后的强化学习阶段是性能飞跃的关键,使模型在Video-Holmes上的性能提升了**11.70%**,在VRBench上提升了**18.29%** [29] - **推理帧数鲁棒性**:在16帧、32帧和64帧不同输入条件下,Video-Thinker-7B均持续优于对比基线,表明其具备更高效的时序信息整合机制 [30][31] - **内生能力定量验证**:在时序定位任务中,Video-Thinker-7B的平均交并比达**48.22%**,相比基础模型提升**75.5%**;在内容描述任务中,其整体描述质量相比基础模型提升**31.2%**,相比Video-R1提升**61.0%** [33][36] - **内生能力对比外部工具**:实验证明,将能力内化的Video-Thinker-7B表现远超简单外挂工具方案及现有的工具调用方法,在Video-Holmes上取得**43.22%**的最高分,显著优于VideoMind-7B的**38.98%** [34][35][37] 行业影响与未来展望 - Video-Thinker打破了“视频推理必须依赖外部工具”的固有认知,为视频推理领域提供了新范式 [38] - 其成功证明了视频推理能力并非依赖“大参数+大数据”的堆砌,而在于对核心内生能力的精准培养 [39] - 该技术路径有望加速AI在安防监控、智能教育、工业运维等领域的落地应用,赋能行业智能化升级 [39]
知名科技基金经理最新操作!
券商中国· 2025-10-29 07:33
基金经理金梓才三季度调仓分析 - 基金经理金梓才代表产品财通成长优选A类份额在三季度净值增长率高达90.4%,跑赢业绩基准超80个百分点 [2] - 其管理规模从46.18亿元增加到了65.25亿元 [5] - 基金大幅提高持股集中度,前十大重仓股占基金净值比从二季度末的83.2%提高到了91.6% [4] 持仓结构调整:减持光模块,增持PCB - 大幅减持此前重仓的新易盛、天孚通信等光模块龙头,其中天孚通信已被调出前十大重仓股 [2][3] - 大举加仓深南电路、生益科技、沪电股份等PCB产业链核心标的 [2][3] - 调仓后前五大重仓股分别为工业富联、深南电路、生益科技、沪电股份、中际旭创 [3] 调仓逻辑:认知差消除与供需矛盾 - 市场对光通信板块的认知差已逐渐消除,但一线光通信企业仍被认为具备显著投资价值 [3] - PCB产业及其上下游在2026年可能因供需结构性矛盾享受的价格上行将显著超出市场预期 [3] - 尽管对PCB行业竞争格局存在担心,但无需过度担忧海外客户供应链格局问题 [3] 对海外算力板块的持续看好 - 2025年三季度继续大幅超配海外算力板块,认为A股市场低估了该板块业绩增长的持续性和成长空间 [4][5] - 海外AI增长确定性比之前更高,增长斜率有所提升,预期2026年和2027年海外算力需求增长可能更快 [5] - 视频推理的加入将带动算力需求,目前算力需求增长可能仅是开始,推理端算力需求增长空间广阔 [5]
6大基准全面碾压!TW-GRPO刷新视频推理天花板,CLEVRER准确率突破50.4%!
机器人大讲堂· 2025-07-06 13:23
多模态大语言模型(MLLMs)与强化学习(RL)的融合 - 多模态大语言模型在视频推理等任务中快速进化,强化学习作为关键引擎显著提升模型推理能力 [1] - DeepSeek-R1通过纯RL优化实现推理能力质的飞跃,VideoR1引入T-GRPO增强视频时空逻辑拆解能力,VideoChat-R1通过多任务联合微调提升视频理解与多步推理表现 [1] - 当前RL优化面临思维链推理在多模态任务中效率低下、稀疏二元奖励信号忽略部分正确答案两大挑战 [1] TW-GRPO框架的创新设计 - TW-GRPO框架由多所高校联合提出,通过聚焦思维和密集奖励粒度增强视觉推理,解决传统GRPO的推理质量与奖励粒度问题 [2][7] - 动态加权机制通过分析token信息熵优先处理高信息密度内容,规避冗余干扰,提升推理精度与效率 [4] - 多层次奖励机制将单选题QA拓展为多选任务,结合视频定位IoU软奖励机制,对部分正确答案给予梯度反馈,改善训练稳定性 [5][9] - 问答反转(QAI)技术通过否定问题与反转答案扩充多选训练数据,解决数据稀缺问题 [6][9] TW-GRPO的性能表现 - 在CLEVRER、NExT-GQA和MMVU基准测试中,TW-GRPO分别以50.4%、76.1%和65.8%准确率超越Video-R1达18.8%、1.8%和1.6% [15][16] - 通用视频理解任务中,TW-GRPO在MVBench和TempCompass基准分别保持63.3%和73.3%的领先准确率,较基线模型最高提升0.4% [16] - 训练动态显示TW-GRPO奖励标准差收敛更快,输出序列长度缩短17%-23%,验证其推理简洁性与稳定性 [17][18][20] 技术实现细节 - Token重要性加权采用KL散度量化分布差异,通过最小-最大归一化与超参数α控制权重缩放,实现位置敏感优化 [8] - 多选软奖励设计借鉴视频定位IoU机制,依据预测与真实答案重叠度赋予分数,显著降低奖励波动 [9][10] - 实验基于Qwen2.5-VL-7B模型,使用NVIDIA H800 GPU处理128×28×28分辨率视频帧,推理时提升至256×28×28 [12] 定性分析案例 - 在MMVU密度估计任务中,TW-GRPO精准提取视频关键数值并正确应用阿基米德原理,而T-GRPO因错误假设体积导致计算结果偏差 [19][21][22] - 对比显示TW-GRPO在因果推理、定量推理和动态视觉线索处理方面具有显著优势 [22][24]
视频推理界的“福尔摩斯测试”:所有大模型,统统不及格 | 论文代码开源
量子位· 2025-05-29 15:19
视频推理新基准Video-Holmes - 腾讯ARC Lab与香港城市大学联合推出Video-Holmes基准测试,专为评估多模态大模型在复杂视频推理能力而设计,通过"推理杀人凶手"等高难度任务挑战模型极限 [1] - 该基准规避了现有测试中视频源和问题过于简单的痛点,要求模型主动关联分散在多段视频中的线索进行逻辑推理,例如需发现"过度使用超能力"这一非常规死因 [1][2] - 测试包含7类高推理要求的单选题:社会推理(SR)、意图与动机链(IMC)、时间因果推理(TCI)、时间线分析(TA)、多模态提示推理(MHR)、物理异常推理(PAR)、核心主题推理(CTI) [5][12] 大模型测试表现 - 参测20个主流大模型全部不及格,Gemini-2.5-Pro以平均分51.3位列第一,GPT-4以42分排名第六,Qwen2.5-Omni-7B以16.4分垫底 [6] - 细分领域表现最佳单项为Gemini-1.5-Pro的社会推理(SR)59.6分,最弱项为InternVL2.5-8B的时间线分析(TA)仅7.6分 [6] - 基准验证了推理模型与非推理版本的性能差距:Gemini-2.0-Thinking比Gemini-2.0提升12个点,SEED-Bench-R1比Qwen2.5-VL-7B高5个点 [18] 基准设计方法论 - 数据集包含270部1-5分钟人工标注的"推理短电影",问题由DeepSeek生成并评估,强制模型串联分散线索推导真相 [9][10] - 问题设计突破传统显式提示模式,模拟人类主动搜索整合多线索的复杂推理过程,例如需正确解析"小丑与David实为陌生人"而非敌对关系 [8][16] - 现有模型主要缺陷集中在线索串联能力不足(推理能力欠缺)和关键视觉信息遗漏,尽管多数能正确感知基础视觉信息 [18] 技术实现与开源 - 提供完整开源方案包括标注数据、构建代码、测试流程及论文,支持GitHub/HuggingFace一键下载评估 [19][21] - 评估工具链支持QwenVL/InternVL/Gemini等主流模型,允许通过prepare_your_model和generate_your_model函数定制模型 [19] - 提供推理过程分析工具,需调用DeepSeek API密钥运行evaluate_reasoning.py脚本,支持生成带注释视频的问题集 [20]