Workflow
长视频
icon
搜索文档
2025中国家庭智慧大屏发展报告发布,酷喵月活1.48亿行业第一
财经网· 2025-07-08 21:52
7月8日,互娱数字科技发布《2025中国智慧大屏发展报告》。报告显示,在智能大屏端,酷喵凭借优质的内容和精 细化运营排播,2024年月活用户达1.48亿,超越银河奇异果成为行业第一,银河奇异果、云视听极光和芒果TV分列 第二、第三和第四位。 | >酷喵TV | 排名 | 平台名称 | 月均活跃终端数_万台 | | --- | --- | --- | --- | | | 1 | CIBN酷喵 | 14,861 | | | 2 | 银河奇异果 | 14.357 | | C | 3 | 云视听极光 | 12,032 | | | 4 | 芒果TV | 6,799 | | | 5 | 云视听小电视 | 4,668 | | | 6 | 华数鲜时光 | 2,989 | | | 7 | 云视听快TV | 576 | | | 8 | 央视频TV | 367 | 互娱数字数据显示,截至2024年底,我国智能电视累计激活3.9亿台,同比增长2.6%,覆盖约10.2亿人,与短视频用 户同期规模相当。长视频平台在智能大屏端市场格局稳定,酷喵、银河奇异果、云视听极光的月活均在亿级,其中 酷喵月活用户达1.48亿,成为行业第一。 内容领域 ...
分钟级长视频生成!地平线Epona:自回归扩散式的端到端自动驾驶世界模型(ICCV'25)
自动驾驶之心· 2025-07-07 20:17
写在前面 & 笔者的个人理解 扩散模型在自动驾驶场景视频生成中已经展现出比较有前景的视觉生成质量。然而,现有的基于视频扩散的世界模型在灵活长度、长时序预测以及轨迹规划方面 仍存在不足。这是因为传统视频扩散模型依赖于对固定长度帧序列的全局联合分布建模,而非逐步构建每个时间下的局部化分布。本研究提出 Epona ,一种自回 归扩散世界模型,通过两项关键创新实现局部时空分布建模:1) 解耦的时空分解 ,将时间动态建模与细粒度未来世界生成分离;2) 模块化的轨迹与视频预测 ,通过端到端框架无缝整合运动规划与视觉建模。本文的架构通过引入一种新的"链式前向训练策略"(chain-of-forward training strategy),在实现高分辨率、长持 续时间生成的同时解决了自回归循环中的误差累积问题。实验结果表明,与现有方法相比,Epona在FVD指标上提升7.4%,预测时长可达数分钟。该世界模型进一 步可作为实时端到端规划器,在NAVSIM基准测试中优于现有端到端规划器。 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今天自动驾驶之心为大家分享 地平线联合 ...
ICML 2025 Oral工作再升级!上海AI Lab联合复旦、港中文推出支持更长视频理解的最佳工具VideoRoPE++
机器之心· 2025-07-03 11:26
背景介绍 - 旋转位置编码(RoPE)及其变体在长上下文处理中广泛应用,但扩展到具有复杂时空结构的视频领域仍存在挑战[3] - VideoRoPE++通过全面分析确定了将RoPE有效应用于视频所需的五个关键特性,这些特性在先前工作中未被充分考虑[4] - 构建了全新评测基准V-RULER,其中子任务"带干扰项的大海捞针"显示当前RoPE变体在缺乏合理时间维度建模策略时容易被周期性干扰项误导[5] VideoRoPE++设计特点 - 采用三维结构保留时空关系,包括低频时间分配减轻周期性碰撞、对角布局保持空间对称性、可调整时间间隔解耦时间和空间索引[6] - 提出外推方案YaRN-V,仅在低频时间轴插值并保持空间维度稳定性,实现长视频场景下的结构一致性与外推鲁棒性[7] - 通过低频时间分配(LTA)减少振荡确保鲁棒性,对角布局(DL)保持空间对称性,可调时间间隔(ATS)控制时间间隔[15] 技术对比与优势 - 原始1D RoPE未包含空间建模,M-RoPE采用3D结构但引入不同帧间视觉标记索引差异,VideoRoPE++实现平衡并保留原始RoPE一致的索引增长模式[23] - 在视频理解任务中,空间信息具有局部性和周期性,时间信息跨越更长范围,YaRN-V通过仅沿时间维度频率插值解决这一不对称性[26] - 与M-RoPE相比,VideoRoPE++在检索中更具鲁棒性且不易受干扰项影响[9] 实验结果 长视频检索 - VideoRoPE++在V-RULER上始终优于其他RoPE变体,Vanilla RoPE和TAD-RoPE在视觉训练上下文外具备一定外推能力但超出极限后失效[28] 长视频理解 - 在LongVideoBench、MLVU和Video-MME基准上,VideoRoPE++(Qwen2基座)在64k上下文长度下分别比M-RoPE提高2.91、4.46和1.66分[30] - 性能对比表格显示VideoRoPE++在不同上下文长度和基座模型上均优于基线方法[31] 外推任务 - 在V-RULER基准的Lengthy Multimodal Stack任务上,YaRN-V以81.33分显著领先,较最强基线YaRN提升13.0分[32] - YaRN-V能更好支撑视频大模型在长输入场景下的时间对齐,避免位置溢出带来的性能衰退[33] 总结 - 确定了有效位置编码的四个关键标准:2D/3D结构、频率分配、空间对称性和时间索引缩放[34] - VideoRoPE++在长视频检索、视频理解和视频幻觉任务中优于其他RoPE变体[34]
长视频广告没那么差:《临江仙》卖爆了丨消费参考
21世纪经济报道· 2025-07-01 09:37
长视频行业 - 欢娱影视仙侠剧《临江仙》累计有效播放量破8亿 首周单集广告位达6个 总时长952秒 集均29.75秒 广告主涵盖食品、美妆、个护等多元品类并创下平台全年品牌数第一纪录 [1] - 《临江仙》主题收藏卡上线24小时销售破百万 单日参与用户创新高 同期《长安的荔枝》招商品牌超30家 包括天猫、五粮春等头部品牌 [1][2] - 行业对比显示2025Q1爱奇艺广告收入同比下滑10.4%至13.3亿元 芒果超媒2024年广告收入同比降2.7%至34.38亿元 但优质内容仍具商业潜力 [2] 消费与零售 - 幸运咖全国门店突破6000家 覆盖300城 华中超百家门店日营业额破万元 部分门店5月营业额达30万元 [16] - 京东七鲜加速华北布局 天津新增商场店 北京、石家庄将落地新店 计划开设数十家卫星小店 [19] - Iceland Lab中国首店在京试运营 由首旅慧科与英国Iceland联合打造 [21] 食品饮料 - if椰子水母公司IFBH港股上市首日涨42.09% 市值105.3亿港元 发行价27.8港元/股 [11] - 均瑶味动力推益生菌果味饮品 卡士上新"吃酸"发酵乳系列 承德露露推出玻璃瓶装杏仁露 [13][14][15] - 新乳业控股股东UDL计划减持3%股份 其中1%通过集中竞价减持 [12] 文娱与影视 - 《哪吒2》总票房154.45亿元 观影人次3.24亿 打破113项纪录 [25] - 中影在无锡成立电影制片公司 经营范围涵盖影视制作发行 [26][27] - 泡泡玛特入选《时代》全球百大影响力企业 为首家登榜中国潮玩公司 [28] 旅游与物流 - 全国铁路暑运预计发送旅客9.53亿人次 日均1537万 新线投入运营 [24] - 滴滴与亚朵达成会员体系互通合作 东航物流拟续签货运协议至2028年 [22][23]
2025过半,“爱优腾”没有赢家?
36氪· 2025-06-12 18:06
2025年过半,上半年,"爱优腾"三家在有效播剧上各有千秋,都有不同出圈程度的爆款剧集,《无忧 渡》《折腰》《藏海传》先后成为流量收割机。更早之前,还有《宴回时》《难哄》《漂白》等剧集刷 屏。 《藏海传》之前,优酷已凭借《难哄》与《蛮好的人生》吸引了不少品牌广告主,数据显示,两部剧招 商数量分别为23、29个。悬疑短剧集《沙尘暴》也为平台撑起了不错的口碑。 虽然在体量规模、盈利水平都不及爱奇艺与腾讯视频,但优酷作为爱优腾三家之中,一直被唱衰"掉 队"的平台,今年对外形象似乎有所扭转。阿里集团5月中旬发布的2025财年第四季度业绩公告显示,优 酷终于走出亏损泥潭,单季度扭亏为盈。 不过,如果从数据维度进行排名的话,还是能分出伯仲。从播放量、市占率、集均播放等关键指标来 看,上半年剧王应该毫无争议当属优酷的男频权谋剧《藏海传》。市占率是一个最有力的证据,云合数 据显示,《藏海传》最高市占率高达40.1%。从开播至收官,正片有效播放市占率多日连续排名第一。 灯塔数据显示,《藏海传》累计播放量高达18.5亿。 对比来看,同样热播,且被评级为S+剧集的腾讯视频《折腰》,云合数据显示,最高市占率为25.8%。 开播之初, ...
理解平台:全域运营,一鱼多吃的内容怎么做?
虎嗅· 2025-06-09 13:17
平台分类与特点 - 国民级平台包括抖音、视频号、微信公众号,用户覆盖全人群但竞争激烈,需精细化运营 [5][6] - 抖音2023年内容形式多元化,生活服务覆盖370城,泛知识内容播放量占比20% [8][9] - 视频号2023年加速商业化,推出创作分成计划,强化泛知识内容并计划引入1万名相关达人 [11][12] - 垂直平台如B站和小红书用户群体集中,B站82%为Z世代用户,小红书72%为90后且女性主导 [13][16] 内容类型与平台适配 - 长图文以微信公众号为主,依赖标题、热点和转发传播,优质内容仍具竞争力 [22][23] - 短图文在小红书以封面+关键词为核心,清单式、指南式内容更易传播 [24][25] - 中长视频在B站需制作精良且逻辑性强,科技科普类视频日均观看量超1300万 [13][26] - 短视频在抖音需强开头吸引力,节奏快且含娱乐元素,三农类内容曾涌现现象级账号 [27][28] 运营策略与工具 - 重点突破原则:根据目标用户匹配平台,如女性消费内容优先小红书,Z世代内容选B站 [34][35] - 恰当适配方法:B站中长视频可切片发抖音,脚本改长图文发公众号,金句发小红书 [36][40] - 工具使用:新榜、巨量创意等可追踪平台趋势,行业报告辅助分析用户习惯 [31][32] 平台商业化动态 - 抖音2023年专项治理伪成功学、AI虚拟人物违规内容,净化直播环境 [9] - B站加速商业化,知识付费扶持计划推动广告和电商收入增长 [14] - 小红书2023年买手模式慢直播受捧,文旅领域尝试与民宿平台合作 [18][19] 用户情绪趋势 - 年轻用户反感加班文化,职场内容需避免说教感 [42][43] - 多元化职业选择受追捧,内容需包容"内卷"与"躺平"并存现象 [45] - 女性主义议题敏感,需避免刻板印象或跟风炒作 [47][48]
CVPR 2025 Highlight|AdaCM2:首个面向超长视频理解的跨模态自适应记忆压缩框架
机器之心· 2025-06-09 12:33
核心观点 - 研究团队提出首个支持超长视频理解的跨模态记忆压缩框架AdaCM2,解决现有模型在长视频场景下的显存瓶颈和冗余信息干扰问题 [2][5][6] - AdaCM2基于两大核心观察(帧内注意力稀疏性和层间语义冗余性)设计,通过跨模态注意力驱动的层级记忆压缩策略实现高效信息筛选 [7][9][11][15] - 实验显示AdaCM2在多项任务中超越SOTA模型,显存使用下降65%,支持处理超2小时长视频 [20][22][24] - 该技术为多模态大模型提供可控的长时记忆能力,拓展智能交通、医疗、教育等领域的应用边界 [23][25][26] 技术背景 - 现有视频理解模型(如VideoLLaMA、VideoChat)在短视频(5-15秒)表现优异,但面对分钟级/小时级视频时出现显存瓶颈和冗余信息干扰 [5] - 长视频处理存在三大核心问题:内存消耗指数级上升、视觉Token冗余严重、文本与视频缺乏精准对齐机制 [6] 关键观察 - **帧内注意力稀疏性**:长视频单帧中仅极少数视觉Token对文本提示强相关,注意力得分呈尾部偏置分布,高价值信息集中在少数Token [9] - **层间语义冗余性**:深层网络中临近帧/远帧间跨模态注意力相似度高,多个Token在不同时间或层次上表达重复语义 [11] 技术方案 - **逐帧回归式建模**:动态更新记忆缓存替代一次性输入全部帧,实现轻量连续建模 [20] - **跨模态注意力打分**:通过Q-Former模块计算视觉Token与文本提示的注意力权重,仅保留高分Token [20] - **分层压缩机制**:针对不同Transformer层设置可调压缩参数(α和β),实现精细内存控制 [20] - **LLM兼容性**:支持与Vicuna-7B、FlanT5等主流LLM无缝对接,仅需轻量微调Q-Former模块 [19] 性能表现 - **LVU分类任务**:平均Top-1准确率提升4.5%,在"导演""场景"等任务领先所有方法 [22] - **行为理解任务**:在COIN/Breakfast数据集上超越MA-LMM(94.4 vs 93.0) [21][24] - **视频字幕生成**:MSVD数据集达到189.4 CIDEr,显著优于GIT(180.2)和VideoLLaMA(175.3) [21][24] - **内存效率**:显存使用下降65%,极端情况下仍能稳定处理超2小时视频 [20][24] 应用场景 - **智能交通监控**:支持全天候视频智能分析与摘要生成 [25] - **医疗手术记录**:自动分析长时间术中操作行为 [25] - **教育/会议记录**:提取关键片段并生成总结 [25] - **机器人感知**:为具身智能体提供持续视觉记忆能力 [25]
48家金主、217条广告……《藏海传》被塞爆!优酷SVIP弹窗再陷争议
新浪科技· 2025-06-09 08:17
核心观点 - 古装权谋剧《藏海传》凭借肖战主演、郑晓龙执导及南派三叔IP加持,成为优酷S+级爆款项目,创下平台热度纪录并实现超强商业化变现[1][3][4] - 该剧广告植入规模创行业新高,共48个品牌、217条广告,总时长1927秒,单集平均广告时长48.17秒,但引发观众两极评价[1][4][5] - 优酷通过该剧实现2025年招商金额与品牌数双冠,并带动一季度扭亏为盈,经调整EBITA盈利3600万元[8][9] 商业表现 - 招商数据:包揽2025年优酷播前招商金额与客户数量双冠,位列2022年以来全网剧集招商品牌数第一[8][9] - 广告规模:全集植入48个品牌、217条广告,总时长1927秒(约32分钟),单集峰值达10条广告,远超同期腾讯S+项目《折腰》的5条首集广告[4][5] - 平台效应:开播38小时突破优酷站内热度万点,刷新2024年平台纪录[3] 行业影响 - 商业模式创新:单集广告数量达9-10条,中插广告占比最高(如外星人品牌单条达45秒),开创剧集广告密度新标杆[4][5] - 用户反应分化:SVIP用户因弹窗广告抱怨"无效开会员",部分观众却将广告量视为爆剧标志并主动分析植入细节[1][6] - 分析师观点:广告密集度是对受众底线的试探,若泛滥可能导致用户流失,需平衡商业化与体验[1][6] 平台财务 - 优酷2025Q1业绩:收入55.5亿元(同比+12%),经调整EBITA盈利3600万元,主要受益广告增长与经营效率提升[9] - 母公司表现:阿里大文娱(虎鲸文娱)2025财年亏损收窄至5.54亿元(2024年为15.39亿元),优酷为主要驱动[9] - 行业挑战:爆款持续性不足,需拓展剧集同款商城、直播带货等新消费场景以实现长期盈利[10][11]
单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2
量子位· 2025-06-04 13:21
国产开源模型又上大分,这次是在长视频理解领域: 智源研究院联合上海交通大学等机构,正式发布新一代超长视频理解模型 Video-XL-2 。 长视频理解是多模态大模型关键能力之一。尽管OpenAI GPT-4o、Google Gemini等私有模型已在该领域取得显著进展,当前的开源模型在 效果、计算开销和运行效率等方面仍存在明显短板。 而Video-XL-2相较于上一版本的Video-XL,在多个维度全面优化了开源多模态大模型对长视频内容的理解能力: 目前,Video-XL-2的模型权重已全面向社区开放。未来,该模型有望在影视内容分析、异常行为监测等多个实际场景中展现重要应用价值。 允中 发自 凹非寺 量子位 | 公众号 QbitAI 单张显卡,就能处理万帧视频输入,并且编码2048帧视频仅需12秒! 技术简介 在模型架构设计上,Video-XL-2主要由三个核心组件构成: 视觉编码器(Visual Encoder) 、 动态 Token 合成模块(Dynamic Token Synthesis, DTS) 以及 大语言模型(LLM) 。 △ Video-XL-2的模型架构示意图 具体而言,Video-XL-2 ...
万帧?单卡!智源研究院开源轻量级超长视频理解模型Video-XL-2
机器之心· 2025-06-03 12:06
技术突破 - 新一代超长视频理解模型Video-XL-2在效果、计算开销和运行效率等方面全面优化,显著提升多模态大模型对长视频内容的理解能力 [2] - Video-XL-2采用SigLIP-SO400M作为视觉编码器,结合动态Token合成模块(DTS)和大语言模型(LLM),实现视频帧的高维特征编码和时序关系建模 [3] - 模型采用四阶段渐进式训练策略,逐步构建长视频理解能力,最终在大规模高质量指令数据上微调,提升复杂视觉指令的响应准确性 [4] 性能优势 - Video-XL-2在MLVU、Video-MME、LVBench等主流评测基准上达到同参数规模开源模型的领先水平,部分性能接近720亿参数大模型 [6][11] - 模型支持单显卡处理万帧级视频,编码2048帧仅需12秒,预填充时间与输入帧数呈线性增长,效率显著优于初代Video-XL和VideoChat-Flash [6][17][19] - 在时序定位任务中表现优异,Charades-STA数据集上取得73分,验证多模态视频理解的广泛适用性 [12] 架构创新 - 引入分段式预装填策略(Chunk-based Prefilling),将超长视频分块处理,降低计算成本与显存开销 [8] - 设计双粒度KV解码机制(Bi-granularity KV Decoding),选择性加载关键片段的完整KVs和次要片段的稀疏KVs,大幅提升解码效率 [8] 应用场景 - 影视内容分析:支持电影情节问答、影视作品内容总结等任务,例如准确识别视频中物体的颜色和人物行为 [20][22] - 异常行为监测:可检测监控视频中的异常事件,如顾客与员工的肢体冲突 [23] - 游戏直播分析:具备处理超长直播内容并生成总结的能力 [23]