视频模型

搜索文档
视频模型赛道“热闹”起来,变现仍是大难题
环球网· 2025-07-06 10:16
视频模型技术进展 - 生数科技更新视频模型Vidu至可一键生成32秒视频,支持音视频合成与4D生成 [1] - MiniMax推出海螺Hailuo-02,实现最高1080P、最长10秒超清视频端到端生成 [1] - 百度发布首个图生视频大模型MuseSteamer,瞄准广告商等专业视频内容创作者 [1] - 据AGI-Eval评测,部分模型如PixVerse-V3等已超越Sora [1] 行业竞争格局 - 视频模型领域由大型互联网/科技企业主导,辅以爱诗科技、生数科技、MiniMax等明星创业公司 [1] - 瑞银研报指出视频模型竞争强度预计不及大语言模型,主要受限于视频语料内容限制 [1] - 2024年初至今,行业已涌现爱诗科技PixVerse、生数科技Vidu、智谱清影、字节跳动PixelDance等多款新品 [1] 商业化模式探索 - To C端采用付费订阅模式,价格从每月数元到数百元不等,如快手可灵、字节即梦 [4] - To B端通过API接口和解决方案服务收费,月费从数十元至数万元不等,服务影视、广告等领域 [4] - 快手可灵AI披露突破一亿美元ARR,月度付费金额连续突破一亿元人民币 [4] - MiniMax海螺自去年8月发布至今,已帮助创作者生成超过3.7亿个视频 [4] 市场前景与挑战 - 全球AI视频生成器市场规模预计从2024年的6.148亿美元增长至2032年的25.629亿美元,年均复合增长率达20.0% [4] - 视频处理复杂度高,数据量庞大,对基础设施要求极高,且开源视频内容稀缺 [2] - 投资人早期看重团队质量,中后期更关注技术与商业化能力 [2] - 生数科技创始人朱军预计视频模型商业化将在2024年加速,行业格局将呈现多元化 [4]
视频模型赛道“热闹”起来了,但变现仍不容易
第一财经· 2025-07-05 19:44
视频模型行业动态 - 近一个月多款视频模型新品发布,包括生数科技Vidu支持32秒视频生成与4D生成,MiniMax海螺Hailuo-02支持1080P超清视频,百度发布图生视频大模型MuseSteamer [1] - 2024年视频模型产品密集面世,包括PixVerse、Runway Gen-3、Luma Dream Machine、智谱清影、字节跳动PixelDance等 [4] - 据AGI-Eval评测,PixVerse-V3、可灵1.5、Video-01在视频质量等维度得分已超越Sora [4] 行业竞争格局 - 视频模型领域主要由大型互联网/科技企业与明星创业公司组成,包括爱诗科技、生数科技、Pika、Runway、MiniMax等 [4] - 行业尚未出现一家独大局面,头部平台各有特色与商业化路径 [11] - 硅谷投资人Elad Gil认为大部分资金将流向模型公司,但应用开发公司数量更多 [6] 技术挑战 - 视频处理复杂度远高于文本,5秒视频数据量是同等时长文本的数千倍 [5] - 视频开源内容较少,数据清洗与标注难度大 [5] - 训练视频模型受限于视频语料内容,竞争不如大语言模型激烈 [2] 商业化进展 - 视频模型收费模式包括API、订阅、广告、定制化,B端变现更清晰,C端海外以付费为主 [8] - 快手可灵AI年化收入突破1亿美元ARR,月度付费金额连续两月超1亿元人民币 [8] - MiniMax海螺视频已生成超过3.7亿个视频 [11] - 全球AI视频生成器市场规模2024年6.148亿美元,预计2032年达25.629亿美元,年均复合增长率20% [11] 企业案例 - 生数科技获蚂蚁集团、BV百度风投等投资,产品覆盖数千万C端用户及广告、影视等B端场景 [5][9] - MiniMax视频模型商业化覆盖B端API服务与C端会员积分制 [9][11] - 百度发布面向专业视频内容创作者的MuseSteamer模型 [1]
视频模型赛道“热闹”起来了,但变现仍不容易
第一财经· 2025-07-05 16:19
视频大模型行业竞争格局 - 视频大模型行业暂时不会出现一家独大的局面,多款新品近期发布但竞争不如大语言模型激烈[1] - 主要参与者包括大厂与明星创业公司,如生数科技、MiniMax、百度等,正在加快产品更新与商业化落地[1] - 视频模型热度不及AI应用层,主要由大型互联网/科技企业主导,明星创业公司补充[3] 近期产品与技术进展 - 生数科技Vidu更新至可生成32秒视频,支持音视频合成与4D生成[1] - MiniMax发布海螺Hailuo-02,支持1080P、10秒超清视频生成[1] - 百度发布首个图生视频大模型MuseSteamer,面向专业视频内容创作者[1] - 2024年12月PixVerse-V3、可灵1.5、Video-01评测得分超越Sora[3] 商业化与变现模式 - 主要收费模式包括API、订阅、广告、定制化,B端变现更清晰,C端国内市场多免费[7] - 快手可灵AI年化收入突破1亿美元,月付费连续两月超1亿元人民币[7] - MiniMax已帮助创作者生成超过3.7亿个视频,采用B端API和C端会员积分制[8] - 全球AI视频生成器市场规模2024年6.148亿美元,预计2032年达25.629亿美元,年均复合增长率20%[8] 技术挑战与投资趋势 - 视频处理复杂度远高于文本,存储差距达几千倍,视频开源内容较少[4] - 早期投资看团队质量,中后期看技术与商业化能力[4] - 大部分资金可能流向模型公司,但应用程序开发公司数量将更多[5] 行业前景与特点 - 视频大模型商业化将加快,市场需求广阔[9] - 头部平台各有特色与商业化路径,尚未出现高度同质化竞争[9] - 视频赛道与文字赛道差异明显,技术成熟度和成本仍是主要限制因素[3][4]
不是视频模型“学习”慢,而是LLM走捷径|18万引大牛Sergey Levine
量子位· 2025-06-10 15:35
语言模型与视频模型的对比 - 语言模型通过预测下一个词学习,取得了显著成功,其算法为下一词预测+强化学习微调[9][10] - 视频模型通过预测下一帧学习,但效果远不如语言模型,尽管视频数据信息更丰富[13][14][17] - 语言模型能解决复杂问题和推理,而视频模型仅能生成逼真视频[19][20] 语言模型的优势与局限性 - 语言模型调用人类总结的知识,模仿已有推理结果,形成"抄近路"效应[22][24] - 语言模型仅接触文本"影子"(人类认知投影),却比直接观察物理世界的视频模型更具推理能力[25] - 语言模型是对人类认知的"逆向工程",而非真正理解世界[26][33] 柏拉图洞穴的类比 - 互联网被比作洞穴,真实世界比作洞穴外阳光,AI通过语言模型学习人类知识如同看到洞穴墙壁上的影子[31][32] - AI目前依赖人类中介(文本数据),长期目标是通过传感器直接与物理世界交互[34][35] - 跨模态连接被视为突破洞穴困境的潜在方法,需建立视觉、语言、行动系统的共享结构[35] 研究背景与作者观点 - 人类心智复杂性可能源自单一算法,AI复现该算法可达到人类智能高度[7][8] - 作者Sergey Levine为UC伯克利副教授兼Google Brain研究员,学术引用18万次[2][3] - 研究提出AI需突破"影子依赖",将语言模型作为通用AI的起点[34][35]
大模型是「躲在洞穴里」观察世界? 强化学习大佬「吹哨」提醒LLM致命缺点
机器之心· 2025-06-10 11:58
语言模型与视频模型的对比 - 语言模型通过预测下一个token学习到丰富知识,而视频模型通过下一帧预测学习效果有限,引发对两者差异的思考 [1] - 语言模型核心算法简单(预测下一个词+强化学习调优),却展现出强大认知能力,包括解决新问题和空间推理 [18][23] - 视频模型虽能生成逼真视频,但在复杂问题解决、深度推理方面远不如语言模型,尽管视频数据信息量远超文本 [21] 语言模型的本质与局限性 - 语言模型并非直接学习世界运作,而是通过分析人类在互联网上的文字输出(思维投影)进行逆向工程,间接复制人类认知过程 [26][28] - 语言模型如同被困在柏拉图洞穴中,只能观察人类智能投下的阴影(网络文本),无法直接体验真实世界 [33][34] - 语言模型擅长模仿人类认知技能,但在从真实世界经验中自主学习新技能方面薄弱,这正是人类智能的核心优势 [36] AI发展的方向性思考 - 当前AI研究方向可能存在基础性错误,过于关注回忆和解决数学问题,而非人类从经验中学习的方式 [10] - 未来AI研究的关键挑战是:既要借鉴语言模型成功经验,又要探索从物理经验中自主获取表征的方法,实现真正灵活的智能 [38] - 有研究提出无需配对数据即可跨向量空间转换文本嵌入的新方法,可能为AI发展提供新思路 [39] 人类智能与AI的差异 - 人类智能强大之处在于能从经验中快速学习、适应新环境并解决全新问题,而非记忆力或数学能力 [19] - 早期研究者曾猜想人类大脑可能使用单一"万能算法",这一猜想对AI研究极具吸引力 [16] - 数字计算机理论上应能实现大脑所有功能,但当前AI与人类智能的实现路径存在本质差异 [2][25]
Veo3和FLOW一手实测:谷歌这次成了,这次视频创作可能彻底变天
歸藏的AI工具箱· 2025-05-21 15:18
谷歌视频模型Veo3和FLOW产品测评 核心观点 - 谷歌Veo3视频模型整合音效生成、语音同步及唇形同步技术,显著提升视频生成可用性,对剪辑软件、数字人产品形成降维打击[1][2][3] - FLOW作为配套AI视频创作工具,支持文生视频、图生视频及素材编排,填补谷歌在AI视频创作领域的空白[15][18][20] - 模型在复杂运动、多分镜一致性、长视频延长等场景表现优异,可生成游戏画面、ASMR内容及历史人物教学视频[5][6][7][8][9] Veo3技术特性 - **多模态生成**:同步生成环境音、语音并实现精准唇形同步,支持跨分镜人物一致性[2][7][11] - **复杂场景处理**:篮球运动音效(球鞋摩擦、篮筐碰撞声)准确率100%,游戏UI与人物动作符合提示词要求[5][6] - **长视频能力**:支持视频延长至16秒以上,保持内容连贯性,可生成完整ASMR视频[8][9][28] FLOW产品功能 - **创作模式**:支持文生视频(英文提示词)、图生视频(首尾帧控制)及三图素材风格迁移[18][20][21] - **剪辑编排**:Scenebuilder模块可调整分镜顺序,通过进度条定位插入点,导出1080P超清视频[23][25][26] - **延长技巧**:需切换至首尾帧模式并定位最后一帧,避免退回素材库中断生成[28] 行业应用场景 - **数字人领域**:实现多人唇形同步,播客对谈场景中语音与表情情绪100%匹配[11][12][13] - **教育内容**:生成牛顿讲解万有引力等历史人物教学视频,分镜切换时间可压缩至2秒内[7] - **UGC创作**:一键生成带环境音的ASMR视频,大幅降低专业级视频制作门槛[8][9][10]