Workflow
AI Video Generation
icon
搜索文档
实测参考生之王Vidu Q3:这已经不叫AI生成了,这叫AI驱动整个剧组
机器之心· 2026-04-16 13:09
生数科技Vidu Q3模型发布与行业影响 - 生数科技于4月13日正式发布视频大模型Vidu Q3,其核心升级是上线了“参考生视频”功能,标志着模型从生成单镜头素材转向支持完整内容生产流程 [2][9][11] - 在SuperCLUE发布的全球参考生视频测评基准中,Vidu Q3在“多图参考任务总榜”和“人物还原度总榜”上均位列第一,总分分别为70.89分和72.43分,领先于阿里巴巴、快手科技、字节跳动等公司的模型 [2][3] - 视频大模型行业的关键转向已从追求“生成得像不像”变为关注生成内容“能不能直接拿去用”,Vidu Q3的迭代顺应了这一趋势 [9] Vidu Q3的核心能力升级 - 模型重点提升了在长时间跨度内的稳定性,包括画面一致性、逻辑连贯性以及多镜头之间的衔接,旨在解决内容生产中最难自动化的部分 [9][10] - 其“参考生成”能力从功能点演变为生产方式,允许将人物、场景、服装等元素固定为“参考锚点”,实现“万物可参”,使AI视频产出具备稳定复现和持续迭代的可控生产能力 [18][19][20][21] - 模型实现了从“画面”到“视听场”的整体升级,将画面、声音和镜头调度打包为统一系统,特效更贴近物理逻辑,音效接近同步生成并支持唇形对齐,并内置了接近导播逻辑的镜头处理方式 [22][23][24] - 模型内建了6大特效引擎(粒子、流体、动力学、运镜、转场、光影)与5大音效矩阵(环境、动态、氛围、拟音、情绪),以更自然地表达情绪与推进剧情 [45] Vidu模型的演进路径 - Vidu Q1阶段完成了从图像到视频的跨越,建立了基本的生成能力和对时间维度的理解 [15] - Vidu Q2阶段重点优化了人物的表情、肢体和情绪变化,使“看AI演戏”成为可能,但尚未解决拍摄一整段戏的问题 [16] - Vidu Q3阶段标志着模型进入内容生产阶段,目标转向生成具备基本叙事结构、可直接用于制作的片段,实现了“为剧而生” [17] 实测应用与商业场景 - 实测表明,通过使用“主体库”固定角色形象和音色,Vidu Q3能有效保证同一角色在不同画面中的高度一致性 [28][32] - 利用“图生视频”功能,通过将上一镜头的末帧与下一镜头的首帧作为参考,能实现跨镜头场景空间结构的稳定与丝滑衔接 [33][35] - 在复杂场景中,模型能同时处理画面中的多个角色主体,并精准执行如“镜头上摇”等复杂运镜指令 [39][41] - 在广告与电商营销领域,品牌方可利用“主体库”固化产品或模特形象,快速生成风格统一的多版本营销短片,提升A/B测试素材的生产效率 [42] - 在真人短剧领域,模型内置的导播逻辑能适应高频机位切换需求,基于多镜头连贯生成能力,可将剧集更新周期从“月更”压缩至“日更”,实现AI驱动的内容工业化 [43] - 与Vidu企业合作AI真人剧的团队,有机会获得积分投资及共同宣发等生态权益,模型正从工具层帮助创作者打通商业闭环 [44] 行业意义与生态布局 - Vidu Q3的升级意味着大模型正从内容生产的“灵感工具”转变为真正进入生产链路的“工业工具”,视频大模型正在褪去“玩具”属性,向高确定性的生产基础设施迈进 [46][49] - 该模型正在把影视内容工业中最昂贵的“试错成本”无限前置,例如,可将文本剧本快速低成本转化为高表现力的动态分镜,帮助主创团队在正式开机前形成直观判断,降低后期返工成本 [47] - 生数科技以Vidu Q3模型为核心底座,推出了覆盖SaaS(Vidu Agent、Vidu Claw)和MaaS(Vidu AI开放平台,Vidu.API)的“Q3全家桶”,形成了一体化服务体系,支持0门槛接入、极致性价比和稳定流畅的体验 [48]
“快手可灵 vs 字节即梦”谁更强?高盛:不存在“赢家通吃”,但AI将显著改变娱乐业价值分布
美股IPO· 2026-02-13 12:53
文章核心观点 - AI视频生成领域并非“赢家通吃”的零和游戏 快手可灵与字节即梦等头部模型均将受益于快速扩张的市场 [1][3] - 全球AI视频生成市场规模预计将从2025年的30亿美元增长10倍至2030年的290亿美元 足以容纳多个头部玩家共存 [1][3][8] - AI技术将重塑娱乐业价值链 价值向上游的IP创意设计和分发平台转移 这些环节将获得更高附加值 [1][9][10] 市场前景与规模 - 预计全球AI视频生成和编辑市场规模将在未来五年增长10倍 从2025年约30亿美元增至2030年约290亿美元 [1][3][8] - 市场扩张主要由广告视频和娱乐视频制作中AI渗透率和采用率的激增推动 [8] - 模型能力的质的飞跃以及视频制作行业的范式转变将加速市场增长进程 [8] 主要竞争者技术对比 - 快手可灵3.0于2月5日升级 较字节即梦2.0提前数日推出 两者均在音视频一致性、视频时长(15秒)及叙事控制方面实现重大突破 [3] - 可灵3.0系列包括多个模型 主要升级包括:原生多语言及方言音频生成、视频时长扩展至15秒、多镜头叙事能力、图像内文本保留及影视级逼真输出 [5] - 即梦2.0于2月12日向公众开放 根据用户反馈 该模型在物理规律理解、自然动作流畅度及“真人”写实度方面表现突出 [5] - 部分测试者认为即梦2.0在流畅度和多场景连贯性上更优 但可灵3.0在影视级细节和定价优势上仍保持竞争力 [3] 竞争者市场策略与表现 - 可灵3.0的战略定位主要针对企业及专业用户 海外市场渗透是核心重点 [6] - 即梦2.0同时面向C端市场 更侧重娱乐需求 [6] - 可灵3.0虽较此前版本提价 但相比海外竞品仍具明显价格优势 [6] - 根据Sensor Tower数据 可灵用户数和收入自去年12月底以来大幅跃升 1月份月收入至少增长30%至50% [8] - 预计可灵2026年开局强劲 对2.8亿美元的全年收入预期存在上行风险 [8] - 根据第三方基准测试 可灵在全球市场保持顶级模型能力 [3][8] 行业影响与价值链重塑 - 多模态AI能力的提升将大幅降低视频创作的门槛 中期内将带来几乎无限的内容供给 [9] - 尽管AI工具降低了制作门槛 但产品质量以及差异化IP和设计理念的能力仍然至关重要 [9] - 产业价值链将向上游转移 IP/创意设计和分发平台将具有更高的附加值 [10] - 对于分发平台而言 既有的用户社区、用户洞察以及流量/算法优势仍是关键差异化因素 [10] - 拥有优质IP、创意设计能力和强大分发网络的企业将在新的价值分配中占据更有利位置 [11]
30天拿下千万下载,这家国内AI创企如何在TT上卷赢“宠物舞蹈”热潮
36氪· 2026-02-06 10:55
行业现象:AI视频生成应用因特定题材爆发而集体增长 - 2026年元旦前后,多款AI视频生成App因宠物/婴儿跳舞视频题材的爆发而登上各国下载榜单[1] - 社交媒体风潮始于2023年12月21日,相关婴儿舞蹈视频获得260万点赞,多条宠物舞蹈视频点赞量在1万至10万之间[3] - 流量驱动下,多款产品迅速跟进,例如AI Video和PoseAI曾冲上美国iOS下载总榜Top10[3] 公司表现:出海AI公司在风潮中取得显著增长 - 出海AI视频生成公司可灵(Kling)因其Motion Control功能,在2023年12月1日至2024年1月31日期间完成了千万次下载[4] - 出海初创公司智象未来旗下的AI视频App vivago.ai,在近60天(12月1日至1月31日)内获得了1121万全球双端下载量[4] - 在2024年1月中下旬,vivago.ai的下载量甚至一度超过了可灵[4] - 截至2024年2月1日,vivago.ai的日下载量仍保持在30万以上[5] 产品策略:基于趋势预判与快速技术迭代 - 智象未来团队在社媒热潮掀起前,预判趋势并提前优化自研模型,于元旦前上线了自研的“3D特效”功能[5] - “3D特效”项目起始于2023年12月8日,团队发现其3D原生架构的效果远优于主流的2D架构解决方案[6] - 团队通过小规模投放进行AB测试,数据证实动物(尤其是猫咪)舞蹈的互动率和转发率具有极大优势[7] - 团队在确定宠物舞蹈方向后,迅速开发优化,赶在元旦前上线功能,此时距离社媒风潮启动还有一周多时间[7] 增长策略:利用社交媒体情绪与链式传播 - 公司在TikTok上采用“制造情绪对立+链式传播”的打法,利用“猫狗派系之争”引发用户讨论与参与[9] - 优秀素材的互动率能达到20%左右,优于行业平均水平[9] - 传播策略要求达人在视频结束前“@”下一位达人,形成接力,利用算法和用户好奇心延长话题热度与曝光[11] - 该策略是“Tag Challenge”的变种,利用TikTok的协同过滤算法,使关联账号形成闭环,被算法判定为社区共识热点,从而获得更大流量[11] 技术优势:自研3D架构实现差异化效果 - 公司自研模型采用“端到端原生3D架构”,其生成的舞蹈视频效果优于市面上主流的“2D姿态驱动方案”[14] - 3D解决方案在训练时即教会模型主体在三维空间中的位置、朝向等关系,确保动作合理,并能完成推拉、摇移等镜头动作[15] - 技术核心包括“动作脱壳”和“自适应迁移模型”,能将抽象动作逻辑匹配给不同动物,实现丝滑自然的舞步[15] - 为训练模型,团队全网筛选并分析了数万条高质量舞蹈参考视频,并进行人工逐帧分析[15] 运营与迭代:快速响应与高效执行 - 团队在15天内快速上线功能,并在训练期间累计完成超200组核心参数的对比测试[16] - 在效果验证阶段,经历了上千次视频生成与迭代优化,以解决动作卡顿、肢体穿模等问题,最终实现多主体同步自然舞蹈[16] - 第一波热潮引发后,团队在元旦假期连续奋战,处理了高峰时段数十万个排队任务,应对了10余次高优先级告警,并完成了10次以上的扩容[16] - 为处理高并发,团队引入FP8量化、多卡分布式并行推理等技术,将推理耗时从2分钟降至1分钟以内,并通过多种优化将系统整体调度能力提升上百倍[16] 未来规划:功能升级与社区建设 - 2024年2月5日,vivago.ai上线了“多主体舞蹈”功能,计划将第二波增长的核心题材转向“人宠共舞”和“多宠物共舞”,从“舞蹈”引向“关系”[12] - 公司计划让第一波增长中效果较好的达人在第二波增长中“返场”,通过“玩法升级+核心达人返场”驱动用户从“新鲜感”向“社区粘性”转变[12] - 公司团队表示,未来希望持续保持增长,避免成为用户玩完即走的“网红产品”[17]
AI视频如何告别“抽卡”游戏
华尔街见闻· 2026-01-14 15:43
行业现状与商业模式 - 大语言模型普遍面临商业模式“撞墙”的焦虑期,而AI视频模型已率先跑通了现金流 [1] - 2025年第二季度,快手旗下AI视频生成应用“可灵”营收超2.5亿元人民币,MiniMax的“海螺”2025年前三季度创收0.17亿美元(合人民币1.2亿元),占总收入比重高达32.6% [1][7] - 基于可灵的超预期商业化表现,快手上调了2025年全年收入预期并追加算力投入,其股价最近6个月累计涨幅已超过20% [7] - MiniMax于2026年1月9日上市,当天收盘报345港元/股,较发行价上涨109%,市值突破千亿港元 [8] - 尽管行业正驶向商业化,但“不可控性”使得大多数产品停留在“抽卡游戏”阶段,难以满足B端交付中对物理逻辑和细节连贯的严苛标准 [1] 主要参与者与市场策略 - 快手旗下“可灵”和MiniMax旗下“海螺”已实现显著营收,其中海螺在2025年前三季度的付费用户数达到31万,人均贡献高达56美元 [7] - 正在冲刺港股IPO的群核科技,旗下首个AI视频生成应用LuxReal启动内测,瞄准具备更强付费意愿的海外电商和短剧专业用户市场 [1][9] - 面对C端市场用户留存率低的挑战,群核科技目前的解法偏向于服务海外B端市场 [9] 技术挑战与路径 - 当前AI视频生成模型普遍面临“空间一致性”挑战,即难以在镜头移动、视角切换中保持物体位置、比例、形状、纹理的物理正确性 [2] - 图灵奖得主杨立昆指出,生成式模型并不理解物理世界,只是在生成漂亮的图片 [1] - 斯坦福大学教授李飞飞认为,现有AI在空间理解上非常薄弱,例如不理解物体大小、位置和距离等 [3] - 由于训练数据、算力、算法等方面的局限性,AI视频模型难以理解物理世界运动规律,更多是通过“猜测”来补齐下一帧画面,导致空间一致性问题 [3] - 绝大多数主流模型(如OpenAI的Sora)采用扩散模型与Transformer融合的技术路线,通过逐步去噪和自注意力机制来提升一致性,但仍普遍存在挑战 [2] 群核科技LuxReal的差异化方案 - LuxReal的技术路径依托群核科技庞大的3D结构化场景数据,提出“拒绝猜像素”的新路径 [1] - 公司已拥有5亿个3D结构化场景和4.4亿商品模型的数据资产,作为保障“空间一致性”的基础 [2] - 其解题思路是在AI生成视频前先对主体进行真实的3D建模,以此提升视频中物体本身的一致性 [4] - 通过“3D建模控制”与“视频算法控制”的双重保险,试图使视频效果在动作等方面保持一致性 [5] - 根据内测展示,其生成的DEMO视频中人物跳舞未出现表情崩坏,镜头之间保持了一定一致性 [2] - 但若缺乏3D建模环节,其空间一致性便大打折扣,内测中也出现了乐高积木悬空、纸盒被替换的问题 [5] - 开发人员表示,该产品仍需要持续优化 [5] 用户留存与市场考验 - 极低的用户留存率正成为悬在所有AI视频生成应用玩家头顶的达摩克利斯之剑,行业陷入“拉新容易留存难”的泥潭 [9] - 以海螺为例,2025年10月在新加坡苹果用户中的1天、7天、30天、60天用户留存率分别为22.57%、4.62%、0.8%和0.66%,这意味着每拉新100个用户,60天后只有不到1个用户会留下 [9] - 电商和短剧制作方等B端用户对视频质量有更高要求,视频是直接关联转化率的“工具”,具备更强付费意愿,但同时对交付质量要求苛刻 [9] - LuxReal能否在充满不确定性的赛道中,为工具类产品找到确定性,仍需经受真实商业环境的持续大考 [9]
清华系DeepSeek时刻来了,硅谷沸腾,单卡200倍加速,视频进入秒级时代
36氪· 2025-12-23 18:46
核心观点 - 清华大学TSAIL实验室与生数科技联合开源了视频生成加速框架TurboDiffusion,该框架在几乎不影响生成质量的前提下,将AI视频生成速度提升了100-200倍,标志着AI视频生成从“分钟级”进入“秒级”实时时代 [1][3] 技术突破与性能表现 - 该框架是一个专为Diffusion模型加速的工具,尤其擅长处理视频生成场景,在单张RTX 5090消费级显卡上即可实现100-200倍的速度提升 [8] - 实测中,对于1.3B大小的模型生成5秒视频,标准实现需184秒,而TurboDiffusion仅需1.9秒,速度提升约97倍 [10] - 对于14B大小的图生视频模型生成5秒720P视频,标准实现耗时4549秒(超过1小时),TurboDiffusion仅需38秒,速度提升约120倍 [14] - 对于14B大小的文生视频模型生成5秒720P视频,TurboDiffusion在单张RTX 5090上可实现几乎无损的端到端加速200倍 [17] - 在Vidu模型上生成8秒1080P高清视频,原本需要900秒,使用TurboDiffusion后仅需8秒 [21] 核心技术构成 - **SageAttention**:采用低比特量化注意力加速技术,是全球首个实现注意力计算量化加速的技术方案,已集成至NVIDIA TensorRT等主流GPU平台 [24][25][26] - **Sparse-Linear Attention (SLA)**:引入稀疏注意力加速,可构建在SageAttention之上,显著减少冗余计算,获得数倍的额外加速 [24] - **rCM步数蒸馏加速**:采用先进的步数蒸馏方法,可将原始Diffusion模型所需的50-100步采样压缩到4-8步,降低延迟而不损失画质 [24][25] - **W8A8 INT8量化**:在线性层采用INT8量化策略,将模型权重和激活映射到8位整数空间,显著降低推理功耗与内存占用 [25] 行业影响与生态应用 - 该技术已在国内外头部科技企业的核心产品中得到应用,包括腾讯混元、字节豆包、阿里Tora、生数Vidu、智谱清影、百度飞桨、昆仑万维、Google Veo3、商汤、vLLM等 [26] - 该框架的推出被视为视频生成领域的“DeepSeek时刻”,其开源特性(代码与模型全部开源)有望降低AI视频生成的使用门槛,推动其从高门槛专业领域向人人可用的内容创作工具普及 [1][27][29]
Medeo 教程:一次生成无脑抽卡不可取,真正的视频 Agent 应该啥样
歸藏的AI工具箱· 2025-12-16 07:06
文章核心观点 - AI视频生成智能体Medeo的1.0版本在自然语言交互、提示词泛化能力、多模型支持及视频编辑灵活性方面取得显著进步,代表了视频创作领域的突破性进展 [1][4][9][67] Medeo 1.0版本的核心能力与进步 - 支持通过自然语言对生成的视频进行灵活修改和调整,解决了早期同类产品执行路径死板、泛化性不强的问题 [1][8] - 支持超过上千字的超长提示词,并具备优秀的泛化性,能够制作各种风格和垂类视频 [1] - 几乎支持市面上所有常见的图像和视频生成模型,用户可通过提示词指定使用特定模型,例如Sora或Gemini [9][10] - 提供混合编辑体验,既支持自然语言编辑,也保留了用户熟悉的传统剪辑界面进行精细操控 [10] 产品功能与操作 - 界面简洁直观,提供包含画面、台词、剪辑方式及音乐的完整视频模板供用户直接套用 [5][6] - 支持生成16:9横版和9:16竖版两种常见比例视频 [6] - 提供高度自定义设置,包括视频时长、生成类型、画面风格、配音声音等 [6] - 支持从URL拉取或本地上传文本和图片作为创作素材 [6] - 用户仅需在输入框描述视频需求即可开始创作,无需过度详细描述 [7] 应用案例与提示词策略 - **微缩模型风格科普视频**:通过详细提示词定义了视觉风格、解说人设、配乐及剧本结构,成功生成关于《基地》小说世界观及SpaceX火箭回收的科普短片 [15][25][31] - **生活方式商品宣传片**:通过提示词将产品解构为艺术体验,强调感官美学与生活场景结合,成功为自定义键盘生成了高质量宣传视频,商品细节还原度极高 [32][34][36][39] - **哈基米Meme风格讲解视频**:通过上传并标记Meme角色图片,结合特定语言体系的提示词,成功将《诡秘之主》等作品改编为萌宠角色演绎的抽象风格讲解视频 [45][49][51][55] - 提示词创作模式强调与AI智能体的“共创”和迭代优化,AI能自行反思内容不足并提出改进方案 [20][22][30][47] 技术架构与行业意义 - 公司通过构建名为“Gensystem”的专用语言系统来解决视频创作的“不可能三角”难题,该系统由Medeo DSL、Context System和Environment三部分构成 [58][62] - 该架构旨在平衡使用门槛、生产成本和效果控制,避免传统产品存在的高门槛、工具割裂或内容多样性受限等问题 [60][62] - 系统的成功在于其强大的上下文管理、获取能力以及AI在图像设计、视频剪辑与构建方面的智能,使得单一提示词能完成多领域、多能力的视频构建 [64][65][66][67]
10个视频9个看走眼:连真视频都打Sora水印碰瓷,这世界还能信啥?
机器之心· 2025-10-23 13:09
AI生成视频的普遍性与识别挑战 - 互联网上充斥着大量真假难辨的AI生成视频,例如伪造的“中俄混血女明星回应”视频,其背景签名板和媒体logo均为虚假内容[1] - AI视频的识别难度日益增加,部分视频如寿喜火锅、烤面包等因细节把控精准而极难辨认,用户在无参照物的情况下大多不会质疑其真实性[4] - 存在故意给真实视频添加AI水印以混淆视听的现象,例如通过“Sora Maker”网站可为任何真实视频打上Sora水印,加剧了信息辨别的困难[11][13] AI视频识别技术的局限性 - 传统的鉴别方法如观察人物眼睛闪烁、口型不匹配或背景扭曲等已因技术迭代而基本失效[14] - 通过视频时长进行判断的方法也不再可靠,因AI模型已具备首尾帧续写功能,理论上可生成无限时长的视频[14] - 现有AI检测工具的准确率参差不齐,例如CatchMe工具在测试中对AI视频的生成概率检测结果为0%,准确率不高[21] 现有的AI内容检测工具 - AI or Not工具宣称在公开数据集上的检测准确率达到98.9%,可对图像、文本、音乐、声音和视频进行多模态检测,但视频检测需付费[16][17][18][22] - Deepware Scanner是一款专注于检测深度伪造视频的免费工具,但使用时常出现“无法扫描”的情况[24][25] - Google SynthID Detector并非通用鉴定器,其功能仅限于识别内容是否带有谷歌AI模型的SynthID水印[28][29] 行业监管与应对措施 - 中国国家网信办等四部门已于2025年9月1日开始施行《人工智能生成合成内容标识办法》,强制要求AI合成内容打上“电子水印”[9] - OpenAI在推出Sora2时也采取了为生成视频打水印的方式,以应对假信息泛滥和社会信任危机风险[7][10]
字节大佬创业,40天狂揽5.2亿融资!产品超1亿人在玩
搜狐财经· 2025-10-17 23:25
融资情况 - 爱诗科技于近期完成1亿元人民币B+轮融资 投资方包括复星锐正、同创伟业、顺禧基金等 [3] - 此前在9月10日公司完成B轮融资 金额超过6000万美元(约4.27亿元人民币)由阿里巴巴领投 创下国内视频生成领域单次最大融资额 [3] - 公司在2024年相继完成A2至A4轮融资 累计金额近3亿元人民币 A2轮由蚂蚁集团投资 [10] - 公司最早于2023年8月完成数千万元人民币天使轮融资 [10] 公司业务与产品 - 爱诗科技成立于2023年4月 专注于AI视频生成大模型及相关产品的研发应用 [3] - 公司是国内首个发布DiT架构视频生成模型的初创公司 [3] - 2024年1月面向海外市场推出首款产品PixVerse 以模板化视频生成为主要特色 [5] - 2025年6月推出面向国内用户的产品“拍我AI” [5] - 自研视频生成大模型已完成五次重要更新 共发布八个版本 [5] - 最新版本PixVerse V5于8月27日上线 重点优化动态表现、画面清晰度、一致性处理与指令响应能力 [5] - 同时上线Agent创作助手 帮助用户简化创作流程 无需复杂提示词即可制作视频 [5] 经营业绩与用户规模 - 公司产品用户规模已突破1亿 年度经常性收入(ARR)超过4000万美元(约2.85亿元人民币) [5] - 产品月活跃用户(MAU)超过1600万 [5] - 公司自2024年11月商业化至今不到一年时间 收入增长超过10倍 [5] - 是过去一年全球收入和用户增长最快的AI平台之一 [5] 市场认可与行业地位 - PixVerse在9月入选a16z“全球Top 50生成式AI消费级移动应用”榜单第25位 [8] - 根据数据机构AIGCRank数据 PixVerse在9月网站访问量增长超过26.91% [8] - 创始人兼CEO王长虎曾任字节跳动视觉技术负责人 从0到1参与抖音与TikTok等产品的视觉能力建设 [3]
当Sora2遇上国产 Vidu Q2,国产参考生真的更香了!一手亲测
量子位· 2025-10-10 19:24
文章核心观点 - AI视频生成领域的竞争已从单纯技术效果转向满足实际应用需求,关键在于技术能否成为可靠的生产力工具[39][40][41] - Vidu Q2参考生视频与Sora 2在多个维度上表现接近,但各自优势不同,Vidu在操作灵活性和一致性方面表现突出,Sora 2在音视频同步输出方面有优势[37][38][9] - 行业未来的竞争焦点是构建包含创意、生成、编辑、分发与商业化的完整生态,而不仅是视频生成效果[42][43] Vidu Q2参考生视频功能特点 - 功能支持上传多达7张参考图,并让图片联动生成视频,提供专业模式及多种参数自定义选项,如时长(2-8秒)、清晰度(1080p)、宽高比和生成数量(1-4个)[7][8][9] - 该功能于去年9月全球首次提出,Vidu Q2是其参考生视频的第5个迭代版本,预计本月底将有重大更新[4][6][46] 技术能力对比:一致性 - 在一致性测试中,Vidu Q2生成的人物和道具(如包包)全程无异常变化,道具颜色与原图高度相符[12][13][14] - 同样的提示词下,Sora 2生成的内容在基本一致性上存在不足,道具(包包)颜色和形态(如包带数量)发生变化[16] 技术能力对比:遵循物理规律 - 在遵循物理规律的复杂场景测试(如镜面反射舞蹈动作)中,Vidu Q2整体表现良好,仅存在少量细节错误[21][22][23] - Sora 2在处理包含写实人物的图像时存在限制,替换为动漫人物后仍无法生成,改用文字提示生成的结果在人物数量和音乐搭配上完成度较高,但出现无关人员(摄影师)[25][26] 技术能力对比:运镜技巧 - 在运镜测试中,Vidu Q2的镜头语言更符合日常动漫风格,能够实现从近景到远景再到特写的流畅切换和跟随[31][32][33] - Sora 2通过不停切镜来渲染紧张氛围,与Vidu Q2的运镜方式各有优势[34][35] 行业发展趋势与竞争壁垒 - AI视频技术正朝着工业化生产方向发展,一致性等功能是实现AI短剧、数字人广告等商业应用的基础,具有战略价值[41][42] - 行业竞争壁垒在于构建完整生态,Vidu已基于产品矩阵构建了主体库共享生态、商业化生态和创作者生态[43] - 技术的快速迭代正推动技术成熟和成本降低,这场竞赛被视为AI视频生产力革命的开始[44][45]
火爆如斯!即便存在使用限制,Sora APP首周下载量超过了ChatGPT
华尔街见闻· 2025-10-09 11:47
核心观点 - OpenAI视频生成应用Sora在iOS平台首周下载量达62.7万次,超越ChatGPT首周的60.6万次下载量,表现强劲 [1] - 尽管采用邀请制访问模式,Sora仍在发布后三天内登顶美国App Store总榜第一,超越Claude和Copilot等主要AI应用 [1][2] 市场表现与下载数据 - Sora在9月30日上线后,于10月1日达到单日iOS下载峰值107,800次,此后日下载量维持在84,400至98,500次区间 [2] - 即使扣除加拿大市场贡献的约45,000次下载,Sora在美国市场的首周表现仍达到ChatGPT首周成绩的96% [2] - 该应用上线首日即跃居美国App Store总榜第三位,并于10月3日成功登顶 [2] 发布策略与用户反响 - Sora采用邀请制发布策略,与ChatGPT的公开发布形成对比,但其在有限用户群体中实现了高下载转化率 [2] - 基于Sora 2视频模型生成的逼真深度伪造内容在社交媒体平台广泛传播,推动了用户关注和下载 [2] 社会影响与争议 - 用户利用该技术制作已故人物的AI生成内容,引发争议并促使相关家属公开要求停止此类行为 [3]