Workflow
AI视频生成
icon
搜索文档
应对Sora 2,谷歌发布新AI视频模型Veo 3.1:能精准可控视频生成
36氪· 2025-10-16 09:59
产品发布与定位 - 谷歌正式推出新一代AI视频生成模型Veo 3 1,显著提升了叙事控制能力、音频融合度与画面真实感[1] - 新模型为企业用户、开发团队和创意机构带来了可扩展、可定制的视频解决方案,同时保持了与前代一致的定价体系[1] - 与OpenAI的Sora 2相比,Veo 3 1的画面风格更偏向电影质感,视觉效果精致但稍显人工化,而Sora 2擅长自然抓拍风格[1] 核心技术升级 - Veo 3 1增强了对对话、环境音效等音频元素的处理能力,并实现了原生音频生成与视频的同步生成[2] - 音频生成功能已全面集成到Flow平台的三大核心功能:帧转视频、素材转视频和延伸视频[2] - 模型支持文本、图像、视频片段等多种输入形式,新引入的功能包括支持最多3张参考图像以精准控制视觉风格[3] - 新功能还包括插入对象和移除元素等编辑工具,但部分功能尚未完全开放给Gemini API用户[3] 平台部署与定价策略 - Veo 3 1通过Flow平台、Gemini API和即将支持企业级功能的Vertex AI等多个渠道提供服务[4][5] - 模型处于预览阶段,仅面向Gemini API付费用户开放,计费标准为:标准版每秒视频0 40美元,Fast版每秒视频0 15美元[5] - 采用按需计费模式,仅对成功生成的视频收费,无免费额度,便于企业进行预算管理[5] 技术规格与应用场景 - Veo 3 1支持720p与1080p分辨率输出,帧速率稳定在24帧/秒,基础生成长度为4秒、6秒或8秒,通过延伸功能最长可达148秒[6] - 企业用户上传产品图片或风格参考后,模型能够准确保持视觉元素的一致性,这对零售、广告等行业的内容标准化生产极具价值[6] - 平台提供的首尾帧插值技术可实现不同场景间的自然无缝过渡,场景延伸功能可智能延续原有视频的动作与运镜逻辑[4] 早期用户反馈与市场竞争 - 早期用户反馈呈现两极分化,有观点认为Veo 3 1效果明显逊于Sora 2且价格更高,但肯定了其在参考图像支持和工具链方面的优势[7] - 有用户指出模型存在局限,如缺乏自定义语音选项、基础生成时长卡在8秒上限,以及在多角度拍摄中保持角色一致性需精细提示词设计[8] - 谷歌Veo 3 1是首个实现原生AI同步音频生成的视频模型,但OpenAI Sora的崛起改变了竞争态势,行业标准正被不断抬高[11][14]
刚刚,谷歌Veo 3.1迎来重大更新,硬刚Sora 2
机器之心· 2025-10-16 08:51
模型发布与核心升级 - 谷歌发布最新AI视频生成模型Veo 3.1,是其前代Veo 3的升级版本 [2][5] - 新模型提升了提示词遵循度,并在以图生视频时提供更高的视听质量 [3] - 由其驱动的AI电影创作工具Flow同步更新,可实现更精细的视频片段编辑和颗粒化控制 [3] 增强的叙事与音频控制 - Veo 3.1增强了对对话、环境音效及其他音频效果的支持 [5] - 在Flow的多个核心功能中,如连帧成片、素材生成视频和延展,均已支持原生音频生成 [6] - 原生音频的引入让用户能更好地掌控视频的情绪、节奏与叙事基调,以往需后期制作的能力现可在生成阶段完成 [10] - 在企业场景中,该集成式创作方式有助于减少独立音频制作流程,适用于培训内容、营销视频等制作 [10] 更丰富的输入与编辑能力 - 模型可接受文本提示、图像以及视频片段作为输入 [12] - 支持参考图像(最多三张)以引导输出画面的外观与风格,支持首帧与末帧插值以生成平滑过渡场景,支持场景延展让动作持续发展 [12] - 引入新功能如插入(向场景添加物体)和移除(删除元素或角色) [13] 技术规格与输出能力 - Veo 3.1支持输出720p或1080p分辨率的视频,帧率为24帧/秒 [18] - 使用文本提示或上传图像生成视频时,时长可选4秒、6秒或8秒 [22] - 使用Extend功能,视频最长可扩展至148秒(超过两分半) [22] - 新功能带来对主体与环境的更精确控制,有助于保持品牌外观特征与风格一致性,简化零售、广告等行业的创意生产流程 [19] 多平台部署与定价 - Veo 3.1可通过谷歌旗下AI服务访问,包括Flow、Gemini API和Vertex AI [15][20] - 模型目前处于预览阶段,仅在Gemini API的付费层级中可用 [16] - 收费结构与Veo 3一致,标准模型为每秒视频0.40美元,快速模型为每秒视频0.15美元 [21] - 采用视频成功生成后才计费的方式,为企业团队提供可预测的预算模式 [16]
一夜之间,Sora成了全球最会玩梗的赛博老资历
36氪· 2025-10-16 08:27
01 赛博老资历 这段时间只要上过网,几乎没有人能躲过来自Sora的抽象暴击。 本次上线的Sora-2作为OpenAI憋了许久的大招,曾一度被外界质疑为是PPT进度,不过随着它的正式出现,全网梗文化彻底迈入了视频时代。 你能看到被P成冰红茶外包装多年的科比,终于"如愿以偿"地拍上了AI版冰红茶广告,无论是运镜还是动作,都惟妙惟肖,科比要是当年有幸代言,或许 真就是这幅光景。 AI科比读出"冰力十足"的刹那,小脑都萎缩了 还能看到平行时空的国足在世界杯上夺冠,欢呼声中捧起了那座梦里才有的大力神杯,比赛解说饱含激情的"我们夺冠了",简直比AI本身还讽刺,可能 整个视频中最不符合现实的地方反倒是国足本身。 退钱哥看了流泪 国足都能夺冠了,那么李白坐着快艇在三峡吟诗作赋,霍金在轮椅上决战F1大奖赛力压汉密尔顿应该也不算奇怪。 以往连人脸和动作都难以稳定的AI视频,咋一下就变得这么逆天了? 运镜无敌了 起初,人们没想到AI视频大模型能彻底颠覆互联网狠活文化。 在十月初刚刚上线时,大伙儿对Sora的"内容开发"还主要停留在恶搞创始人山姆·奥特曼身上,让他说着地道中文,无痛入职阿里、腾讯、字节、华为等中 国企业,一颦一笑之 ...
Sora2不够香了!这款国产AI视频模型已经能边看边生成,生成快还互动佳
量子位· 2025-10-15 18:20
核心观点 - 百度蒸汽机模型实现了AI视频生成从“短片段、单向输出”到“长篇叙事、实时交互共创”的范式转变,在实时流式生成能力上超越Sora2等当前主流模型 [9][15][44][63] 技术能力与产品特性 - 模型支持“图生视频”和“视频生视频”两种生成模式,仅需一张图片和一个简单指令即可生成长视频,大幅降低操作门槛 [17][18] - 实现“边看边生、实时交互、无限续写”三大功能:生成过程流式呈现,用户可实时查看进展;支持随时中断生成并修改提示词,无需从头开始;可上传任意视频进行续写,打破生成长度限制 [6][7][22][24][39][40][42][43] - 生成有声视频时最长时长为5-10秒,生成无声视频时默认时长为20秒,可选择10-60秒 [21][27][28] - 在开放世界生成中表现优异,用户可通过WASD+鼠标控制视角进行自由探索 [31][32] 技术架构创新 - 采用自回归扩散模型架构,通过流式滑窗实现低成本无限外推和实时生成 [45] - 引入噪声重注入和历史帧扰动增强机制,提升模型应对突发调整的稳定性和准确性 [45][46] - 通过锚点帧引导和历史参考帧技术保障生成画面的全局一致性与连续性 [47] - 基于高压缩比生成技术,结合窗口attention优化和模型蒸馏,将推理延迟压缩至近乎实时 [47][48] 行业影响与市场定位 - 百度蒸汽机在5月份以89.38%的得分首次亮相即登上VBench-I2V图生视频全球榜单第一 [5][61] - 公司于7月发布支持音画一体生成的模型,于8月实现多人有声视频生成,于9月推出通用AI长视频生成功能,于10月将AI视频带入实时交互时代 [53][61] - 该技术推动AI视频能力向导购、直播、教育、影视制作等商业和应用场景延伸,使其从创意工具转变为创意伙伴和新型创作平台 [58][59]
Sora 2颠覆短视频,传统玩家们如何接招?
虎嗅· 2025-10-15 17:45
产品发布与市场反响 - OpenAI推出视频生成模型升级版Sora 2及同名AI短视频应用Sora App [2] - 应用上线不到五天下载量突破100万次,速度超越ChatGPT创下新纪录 [3] - 尽管仅限iOS设备、北美地区且采用邀请制,Sora仍迅速攀升至苹果应用商店下载榜榜首 [4] 技术突破与核心优势 - Sora 2相比前代实现跨越式进步,核心在于开始真正理解和模拟真实世界的物理规则,例如篮球未投进会打板反弹而非“瞬移”进筐 [10] - 模型从简单的像素拼贴转向构建能够理解因果关系的“世界模型” [11] - 实现革命性音画同步,将人物对话、音效和环境音直接整合进视频,解决了此前AI视频仅为“默片”的痛点 [13][16] - 多镜头衔接自然流畅,堪比电影级效果,极大降低了专业级视频制作的门槛,实现输入文字即可开箱即用 [17][18][19] - 模型在处理复杂运动学和人物身体力学方面有显著提升,能根据文本指令生成动作丝滑的视频 [12] 平台生态与社交功能 - Sora App构建了“创作—分发—社交”的生态闭环,其平台采用TikTok式瀑布流设计 [22] - Cameo功能作为社交裂变引擎,用户可录制个人视频让AI学习,后将自身形象融入AI生成场景,实现创意视频中当主角的效果 [25][26] - Remix功能允许用户对视频中的人物、背景等进行“对象级”和“场景级”的AI重构替换,操作简便且能自动适配光影效果 [29][30][31] - 平台针对用户肖像权问题进行处理,用户拥有自主权决定谁可使用其形象,并可随时撤销授权或删除相关视频 [28] - 通过“浏览-激发-创作-分享”的飞轮效应,形成自我生长的内容生态,完成从工具到渠道再到平台的三级跳 [32][33][34] 行业影响与竞争格局 - Sora 2树立了新标杆,正推动行业整体迭代升级,引发谷歌Veo、百度蒸汽机等竞争对手加速技术更新,一场技术军备竞赛已然打响 [20][21] - Sora的出现对创意广告、影视短剧行业是效率革命,可将制作周期从团队数周缩短至个人半天,成本从数十万降至几百块 [38] - AIGC兼具UGC的海量与PGC的质感,并能实现实拍无法企及的想象力场景,对依赖UGC生活化内容或PGC精良制作的现有平台构成降维打击 [39] - 传统短视频平台面临两难战略抉择:在现有应用内集成AI功能将面临真假内容治理难题;另起炉灶推出AI原生应用则需跨越技术、内容、推广三座大山 [40][41][42] - 行业竞争本质已从内容分发效率转向AI生成能力和AIGC平台新玩法,Sora重新定义了赛道 [43]
OpenAI生态布局与Sora2创新
国新证券· 2025-10-13 20:40
行业投资评级 - 行业评级:看好 [5] 报告核心观点 - OpenAI通过“星际之门”项目布局下一代AI基础设施,与硬件厂商以创新资本模式深度合作,算力需求爆发式增长推动营收快速上升 [2] - OpenAI正推动ChatGPT从工具向操作系统级平台转型,用户活跃度持续提升,使用场景生活化,付费意愿强劲,展现平台化潜力 [2] - Sora 2的发布标志着AI视频生成进入新纪元,实现技术突破并通过社交化功能降低使用门槛,推动产品向大众化创意平台演进 [2] - AI视频生成在B端和C端均呈现快速增长,但行业仍面临算力成本高、技术成熟度待提升等挑战 [2] 硬件与算力生态 - OpenAI“星际之门”项目计划四年内投入5000亿美元建设10GW电力容量的AI基础设施,相当于全球现有AI数据中心总算力的五分之一 [8] - 创新资本合作模式:英伟达承诺投资1000亿美元锁定未来10GW芯片供应,AMD以1.6亿股认股权证换取OpenAI部署6GW AMD GPU,博通获得100亿美元3nm ASIC订单 [8] - OpenAI每个大版本模型训练所需计算量有近10倍提升,API调用量达每分钟60亿Token,2025年上半年实现43亿美元营收,较2024全年高出16%,预计全年营收达130亿美元 [9] 软件生态与用户行为 - OpenAI推动ChatGPT向“操作系统级平台”转型,通过Apps SDK、AgentKit与Codex开放第三方应用生态,实现全屏交互与支付功能 [10] - 截至2025年7月,ChatGPT周活跃用户突破7亿(覆盖全球10%成年人),日均处理消息量超25亿条,同比增长超5倍,非工作场景对话占比从2024年6月的53%升至2025年6月的73% [11] - 用户使用场景集中于实用指导、信息查询与写作辅助(合计占比近80%),咨询类消息占比49%,执行类消息占40% [11] - 女性用户占比从初期不足20%升至2025年的52%,中低收入国家用户增长率达高收入国家的4倍,ChatGPT Plus的6个月留存率达71%,用户月均补偿意愿为98美元 [11] Sora2的技术突破与产品创新 - Sora 2在物理模拟、真实感表现与多镜头控制等方面实现显著跃升,突破性实现音画原生协同生成,通过世界状态跟踪技术保障多镜头叙事一致性 [12] - Sora App采用邀请制上线,三天内登顶美国iOS免费榜,引入Cameo数字分身与Remix二次创作功能,将视频生成从工具属性转变为社交语言 [12] - Sora 2战略性地降低技术门槛,以极简操作界面和社交化功能设计吸引普通用户,推动AI视频日常化 [13] 市场空间与商业化前景 - 2024-2032年,全球AI视频生成市场预计将以19.5%的年复合增长率持续扩张,核心动力在于对传统视频制作市场的颠覆性成本替代效应 [14] - 主流模型已能支持生成长达数分钟的高清视频,原生音画同步技术与简化操作界面显著降低使用门槛,推动技术从专业工具向大众化产品转变 [14] - AI视频生成在B端深入影视制作、广告营销、电商展示等环节,在C端通过社交分享和创意玩法吸引用户,为未来流量变现奠定基础 [15] - 行业规模化面临高昂算力成本,一个活跃的AI视频应用每日推理成本可能高达数百万美元,物理规律模拟准确性和长视频连贯性仍需优化 [16][17] 投资线索 - 算力基础设施领域:服务器(如浪潮信息、中科曙光)、光模块(如中际旭创、新易盛)、液冷散热技术(如英维克、高澜股份)厂商迎来市场机遇 [22][23] - 应用生态领域:阿里通过通义千问模型布局,快手可灵AI、字节跳动Seedance、生数科技Vidu、爱诗科技PixVerse等产品快速迭代 [23] - 垂直行业解决方案:广告营销领域(如蓝色光标)、短剧制作领域(如中文在线)、企业服务领域(如泛微网络、金蝶国际)获得发展机遇 [23]
Sora不再死磕好莱坞,AI视频生成要靠大众参与破局?
虎嗅· 2025-10-13 10:50
公司战略与产品定位 - Sora不再执着于好莱坞大片,转向更广泛的应用场景 [1] - 公司产品从AI视频生成工具转变为娱乐玩具 [1] - Sora 2的发布被视为对视频生成平台的一次重要示范 [1] 行业影响与竞争格局 - AI视频生成技术的应用领域扩展至模拟人生等互动娱乐 [1] - 行业内的视频生成平台面临来自Sora 2的竞争压力 [1]
实测“清华特奖版Sora”:一图一prompt直接生成视频,堪称嘴强王者
量子位· 2025-10-12 10:05
产品核心定位与差异化 - 产品为音画同步视频生成模型GAGA-1,专注于打磨“声音+表演”能力,核心竞争力在于“说话和表演” [3][23][29] - 与追求全能的多模态模型形成差异化,清晰聚焦于“嘴功”和“表演感”,将音画同步的台词生成体验打磨得异常扎实、实用 [3][23][30] - 平台提供从图像生成到视频合成的全链路流程,内置NanoBanana模型,用户可在一个平台内完成从图到视频的全部操作 [7][8] 产品功能与用户体验 - 平台无需邀请码即可免费使用,用户体验门槛低 [4] - 核心功能Gaga Actor操作简便,用户上传一张图片并输入提示词,AI角色即可实现“对嘴开演” [5][7] - 在免费前提下,生成的视频分辨率表现优秀,人物表情、动作自然,嘴型和台词同步效果较好 [11][12] 技术能力评估:优势领域 - 模型在口型同步、语速自然度及台词节奏把控上表现精准,例如梵高视频中能生成符合角色设定的“emo式声线”且手部保持不动 [15][16] - 对于单角色、台词驱动的场景,其神态演绎和提示词理解能力到位,被评价为“优等生” [16][18][23] 技术能力评估:当前局限 - 在处理复杂场景时存在局限,如多角色互动场景下角色动作易脱节、面部形象不稳定、剧情逻辑易断裂 [20][21][23] - 镜头调度能力有待加强,例如未能根据提示词成功切换至观众席镜头 [14][15] - 在动作生成方面表现较弱,测试中多角色(如打麻将的猫、吃火锅的动物)未能产生有效互动,更像静态写真 [20][21][22] 团队背景与实力 - 开发团队Sand.ai实力雄厚,其创始人曹越为清华特奖获得者,博士毕业于清华大学软件学院,并以Swin Transformer共同一作身份获ICCV最佳论文“马尔奖” [1][26][27] - 团队此前已发布实现顶级画质输出的自回归视频生成模型Magi-1,技术积累深厚 [24][25]
Sora 2引爆文生视频赛道,市场年均增速20%,机构建议关注三大方向
36氪· 2025-10-11 19:09
产品技术升级 - OpenAI推出视频生成模型Sora 2的重大升级,新版本在物理准确性、逼真度、可控性方面均有提升,并实现同步生成音频和对话的能力[1] - Sora 2被定义为视频生成领域的GPT-3.5时刻,在物理运动、人物塑造、跨镜头一致性控制及多模态协同能力方面取得突破,支持多镜头切换和人物口型与发音精准对齐[3] - 竞争对手xAI推出Grok Imagine v0.9,支持从静态图像转化为动态视频并集成背景音乐与对话;谷歌Veo 3.1能生成8秒720p含音轨视频,行业竞争加剧[3][4] 市场反应与表现 - Sora 2上线后不到五天下载量突破100万次,增长速度超过ChatGPT[3] - 相关概念股逆势上涨,初灵信息涨12.94%,开普云涨4.52%,视觉中国涨3.11%[1] - 2024年AI视频生成全球市场规模为6.15亿美元,预计2025年达7.17亿美元(同比增长17%),2032年有望达25.63亿美元,2025-2032年复合增长率为20%[6] 产业链与商业应用 - 文生视频行业形成“模型能力-用户场景-商业变现”完整链路,以“数据飞轮+社交网络”构建护城河[6] - AI视频生成技术从辅助创作迈向自主生成,影视、广告、游戏等行业将受益于降本增效,并催生新的商业形态[8] - 机构看好三大投资主线:算力需求爆发与架构多元化、AIoT终端(AR眼镜/人形机器人/AI手机)放量、AI+视频在金融/医疗/教育场景的飞轮效应[8] 国内公司布局 - 汉王科技在多模态识别、文本理解等技术上深耕,形成智能终端产品和行业解决方案[6] - 视觉中国与智谱清影、通义千问合作,将光厂创意平台接入文生视频API,2025年上半年视觉内容与服务营收3.99亿元(同比增长0.05%)[6] - 风语筑在数字人驱动、文生文、文生图等场景引入AIGC技术,并积极探索文生视频、图生视频等生成式3D内容场景[7]
马斯克硬刚 Sora,实测 Grok 最新视频生成:快到飞起,但一言不合就脱衣服
36氪· 2025-10-11 17:44
最近,一个 AI 视频工具让社交网络陷入了一场小小的疯狂。 输入提示词「情侣」,选择「火辣模式」,AI 就会毫不犹豫地让他们脱掉衣服。这个简单粗暴的 AI,就是马斯克在 10 月 5 日高调更新的 Grok Imagine v0.9。 它的出现,距离 OpenAI 发布全新视频模型和社交应用,并火速登顶 App Store 榜首,仅过去了两天。马斯克继续选择用他认为,最大胆、最惹眼的方 式,来参与这场愈演愈烈的 AI 视频生成较量。 快是真的,效果有点「马斯克味」 上手 Grok Imagine v0.9,最直观的感受就是量大管饱,而且速度快。和马斯克在 X 上转发那些用 Imagine 生成的视频帖子,提到的内容一样,这次更新的 核心亮点之一就是生成速度。 在 Grok Imagine 的页面,我们可以输入提示词、上传文件、或者绘制草图几种方式来生成视频。 输入提示词,Imagine 首先会生成一系列的图片,图片的生成速度完全做到了「边滚动边呈现」的流畅体验。 但他的目标不止于此。马斯克宣称,要用 Grok 在 2026 年底前制作出一部值得一看的电影。这个被注入了 Spicy 火辣灵魂的 AI,真的能撑起 ...