AI视频生成
搜索文档
一夜之间,Sora成了全球最会玩梗的赛博老资历
36氪· 2025-10-16 08:27
Sora-2技术能力突破 - 模型实现代际跨越,从Sora-1的“GPT-1时刻”直接跃升至“GPT-3.5时刻”,技术进展巨大[4] - 核心突破在于能高度模拟现实物理效果,并可将现实拍摄素材无缝“注入”到生成视频中,实现“遵循物理定律”[4] - 升级为音视频同步生成模型,能生成不同语言及方言的语音对话,并模拟不同环境音效[4] - 视频生成质量显著提升,运镜、人物动作和神态等细节高度逼真,达到“以假乱真”水平[1][8][9] 产品化与生态布局 - 同步上线Sora app,展现OpenAI在内容生成领域社交化的战略意图,目前处于邀请测试阶段,全球邀请码遭抢购[4] - OpenAI与甲骨文、英伟达构建算力生态闭环:OpenAI向甲骨文购买云算力,甲骨文采购英伟达GPU,英伟达再投资OpenAI,形成自我加速的垄断态势[34][35] 用户内容生成趋势与社会影响 - 用户生成内容呈现高度本土化与“造梗”特征,深度结合特定国情与互联网亚文化,如中式酒桌文化、学校宣誓场景等,远超简单刻板印象[8][9][10] - AI视频成为“地狱笑话”和敏感历史人物二创的新载体,例如生成已故名人代言广告或组成乐队,引发伦理争议[11][13][15][18] - 生成内容真实性引发信任危机,部分真实视频被加上Sora水印以规避版权,导致“赛博狼人杀”现象,公众难以辨别真伪[17] 版权与法律挑战 - 好莱坞四大顶级经纪公司联合声明,指控Sora早期采用的“默认使用-选择退出”机制侵犯创作者肖像权与版权,实质剥夺创作者知情权与选择权[28] - 迪士尼、华纳兄弟等影视巨头发布内部通告,明确禁止其旗下角色、场景被Sora生成使用,并威胁采取法律行动[31] - 传统版权体系面临巨大挑战,AI生成视频体量庞大,难以有效监管,未来可能需要依赖AI法务进行处理[31]
Sora2不够香了!这款国产AI视频模型已经能边看边生成,生成快还互动佳
量子位· 2025-10-15 18:20
核心观点 - 百度蒸汽机模型实现了AI视频生成从“短片段、单向输出”到“长篇叙事、实时交互共创”的范式转变,在实时流式生成能力上超越Sora2等当前主流模型 [9][15][44][63] 技术能力与产品特性 - 模型支持“图生视频”和“视频生视频”两种生成模式,仅需一张图片和一个简单指令即可生成长视频,大幅降低操作门槛 [17][18] - 实现“边看边生、实时交互、无限续写”三大功能:生成过程流式呈现,用户可实时查看进展;支持随时中断生成并修改提示词,无需从头开始;可上传任意视频进行续写,打破生成长度限制 [6][7][22][24][39][40][42][43] - 生成有声视频时最长时长为5-10秒,生成无声视频时默认时长为20秒,可选择10-60秒 [21][27][28] - 在开放世界生成中表现优异,用户可通过WASD+鼠标控制视角进行自由探索 [31][32] 技术架构创新 - 采用自回归扩散模型架构,通过流式滑窗实现低成本无限外推和实时生成 [45] - 引入噪声重注入和历史帧扰动增强机制,提升模型应对突发调整的稳定性和准确性 [45][46] - 通过锚点帧引导和历史参考帧技术保障生成画面的全局一致性与连续性 [47] - 基于高压缩比生成技术,结合窗口attention优化和模型蒸馏,将推理延迟压缩至近乎实时 [47][48] 行业影响与市场定位 - 百度蒸汽机在5月份以89.38%的得分首次亮相即登上VBench-I2V图生视频全球榜单第一 [5][61] - 公司于7月发布支持音画一体生成的模型,于8月实现多人有声视频生成,于9月推出通用AI长视频生成功能,于10月将AI视频带入实时交互时代 [53][61] - 该技术推动AI视频能力向导购、直播、教育、影视制作等商业和应用场景延伸,使其从创意工具转变为创意伙伴和新型创作平台 [58][59]
Sora 2颠覆短视频,传统玩家们如何接招?
虎嗅· 2025-10-15 17:45
产品发布与市场反响 - OpenAI推出视频生成模型升级版Sora 2及同名AI短视频应用Sora App [2] - 应用上线不到五天下载量突破100万次,速度超越ChatGPT创下新纪录 [3] - 尽管仅限iOS设备、北美地区且采用邀请制,Sora仍迅速攀升至苹果应用商店下载榜榜首 [4] 技术突破与核心优势 - Sora 2相比前代实现跨越式进步,核心在于开始真正理解和模拟真实世界的物理规则,例如篮球未投进会打板反弹而非“瞬移”进筐 [10] - 模型从简单的像素拼贴转向构建能够理解因果关系的“世界模型” [11] - 实现革命性音画同步,将人物对话、音效和环境音直接整合进视频,解决了此前AI视频仅为“默片”的痛点 [13][16] - 多镜头衔接自然流畅,堪比电影级效果,极大降低了专业级视频制作的门槛,实现输入文字即可开箱即用 [17][18][19] - 模型在处理复杂运动学和人物身体力学方面有显著提升,能根据文本指令生成动作丝滑的视频 [12] 平台生态与社交功能 - Sora App构建了“创作—分发—社交”的生态闭环,其平台采用TikTok式瀑布流设计 [22] - Cameo功能作为社交裂变引擎,用户可录制个人视频让AI学习,后将自身形象融入AI生成场景,实现创意视频中当主角的效果 [25][26] - Remix功能允许用户对视频中的人物、背景等进行“对象级”和“场景级”的AI重构替换,操作简便且能自动适配光影效果 [29][30][31] - 平台针对用户肖像权问题进行处理,用户拥有自主权决定谁可使用其形象,并可随时撤销授权或删除相关视频 [28] - 通过“浏览-激发-创作-分享”的飞轮效应,形成自我生长的内容生态,完成从工具到渠道再到平台的三级跳 [32][33][34] 行业影响与竞争格局 - Sora 2树立了新标杆,正推动行业整体迭代升级,引发谷歌Veo、百度蒸汽机等竞争对手加速技术更新,一场技术军备竞赛已然打响 [20][21] - Sora的出现对创意广告、影视短剧行业是效率革命,可将制作周期从团队数周缩短至个人半天,成本从数十万降至几百块 [38] - AIGC兼具UGC的海量与PGC的质感,并能实现实拍无法企及的想象力场景,对依赖UGC生活化内容或PGC精良制作的现有平台构成降维打击 [39] - 传统短视频平台面临两难战略抉择:在现有应用内集成AI功能将面临真假内容治理难题;另起炉灶推出AI原生应用则需跨越技术、内容、推广三座大山 [40][41][42] - 行业竞争本质已从内容分发效率转向AI生成能力和AIGC平台新玩法,Sora重新定义了赛道 [43]
OpenAI生态布局与Sora2创新
国新证券· 2025-10-13 20:40
行业投资评级 - 行业评级:看好 [5] 报告核心观点 - OpenAI通过“星际之门”项目布局下一代AI基础设施,与硬件厂商以创新资本模式深度合作,算力需求爆发式增长推动营收快速上升 [2] - OpenAI正推动ChatGPT从工具向操作系统级平台转型,用户活跃度持续提升,使用场景生活化,付费意愿强劲,展现平台化潜力 [2] - Sora 2的发布标志着AI视频生成进入新纪元,实现技术突破并通过社交化功能降低使用门槛,推动产品向大众化创意平台演进 [2] - AI视频生成在B端和C端均呈现快速增长,但行业仍面临算力成本高、技术成熟度待提升等挑战 [2] 硬件与算力生态 - OpenAI“星际之门”项目计划四年内投入5000亿美元建设10GW电力容量的AI基础设施,相当于全球现有AI数据中心总算力的五分之一 [8] - 创新资本合作模式:英伟达承诺投资1000亿美元锁定未来10GW芯片供应,AMD以1.6亿股认股权证换取OpenAI部署6GW AMD GPU,博通获得100亿美元3nm ASIC订单 [8] - OpenAI每个大版本模型训练所需计算量有近10倍提升,API调用量达每分钟60亿Token,2025年上半年实现43亿美元营收,较2024全年高出16%,预计全年营收达130亿美元 [9] 软件生态与用户行为 - OpenAI推动ChatGPT向“操作系统级平台”转型,通过Apps SDK、AgentKit与Codex开放第三方应用生态,实现全屏交互与支付功能 [10] - 截至2025年7月,ChatGPT周活跃用户突破7亿(覆盖全球10%成年人),日均处理消息量超25亿条,同比增长超5倍,非工作场景对话占比从2024年6月的53%升至2025年6月的73% [11] - 用户使用场景集中于实用指导、信息查询与写作辅助(合计占比近80%),咨询类消息占比49%,执行类消息占40% [11] - 女性用户占比从初期不足20%升至2025年的52%,中低收入国家用户增长率达高收入国家的4倍,ChatGPT Plus的6个月留存率达71%,用户月均补偿意愿为98美元 [11] Sora2的技术突破与产品创新 - Sora 2在物理模拟、真实感表现与多镜头控制等方面实现显著跃升,突破性实现音画原生协同生成,通过世界状态跟踪技术保障多镜头叙事一致性 [12] - Sora App采用邀请制上线,三天内登顶美国iOS免费榜,引入Cameo数字分身与Remix二次创作功能,将视频生成从工具属性转变为社交语言 [12] - Sora 2战略性地降低技术门槛,以极简操作界面和社交化功能设计吸引普通用户,推动AI视频日常化 [13] 市场空间与商业化前景 - 2024-2032年,全球AI视频生成市场预计将以19.5%的年复合增长率持续扩张,核心动力在于对传统视频制作市场的颠覆性成本替代效应 [14] - 主流模型已能支持生成长达数分钟的高清视频,原生音画同步技术与简化操作界面显著降低使用门槛,推动技术从专业工具向大众化产品转变 [14] - AI视频生成在B端深入影视制作、广告营销、电商展示等环节,在C端通过社交分享和创意玩法吸引用户,为未来流量变现奠定基础 [15] - 行业规模化面临高昂算力成本,一个活跃的AI视频应用每日推理成本可能高达数百万美元,物理规律模拟准确性和长视频连贯性仍需优化 [16][17] 投资线索 - 算力基础设施领域:服务器(如浪潮信息、中科曙光)、光模块(如中际旭创、新易盛)、液冷散热技术(如英维克、高澜股份)厂商迎来市场机遇 [22][23] - 应用生态领域:阿里通过通义千问模型布局,快手可灵AI、字节跳动Seedance、生数科技Vidu、爱诗科技PixVerse等产品快速迭代 [23] - 垂直行业解决方案:广告营销领域(如蓝色光标)、短剧制作领域(如中文在线)、企业服务领域(如泛微网络、金蝶国际)获得发展机遇 [23]
Sora不再死磕好莱坞,AI视频生成要靠大众参与破局?
虎嗅· 2025-10-13 10:50
公司战略与产品定位 - Sora不再执着于好莱坞大片,转向更广泛的应用场景 [1] - 公司产品从AI视频生成工具转变为娱乐玩具 [1] - Sora 2的发布被视为对视频生成平台的一次重要示范 [1] 行业影响与竞争格局 - AI视频生成技术的应用领域扩展至模拟人生等互动娱乐 [1] - 行业内的视频生成平台面临来自Sora 2的竞争压力 [1]
实测“清华特奖版Sora”:一图一prompt直接生成视频,堪称嘴强王者
量子位· 2025-10-12 10:05
产品核心定位与差异化 - 产品为音画同步视频生成模型GAGA-1,专注于打磨“声音+表演”能力,核心竞争力在于“说话和表演” [3][23][29] - 与追求全能的多模态模型形成差异化,清晰聚焦于“嘴功”和“表演感”,将音画同步的台词生成体验打磨得异常扎实、实用 [3][23][30] - 平台提供从图像生成到视频合成的全链路流程,内置NanoBanana模型,用户可在一个平台内完成从图到视频的全部操作 [7][8] 产品功能与用户体验 - 平台无需邀请码即可免费使用,用户体验门槛低 [4] - 核心功能Gaga Actor操作简便,用户上传一张图片并输入提示词,AI角色即可实现“对嘴开演” [5][7] - 在免费前提下,生成的视频分辨率表现优秀,人物表情、动作自然,嘴型和台词同步效果较好 [11][12] 技术能力评估:优势领域 - 模型在口型同步、语速自然度及台词节奏把控上表现精准,例如梵高视频中能生成符合角色设定的“emo式声线”且手部保持不动 [15][16] - 对于单角色、台词驱动的场景,其神态演绎和提示词理解能力到位,被评价为“优等生” [16][18][23] 技术能力评估:当前局限 - 在处理复杂场景时存在局限,如多角色互动场景下角色动作易脱节、面部形象不稳定、剧情逻辑易断裂 [20][21][23] - 镜头调度能力有待加强,例如未能根据提示词成功切换至观众席镜头 [14][15] - 在动作生成方面表现较弱,测试中多角色(如打麻将的猫、吃火锅的动物)未能产生有效互动,更像静态写真 [20][21][22] 团队背景与实力 - 开发团队Sand.ai实力雄厚,其创始人曹越为清华特奖获得者,博士毕业于清华大学软件学院,并以Swin Transformer共同一作身份获ICCV最佳论文“马尔奖” [1][26][27] - 团队此前已发布实现顶级画质输出的自回归视频生成模型Magi-1,技术积累深厚 [24][25]
Sora 2引爆文生视频赛道,市场年均增速20%,机构建议关注三大方向
36氪· 2025-10-11 19:09
产品技术升级 - OpenAI推出视频生成模型Sora 2的重大升级,新版本在物理准确性、逼真度、可控性方面均有提升,并实现同步生成音频和对话的能力[1] - Sora 2被定义为视频生成领域的GPT-3.5时刻,在物理运动、人物塑造、跨镜头一致性控制及多模态协同能力方面取得突破,支持多镜头切换和人物口型与发音精准对齐[3] - 竞争对手xAI推出Grok Imagine v0.9,支持从静态图像转化为动态视频并集成背景音乐与对话;谷歌Veo 3.1能生成8秒720p含音轨视频,行业竞争加剧[3][4] 市场反应与表现 - Sora 2上线后不到五天下载量突破100万次,增长速度超过ChatGPT[3] - 相关概念股逆势上涨,初灵信息涨12.94%,开普云涨4.52%,视觉中国涨3.11%[1] - 2024年AI视频生成全球市场规模为6.15亿美元,预计2025年达7.17亿美元(同比增长17%),2032年有望达25.63亿美元,2025-2032年复合增长率为20%[6] 产业链与商业应用 - 文生视频行业形成“模型能力-用户场景-商业变现”完整链路,以“数据飞轮+社交网络”构建护城河[6] - AI视频生成技术从辅助创作迈向自主生成,影视、广告、游戏等行业将受益于降本增效,并催生新的商业形态[8] - 机构看好三大投资主线:算力需求爆发与架构多元化、AIoT终端(AR眼镜/人形机器人/AI手机)放量、AI+视频在金融/医疗/教育场景的飞轮效应[8] 国内公司布局 - 汉王科技在多模态识别、文本理解等技术上深耕,形成智能终端产品和行业解决方案[6] - 视觉中国与智谱清影、通义千问合作,将光厂创意平台接入文生视频API,2025年上半年视觉内容与服务营收3.99亿元(同比增长0.05%)[6] - 风语筑在数字人驱动、文生文、文生图等场景引入AIGC技术,并积极探索文生视频、图生视频等生成式3D内容场景[7]
马斯克硬刚 Sora,实测 Grok 最新视频生成:快到飞起,但一言不合就脱衣服
36氪· 2025-10-11 17:44
Grok Imagine v0.9产品特性 - 核心亮点是生成速度极快,提供无限滚动的图片流并可迅速转换为视频[1][4][6] - 提供独特的“火辣模式”,在处理大尺度创意时展现出离经叛道的魅力[1][2] - 支持三种输入方式:文本提示词、上传图片和绘制草图[6][12] - 视频生成提供四种类型:火辣模式、趣味模式、正常模式以及自定义提示词[8] - 当前版本生成的视频规格为5秒时长、464×688分辨率、16fps帧率[18][19] - 目前没有直接的文本到视频生成功能,但用户可通过上传纯黑图片并输入提示词的方式实现类似效果[12][13][16] 公司战略与行业愿景 - 公司宣称目标是在2026年底前使用Grok制作出一部值得一看的电影[1] - 公司计划在2026年底前发布一款强大的AI生成视频游戏,并已开始招聘“视频游戏导师”[19][23] - 公司认为最大胆、最惹眼的方式是参与AI视频生成较量的关键策略[1][38] - 行业观点认为AI提示能让小型开发团队制作出《塞尔达传说:旷野之息》规模的游戏,解锁全新类型和体验[37] 技术能力与市场反响 - 对比八月份的v0.1版本,v0.9在画面质量、动态效果及音频生成方面有较大升级[2] - 产品擅长处理各种运镜方式、相机角度以及摄影风格,在延时摄影、俯视、广角等场景表现出色[12] - 社交媒体上充斥着大量由该工具生成的不雅视频,为产品带来大量话题度,但也掩盖了其他创意应用[11] - 产品存在明显的AI偏见,例如在“火辣模式”下倾向于将男性身材转换为女性形象[11] 人力资源与运营支持 - 公司为“视频游戏导师”职位开出45美元/小时至100美元/小时的兼职工资[34] - 该职位要求具备游戏设计经验,特别是在独立游戏开发方面,并需展示项目作品集[26][29] - 职位地点可选择在加州帕洛阿尔托(需每周办公室工作5天)或完全远程[32][36] - 公司明确表示无法提供签证支持,且目前无法在美国怀俄明州和伊利诺伊州招聘[33][36]
马斯克硬刚 Sora!实测 Grok 最新视频生成:快到飞起,但一言不合就脱衣服
搜狐财经· 2025-10-11 13:43
Grok Imagine v0.9产品更新 - 马斯克旗下xAI公司于10月5日发布Grok Imagine v0.9版本,距离OpenAI发布新视频模型仅两天[1] - 新版本在画面质量、动态效果及音频生成方面较8月的v0.1版本有较大升级[2] - 核心亮点包括生成速度极快,支持图片无限滚动实时生成,图片转视频过程几乎无需等待[4][6] - 提供文本提示词、文件上传、草图绘制三种视频生成方式,其中文本生成需先产生图片流再转换为视频[6][8][15] - 目前生成的视频时长仅为5秒,分辨率为464×688,帧率为16fps,而标准电影帧率为24fps[20][21] - 产品尚未提供直接文本到视频生成功能,但用户可通过上传纯黑图片并输入提示词实现类似效果[16][19] 产品特色功能 - 提供"火辣模式"(Spicy Mode),在处理大尺度创意时展现离经叛道特性,输入"Spicy"提示词可使人物脱衣[1][10][11] - 除火辣模式外,还提供趣味模式、正常模式及自定义提示词选项[8][10] - 图片上传和涂鸦生成视频时默认不提供火辣模式,但通过自定义输入"Spicy"仍可激活该功能[10][11] - 产品存在明显AI偏见,当输入"Spicy"提示词时倾向于将男性形象转换为女性[11] - 社交媒体上涌现大量使用该工具生成的不雅视频,为产品带来高话题度但掩盖了其他创意应用[12][13] 技术能力表现 - 在处理复杂运镜技巧如希区柯克变焦时表现中规中矩,未能完全理解复杂摄影技巧[11] - 在延时摄影、俯视、广角、无人机视角及动漫风格、电影感视频生成方面表现出色[14] - 支持同时处理多个图片转视频任务,图片生成实现"边滚动边呈现"的流畅体验[6][8] - 涂鸦转视频功能支持多种颜色画笔,可将简单草图动态化[15] 公司战略规划 - 马斯克宣布计划在2026年底前使用Grok制作一部完整电影[1] - xAI游戏工作室计划在2026年底前发布AI生成视频游戏[21] - 公司正在招聘"视频游戏导师"职位,时薪45-100美元,负责训练AI游戏设计能力[21][25][36] - 招聘要求包括游戏设计经验、AI生成内容评估能力,优先考虑独立游戏开发背景[28][31][33] - 职位提供办公室(帕洛阿尔托)和远程两种工作方式,但无法提供签证支持[34][38]
一文读懂Sora2核心点-中信建投证券
搜狐财经· 2025-10-11 09:26
Sora2产品与技术特点 - 产品采用DiT(Diffusion Transformer)架构,该架构已成为视频生成领域的主流技术范式,通过融合Transformer的时序处理能力和扩散模型的生成质量实现技术突破[18][29] - 通过大规模视频数据训练、提示词重写增强(利用LLM优化指令)及音画同步优化提升生成效果与可控性,在文生视频(武侠、悬疑)和图生视频(喜剧卡通)场景表现达第一梯队[1][36] - 上线3天登顶美国iOS应用榜,首两日下载量达16.4万次,采用邀请制裂变传播(受邀用户获4个新邀请码)构建社交生态[1][30][45] 产品功能与用户体验 - 主打移动端优先策略,创作界面极致简化,仅保留文本输入框支持"一句话生成视频",大幅降低用户使用门槛[1][48] - 创新推出"Remix"二创功能,允许用户以现有视频为模板进行二次创作,以及"Cameo"数字分身功能,将真实社交关系融入AI生成内容[1][55][56] - 通过Y轴滑动浏览作品和X轴滑动查看二创版本的双轴设计,结合原生音画同步输出,打造类似短视频平台的沉浸式浏览体验[47][62] 市场空间与商业模式 - AI视频生成市场呈现P端(专业创作者)、B端(企业级应用)和C端(大众消费)三端共振格局,中期总市场规模763亿元,长期达1554亿元[2][7] - P端市场因用户付费意愿强,中期空间262亿元,长期888亿元;B端聚焦影视、广告等场景的成本替代,中期501亿元,长期666亿元;C端效仿短视频平台通过流量变现[2][7] - Sora2采用免费+增值服务模式,基础版免费生成360p视频,ChatGPT Pro会员可享受Sora Pro高级功能,API调用按秒计费(1024p视频每秒0.5美元)[45][64] 成本结构与算力需求 - 算力成本高昂,保守估计APP每日推理成本达1400万美元,年化成本超过51.2亿美元,凸显算力在AI竞争中的决定性地位[2][8] - OpenAI与NVIDIA、AMD等芯片巨头达成战略合作以保障算力供应,巨大推理需求推动产业链发展[2][8] - 通过生成360p低分辨率视频而非行业主流的1080p内容,显著降低单次生成算力消耗,支撑免费商业模式可行性[62][64] 行业竞争格局 - 当前主流AI视频生成产品如Runway Gen-2、Veo 3、Kling 2.1等大多支持生成5-10秒1080p视频,商业化多采用C端会员订阅和B端API调用模式[63][64] - 行业技术路线从早期GAN、VAE架构,经Transformer与扩散模型并行探索,现已进入DiT架构主导阶段,Sora2的产品化成功验证了这一技术方向[17][29] - 产品差异化竞争重点从技术参数比拼转向用户体验优化,通过社交功能整合和病毒式传播设计实现大众市场突破[38][56]