Workflow
AI视频生成
icon
搜索文档
OpenAI Sora 2 登场!同步推出APP,Altman称这是创意领域的「ChatGPT 时刻」
Founder Park· 2025-10-01 12:07
产品发布与市场定位 - OpenAI正式发布新一代AI视频模型Sora 2,被视为对谷歌Veo 3的正面竞争[3] - 此次发布被描述为视频领域的“GPT-3.5时刻”,标志着AI视频生成技术进入新阶段[17] - 公司推出首个Sora App,iOS版可在商店直接下载,安卓用户可通过sora.com访问,起步为邀请制并在美加上线[14][57] 技术性能突破 - 模型在物理准确性、逼真度上刷新SOTA,并在一致性、可控性上实现巨大飞跃[4] - 首次实现“音画同步”,音频与口型对齐,环境音、动作声效随场景变化[5][42] - 物理细节显著进化,能合理模拟物体运动惯性、受力和材质,例如篮球投掷可能打板弹开或投丢,而非强行进筐[19][27] - 人物角色一致性非常高,在多镜头切换时能保持服饰、光线、道具的连续性,解决了以往易穿帮的问题[12][35] 功能与新玩法 - 新增“Cameo”功能,用户可通过录制一段带声音的视频,将自己的形象和声音准确置入任意生成场景中[48][50] - 支持多风格生成,包括写实、电影质感、日漫等风格,并能实现复杂的运镜效果[37][39][40][60] - 用户可用自然语言指定镜头顺序、节奏、景别变化,像导演一样把握故事节奏[36] - 模型能赋予角色“超能力”,例如让人物飞起来,为创意玩法提供更多可能[49][53] 团队与未来发展 - Sora团队负责人为Bill Peebles,其背景包括MIT计算机本科和加州伯克利计算机博士,曾在英伟达、Adobe、Meta的AI岗实习[81][83][86] - 公司明确Sora 2不是终点,未来将继续用更多高质量视频数据喂养模型,提升世界模拟的准确性和细节感[88][89] - 该技术进化预计将影响影视广告、动画分镜、教育科普、产品演示乃至AI机器人训练等多个行业[90]
刚刚,OpenAI Sora 2重磅登场!首个APP上线,或将成为AI时代新TikTok
创业邦· 2025-10-01 11:48
来源丨新智元(ID:AI_era) 编辑丨艾伦 桃子 图源丨 OpenAI官方视频截图 实属没想到,Sora 2深夜炸场! 刚刚,OpenAI直播正式官宣新一代AI视频模型——Sora 2,正面狙击谷歌Veo 3。 它在物理准确性、逼真度上,一举刷新SOTA,并在一致性、可控性上实现了巨大飞跃。 值得一提的是,Sora 2首次实现「音画同步」。 奥特曼发长文激动地表示,「创意领域的ChatGPT时刻来临」! 人类创造力即将迎来一次寒武纪大爆发,随之而来的艺术和娱乐质量,也将大幅提升。 突然间,创作天地变得无比开阔,令人印象非常深刻。 他还特意强调了一个创意玩法——把自己和朋友们放进视频里,效果好玩到炸! 这不,奥特曼拿着大话筒,直呼「10am PT.开启直播」。 而且,他还和Sora团队负责人Bill Peebles用Sora 2,直接拍了一部官宣2分钟视频,效果极其震撼。 令人意外的是,人物角色的一致性非常高,看来我们离好莱坞级大片不远了。 正如爆料所言,Sora首个App正式解禁,在iOS端可直接下载。安卓用户,需通过sora.com访问。 Sora 2出世,视频GPT-3.5时刻来临 说到AI视频生成, ...
OpenAI突然发布Sora 2:好一个“AI版抖音”!
量子位· 2025-10-01 09:12
Sora 2模型核心能力升级 - 模型定位从Sora 1的“GPT-1时刻”跨越至“GPT-3.5时刻”,实现代际飞跃 [6] - 升级为音视频同步生成模型,生成的视频自带配音 [5] - 物理模拟能力显著增强,能更好地遵循物理定律,例如人物动作丝滑连贯,物体运动轨迹自然 [7][8][10] - 可控性更强,能处理涉及多个镜头的复杂提示词,并保持虚拟世界的逻辑一致性 [11] - 支持将现实世界元素注入视频,通过观察某人视频即可将该形象植入Sora生成的任何环境 [14] Sora iOS应用:AI短视频平台 - 应用定位为完全由AI生成视频的短视频平台,被类比为“AI版抖音” [1][2][35] - 用户可创作AI内容、对他人生成内容进行二次创作,并在可自定义信息流中发现视频 [15] - 核心功能“客串”允许用户经身份验证后,将自己或朋友的形象置入Sora生成的环境 [15][20] - 用户对个人肖像拥有端到端完全控制权,可决定谁可使用其形象,并随时撤销授权或删除相关视频 [24][38] - 应用率先在北美地区启动初始推送 [33] 实际生成效果与用户体验 - 生成视频画面逼真,水花飞溅、皮肤细节和神态处理达到电影级别,难以分辨真伪 [4][27] - 支持中文提示词,生成过程快速,约两分钟即可产出带配乐的视频 [22] - 可生成多种风格,包括吉卜力动漫风格、1960年代黑白新闻报道风格等 [12][28][29] - 当前普通版本存在画质较低的问题,但ChatGPT Pro用户可抢先体验更高质量的Sora 2 Pro模型 [23][31] 商业化与行业影响 - 官方计划后续发布Sora 2的API,为更广泛商用提供可能 [32] - 应用依托OpenAI现有大语言模型研发了全新类别的推荐算法,用户可通过自然语言调控信息流 [37] - 发布后与快手旗下可灵等现有AI视频应用形成直接竞争,引发效果对比 [42]
Sora模型重磅升级 OpenAI挑战AI视频社交赛道
第一财经· 2025-10-01 08:32
新产品发布 - 公司于当地时间9月30日宣布推出一款全新社交媒体应用,该应用依托升级版AI视频生成器Sora 2,用户通过输入文本提示即可生成带音频的高清短片,并能上传视频至虚拟场景中与他人互动 [1] - 该应用计划率先在美国和加拿大通过苹果App Store以邀请制上线 [1] 技术能力与改进 - 与去年底发布的初版相比,Sora 2在物理规律呈现和提示一致性上均有显著改进,用户可生成更复杂的画面场景,并可自动添加背景音效、多语言对白及环境噪声以形成更逼真的沉浸式短片 [2] - 新版本引入“化身”功能,用户能够创建高度拟真的AI头像和声音,并允许其嵌入自己或朋友的视频中 [2] - 公司视频团队负责人表示,新软件能够生成如“人在水面上完成后空翻,并展现符合流体动力学的真实效果”这样的复杂画面,并称这可能是视频生成领域的“ChatGPT时刻” [2] - 公司强调,新应用生成的视频将统一加上水印,并禁止利用公众人物形象或单张照片制作视频 [2] 市场竞争与战略定位 - Sora 2采用类似TikTok和Instagram Reels的滑动浏览方式,显示了公司在AI视频生成与社交领域结合的野心 [3] - 业内认为,此举不仅是推动AI技术大众化的一步,也可能成为公司探索广告变现的重要路径 [3] - 此次推出独立社交应用是公司迄今为止最接近社交媒体产品的一步,意味着它将在用户注意力和广告市场上与TikTok、Meta等平台展开更直接的竞争 [3] - 在视频生成领域,公司面临来自谷歌、Runway等竞争对手的激烈角逐 [3] 行业影响与潜在机会 - 这一升级被视为在好莱坞等创意产业中的潜在落地机会 [3] - 有声音担忧,大规模普及可能冲击传统影视从业者的生计,并加剧互联网内容“真假难辨”的风险 [3]
Sora模型重磅升级,OpenAI挑战AI视频社交赛道
第一财经资讯· 2025-10-01 08:19
AI生成视频的"ChatGPT时刻"? 当地时间9月30日,OpenAI宣布推出一款全新社交媒体应用,依托升级版AI视频生成器Sora 2,用户只 需输入文本提示即可生成带音频的高清短片,并能上传视频至虚拟场景中与他人互动。该应用计划率先 在美国和加拿大通过苹果App Store以邀请制上线,被认为是OpenAI在视频赛道上的一次重要尝试。 向Meta等发起更直接的竞争 Sora 2采用类似TikTok和Instagram Reels的滑动浏览方式,被认为这显示了OpenAI在AI视频生成与社交 领域结合上的野心。业内认为,这不仅是推动AI技术大众化的一步,也可能成为OpenAI探索广告变现 的重要路径。 当前,ChatGPT的成功已使OpenAI在对话式AI领域占据先机,而在视频生成领域OpenAI则面临来自谷 歌、Runway等竞争对手的激烈角逐。业内人士认为,此次推出独立社交应用,是OpenAI迄今为止最接 近社交媒体产品的一步,意味着它将在用户注意力和广告市场上与TikTok、Meta等平台展开更直接的竞 争。 这一升级同样被视为在好莱坞等创意产业中的潜在落地机会。但与此同时,也有声音担忧,大规模普及 ...
视频生成迎来“ChatGPT时刻”!OpenAI推社交应用正面硬刚TikTok及Meta(META.US)
智通财经网· 2025-10-01 07:05
产品发布与功能 - 人工智能公司OpenAI正式发布全新独立社交应用"Sora",允许用户生成并分享AI视频,与好友互动 [1] - 该应用基于升级版的Sora 2视频生成模型,用户可通过文本提示生成短视频,并能浏览他人创作内容 [1] - 应用引入"虚拟分身"功能,允许用户创建高度逼真的AI化身及声音,并可在获得授权的情况下插入到好友制作的视频中 [1] - 应用目前采取邀请制,首发于苹果iOS平台,未来将扩展至安卓系统 [1] 技术能力与突破 - Sora 2着力解决AI视频生成中长期困扰的两大难题:物理规律与场景衔接,能更准确地呈现流体动力学、浮力等效果 [2] - 新软件能在多镜头视频中更忠实地遵循用户提示,并可自动拼接场景 [2] - Sora 2可利用AI生成多语言对话、音效和背景噪音 [2] 市场竞争格局 - OpenAI在视频生成领域面临激烈竞争,竞争对手包括谷歌、Runway AI和Midjourney等,其中部分产品生成速度更快、成本更低 [1] - Sora的发布标志着OpenAI迈出打造社交媒体产品的重要一步,直接与TikTok及Meta近期推出的AI视频流"Vibes"正面交锋 [1] - 尽管ChatGPT已吸引每周超7亿用户,公司仍需在新领域拓展市场 [1] 战略意义与潜在影响 - 分析人士认为,Sora或将为OpenAI打开广告营收等新渠道,并进一步提升其技术知名度 [1] - 公司内部起初对AI生成视频流持怀疑态度,但"虚拟分身"功能让团队相信这可能对世界有积极意义,旨在重新带回人与人之间的互动连接 [2] - Sora团队负责人认为这可能是视频生成的ChatGPT时刻 [2] 安全与内容管控 - 为应对潜在滥用,OpenAI强调Sora不会允许生成涉及公众人物的视频,且所有视频都带有水印以标明AI生成 [2] - 应用屏蔽了屏幕录制功能,以限制视频的外部传播 [2]
AI视频进入蒸汽机时代
机器之心· 2025-09-26 07:54
技术升级与核心突破 - 推出行业首个通用AI长视频生成功能,突破5秒和10秒的时长限制,理论上支持任意长度视频生成[3] - 采用流式生成技术替代传统首尾帧续写方案,用户仅需一张图片和提示词即可实现无限时视频生成,并支持实时调整提示词[4] - 引入交互式需求表达功能,允许在生成过程中暂停并修改提示词,无需等待完整推理过程结束[3][4] 性能表现与案例展示 - 生成视频实现毫秒级人物口型、表情、动作同步,中文语音细节还原度超98%[3][19] - 成功生成连贯长视频案例:小鸭子划水上岸动作流畅,水面涟漪和羽毛细节逼真;西部牛仔一镜到底场景转换丝滑;纸船漂流轨迹真实无失真[6][8][10] - 新增首尾帧功能,通过2张图片和提示词生成5秒视频,支持定格动画、季节过渡等复杂场景[11][15][16] 行业痛点与解决方案 - 解决长视频生成两大核心挑战:时长方面通过自回归扩散模型和动态缓冲区管理保障连续性与一致性;成本方面通过阶梯独立噪声构造降低平方级计算复杂度[25][26][27] - 采用历史参考帧增强策略,通过概率扰动和注意力门控机制缓解累积误差与信息漂移问题[28][30] - 引入训练指导帧和抗偏移技术,确保生成内容不偏离初始设定并保持主体一致性[32] 商业化应用前景 - 大幅降低创作门槛与成本,可应用于广告大片制作(如耳机产品展示)、影视预演、虚拟角色对话等场景[16][19][33] - 支持多角色自然对话与大师级运镜,依托海量中文语料训练实现电影级画质输出[19][33] - 推动AI视频生成从工具级片段制作向互动视频、直播等实时交互场景演进,重塑内容创作商业模式[22][37]
百度蒸汽机迎来最新升级,支持生成无限长度的AI视频
选股宝· 2025-09-25 22:41
百度蒸汽机技术升级 - 全球首个中文音视频一体化视频生成模型百度蒸汽机升级 发布通用AI长视频生成功能 支持用户生成无限长度AI视频[1] - 采用流式生成技术突破此前AI仅能生成5秒、10秒短视频的局限 实现通用长视频"无限"生成能力[1] - 一个月前已发布蒸汽机2.0版本 涵盖Turbo、Lite、Pro及有声版多个版本 丰富产品形态和用户选择[1] 产品定价策略 - 新版蒸汽机定价策略大幅下调 刊例价对比同类产品下降至70%[1] - 定价举措降低视频生成门槛 增强产品在市场上的性价比和竞争力[1] 行业应用前景 - 通用AI长视频生成功能有望拓宽AI视频生成工具应用场景 包括电影级特效、数字内容创作等[1] - 中文音视频一体化视频生成模型将推动国产AI在视频内容创作领域高速发展[1] - 视频生成领域应用持续迭代 行业头部公司持续布局 有望提升应用渗透率[1] 相关公司业务进展 - 中文在线通过自研工具链将传统动漫短剧制作11个环节压缩至5个核心步骤 实现生产周期缩短70%、成本降低50%[2] - 零点有数深耕数据分析与决策智能 涵盖AI、云计算、物联网等领域 能力可助力AI视频生成、大模型定制训练、数据治理等多个细分环节[2]
锦秋基金被投公司「生数科技」发布Vidu Q2 | Jinqiu Spotlight
锦秋集· 2025-09-25 18:48
投资背景与公司概况 - 锦秋基金于2023年年中投资生数科技,是其早期机构投资人 [1] - 锦秋基金为12年期的AI Fund,以长期主义为核心投资理念,专注于寻找具有突破性技术和创新商业模式的通用人工智能初创企业 [1] - 锦秋基金设有"Soil种子专项计划",专为早期AI创业者提供资金支持,旨在帮助团队将创新想法转化为实际应用 [14] Vidu Q2模型核心能力与突破 - 生数科技于9月25日正式发布新一代图生视频大模型Vidu Q2,主题为"Vidu Q2 看AI演戏",核心提升场景为细微表情生成 [4] - 模型在极致表情变化、推拉运镜、生成速度及语义理解方面取得突破性进展,实现从"生成视频"到"生成演技",从"动态流畅"到"情感表达"的跨越 [4] - Vidu Q2能够理解并生成极其细腻的面部微表情,如嘴角抽动、眼神犹豫、眉头微蹙,攻克了生成真实情感的关键技术瓶颈 [5] - 技术突破得益于多模态理解与生成技术的深度融合,结合情感文本理解、图文解析及对人体面部动作单元的精细解构与物理模拟 [9] - 首席执行官骆怡航表示,此次突破在于首次让AI角色拥有了'有趣的灵魂',教会了AI'演戏',是技术里程碑 [8] 产品功能与性能特点 - Vidu Q2支持图生视频、首尾帧视频、时长可选(2-8秒)、电影大片及闪电出片两种模式 [4] - 模型在复杂表情变化的文戏、多人打斗场景的武戏及炫酷特效中表现出彩 [4] - 产品矩阵包括网页版、App版及API同步上线,兼顾出片质量与效率,适配从高端影视制作到快速社交媒体内容生产的不同需求 [10] 行业影响与应用前景 - Vidu Q2的发布标志着AI视频生成技术从追求"形似"进入追求"神似"的新阶段 [4] - 该技术将为内容创作、影视产业、广告营销等领域带来全新升级 [4] - 模型推动内容创作范式从"人执行"转向"人指导",创意生产核心模式转变,创作者可专注于创意与审美 [11] - 技术开启"人机共创"新纪元,AI负责精准表演,人类扮演"总导演",将推动AI深入电影预演、虚拟人交互等复杂工业流程 [11] - 这种深度协作将释放生产力,催生新创意形式,释放更大商业价值 [11]
生数科技发布新一代图生视频大模型Vidu Q2
新浪财经· 2025-09-25 18:45
据悉,本次更新的Vidu Q2主要包括图生视频、首尾帧视频、时长可选(2-8s)、电影大片及闪电出片 两种模式,在复杂表情变化的文戏,常见的多人打斗场景的武戏,及影视剧情中令人震撼的炫酷特效中 表现出彩,能够通过媲美人类的AI真实表演,将AI演技强力渗透影视、短视频剧情创作、广告创意等 生产力场景,推动AI视频生成主角从原本僵硬、机械、无感情的"AI木头"提升为灵动、有情感、会演 戏"AI人"。 责任编辑:何俊熹 9月25日消息,生数科技今天正式发布新一代图生视频大模型Vidu Q2。新模型以"Vidu Q2 看AI演戏"为 主题,"细微表情生成"为核心提升场景,在极致表情变化、推拉运镜、生成速度及语义理解方面取得的 突破性进展,实现从"生成视频"到"生成演技",从"动态流畅"到"情感表达"的革命性跨越,标志着AI视 频生成技术正式从追求"形似"进入追求"神似"的新阶段,将为内容创作、影视产业、广告营销等领域带 来全新升级。 ...