Workflow
AI视频生成
icon
搜索文档
Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”
量子位· 2025-10-06 13:42
技术突破核心 - 字节与UCLA联合提出Self-Forcing++方法,实现分钟级长视频生成,最长可达4分15秒,相比行业主流5-10秒视频生成长度提升近50倍[1][2][28] - 该方法无需更换模型架构或重新收集长视频数据集,通过自回归生成技术抑制后期画质劣化,避免传统扩散模型因误差积累导致的画面崩坏问题[1][10][11] - 生成视频在视觉稳定性、动态程度等关键指标上大幅领先现有SOTA模型,如SkyReels、CausVid等,且全程保持高保真度与运动连贯性[5][24][27] 技术实现原理 - 采用反向噪声初始化技术,让学生模型生成100秒干净帧序列后重新注入噪声,扩展分布匹配蒸馏通过随机抽取5秒窗口计算KL散度来最小化师生模型差异[13] - 引入滚动KV缓存机制,在训练与推理阶段生成远超教师监督时长的序列,结合组相对策略优化(GRPO)以光流连续性为代理指标减少画面突变[14][17] - 使用Gemini-2.5-Pro作为评估工具,按过曝光、误差积累等维度评分(0-100分),替代传统VBench基准,更精准衡量长视频视觉稳定性[18] 性能对比数据 - 短时长(5秒)生成中,Self-Forcing++语义得分80.37、总得分83.11,接近Wan2.1的84.67,显示其未专门训练仍保持高质量[22][23] - 中长时长(50秒)生成时,视觉稳定性得分90.94,远超CausVid(40.47)和Self-Forcing(40.12),动态程度为后者的1.6倍[24] - 极长时长(75-100秒)生成中,文本对齐得分26.04,动态程度54.12,较CausVid提升6.67%和56.4%,视觉稳定性达84.22,为Self-Forcing的2.6倍[25][26] 行业影响 - 当前主流AI视频模型(如Sora2、腾讯混元、谷歌Veo)均受限于5-10秒时长,长视频生成技术瓶颈被突破可能加速AI电影等应用落地[6][9] - 该方法在1.3B参数量下实现17 FPS吞吐量,与部分基准模型相当,显示其在计算效率与生成质量间的平衡潜力[25]
知名机器人公司副总裁突发疾病去世,年仅49岁;千万粉丝车评人陈震回应开劳斯莱斯发生车祸;2025年国庆档电影票房破11亿丨邦早报
创业邦· 2025-10-05 09:09
汽车行业动态 - 东风汽车9月销量达23.1万辆,同比增长6.2%,其中新能源汽车销量10.3万辆,同比增长20.4% [8] - 比亚迪方程豹事业部总经理熊甜波透露,生产钛7的小漠工厂已提前开工,多种内饰和外观颜色已排产或正常发运 [8] - 捷途纵横G700豪华电混越野SUV将于10月19日上市,预售价区间为34.99万-42.99万元 [14] - 全新奥迪RS6 Avant旅行车参数曝光,采用V6 2.9TT插混方案,预计2026年推出 [16] - 乘联分会秘书长崔东树表示,9月纯电动乘用车新品续航里程在600公里以上较多,2025年汽车增程类车型达202款 [21] - 英国9月纯电动汽车销量达7.2万辆,创历史单月销量新高,同比增长超过30%,中国品牌奇瑞与比亚迪车型进入销量前十 [22] 人工智能与科技 - OpenAI首席执行官山姆・奥特曼表示计划通过Sora实现AI视频生成商业化,将与版权方分享部分收入 [8] - 特斯拉CEO马斯克发布其人形机器人“擎天柱”学习中国功夫的视频,并确认其由AI驱动而非遥控操作 [12] - 亚马逊创始人贝索斯认为AI存在泡沫但长期将带来巨大效益,并预测未来10-20年太空数据中心成本有望低于陆基数据中心 [11][12] - 阿里云通义千问开源Qwen3-VL-30B-A3B模型及FP8版本,并推出超大规模模型Qwen3-VL-235B的FP8版本 [14] - 中国信通院数据显示,2024年中国人工智能产业规模超9000亿元,同比增长24%,截至2025年9月人工智能企业数量超5300家 [22] - 人工智能芯片制造商Cerebras宣布撤回IPO计划,尽管几天前刚完成超10亿美元融资 [14] 企业合作与资本市场 - 极氪科技与吉利汽车向美国SEC提交CB表格,涉及双方合并事宜,极氪股东可选择以吉利股份或现金形式获得对价 [8] - 空白支票公司BTC Development在纳斯达克完成IPO,募资总额2.53亿美元,拟在比特币生态寻求并购机会 [14] - 女性数字健康科技公司Midi完成5000万美元C轮融资,总融资额约1.5亿美元,将用于扩展虚拟护理服务及开发AI健康搜索引擎 [14] - 德国汽车门锁巨头Kiekert申请临时破产,归咎于中国股东凌云集团,但凌云集团表示有意继续投资并已派高管前往德国 [10][11] 消费电子与互联网 - 谷歌Pixel 11系列手机早期测试信息泄露,显示将搭载联发科M90基带,支持卫星通信 [18] - 摩托罗拉Moto Edge 70手机宣传物料曝光,厚度低于6mm,有望配备天玑7000芯片 [18] - 社交平台Discord因第三方客服遭网络攻击导致用户数据泄露,涉及聊天记录、个人信息及部分支付信息 [12] - 快时尚品牌SHEIN计划于11月在法国开设首批实体店,将与巴黎老佛爷百货商场合作 [12] 娱乐与消费市场 - 2025年国庆档电影总票房(含预售)突破11亿元 [3] - 国庆档票房前三影片为《志愿军:浴血和平》《731》《刺杀小说家2》 [5]
登顶!OpenAI再造“爆款”!
证券时报· 2025-10-04 12:07
Sora市场表现与里程碑 - Sora于10月3日登顶美国App Store免费应用榜第一名 超越了ChatGPT和Gemini [1] - Sora的iOS应用在9月30日上线后 头两天内在美加地区获得16.4万次下载 首日下载量与Grok持平 [3] - Sora仍处于邀请制测试阶段 仅在美国和加拿大地区的iOS设备上提供 [3] Sora产品与技术升级 - OpenAI于9月30日发布最先进的视频生成模型Sora2.0 并同步推出iPhone应用 [3] - Sora2.0模型能够生成高度逼真的场景与音效 是2024年2月首次发布以来的重要技术升级 [3] - 用户可通过输入文字、图片或视频等内容用Sora制作AI视频 [3] - 2024年12月Sora成为独立产品 OpenAI为其专门开设网站Sora.com [3] AI视频生成行业前景 - 2024年AI视频生成全球市场规模为6.15亿美元 预计2025年达到7.17亿美元 同比增长17% [4] - 预计到2032年 AI视频生成市场规模达到25.63亿美元 2025至2032年的复合增速为20% [4] - 目前下游需求最大的应用方向为市场营销及广告 而社交媒体的应用增长最快 [4] OpenAI公司财务与估值 - OpenAI最新估值达到5000亿美元 比2024年4月时高出约2000亿美元 成为全球估值最高的初创公司 [5] - 公司上半年实现营收43亿美元 超去年全年 但净亏损达到135亿美元 [6] - 同期现金消耗达25亿美元 其中研发成本总额高达67亿美元 是最大开支 [6] - 近期员工股份出售约66亿美元 投资方包括Thrive Capital、软银等 [5] AI产业链发展趋势 - 从ChatGPT到Sora再到DeepSeek 全球AI产业链发展迅猛 大模型迭代拉动算力需求 [5] - 2024年下半年以来 AI应用端产品落地加速 呈现国内外共振趋势 [5] - 展望2025年下半年 泛AI主题投资将进入去伪存真阶段 从主题投资转变为有基本面逻辑的新赛道 [5]
OpenAI“限量版”Sora人气高,上线第四天拿下苹果美国App头名
华尔街见闻· 2025-10-04 03:03
产品发布与市场表现 - OpenAI推出的AI视频生成应用Sora于本周二正式登陆苹果App Store 目前仅在美国和加拿大地区开放且需要邀请码才能使用[1] - Sora在上线第四日登顶苹果美国App Store免费应用榜首 超越谷歌Gemini和OpenAI的ChatGPT[1] - 根据Appfigures统计 Sora首日下载量为5.6万次 次日下载量更多 前两日总安装量达16.4万次[1] - Sora的首日下载表现与xAI的Grok并列 均为5.6万次 但低于ChatGPT的8.1万次和Gemini的8万次 高于Anthropic Claude的2.1万次和微软Copilot的7000次[8] 行业竞争与市场潜力 - Sora的快速成功表明消费者对AI视频工具存在强烈需求 特别是在社交网络化体验方面[9] - AI视频生成技术正从专业工具向消费级应用转变 Sora的市场表现为AI视频App的商业化前景提供了积极信号[9] - 考虑到Sora目前仍采用邀请制 仅限iOS设备使用 且仅面向美国和加拿大市场 其实际市场潜力可能更大[8] - 在苹果App Store免费应用排行榜中 OpenAI占据前三名中的两席 凸显公司在消费级AI应用领域的领导地位[9] 技术特性与内容挑战 - Sora搭载OpenAI最新的视频和音频生成模型Sora 2 该模型能够创建高度真实的场景和声音 是2024年2月首次发布模型后的技术升级[9] - 应用上出现的一些初始视频内容已引发争议 包括描绘OpenAI CEO Sam Altman购物的视频 让外界怀疑其实用性和合法性[6] - OpenAI承认相关挑战 并表示已采取相应措施应对安全担忧 包括让用户明确控制其肖像在平台上的使用方式[9]
仅限美加地区且邀请制,OpenAI的Sora APP上线两日ios下载16.4万次,位居APP排行榜第三
华尔街见闻· 2025-10-03 09:21
市场吸引力与初期表现 - Sora的iOS应用在发布后头两天内总计获得16.4万次下载,并迅速攀升至美国App Store总排行榜第三位[1] - 在仅限美国和加拿大地区并采用邀请制的情况下,首日下载量为5.6万次[1] - 上线第二天便冲上美国App Store总排行榜第三名,排名表现优于多数竞争对手[3] 与竞争对手比较 - Sora首日5.6万次的下载量与xAI的Grok持平,超越了Anthropic的Claude(2.1万次)和微软的Copilot(7000次)[2] - ChatGPT和谷歌Gemini的iOS应用在发布首日分别录得8.1万和8万次下载,处于领先地位[2] - 作为参照,ChatGPT曾在上线第二天达到榜首位置,而Grok、Gemini和Copilot在各自发布第二天的排名分别为第4、第6和第19位[3] 增长潜力与市场信号 - 由于应用仍处于邀请制阶段,其强劲表现被认为是一个非常积极的信号,一旦全面开放,用户增长或将更为可观[1] - 在设有严格准入门槛的情况下依然取得亮眼成绩,被市场解读为消费者对AI视频生成工具的巨大潜在需求[3] - OpenAI被分析认为正在以类似Facebook早期的策略,通过邀请制的准入门槛和前沿的内容流进入社交媒体业务[2]
港股异动 | 快手-W(01024)涨超7% 近期可灵2.5 Turbo底模能力再升级 AI带动核心主业提效持续演绎
智通财经· 2025-10-02 10:09
快手-W股价表现 - 公司股价上涨7.21%,报90.7港元,成交额达21.16亿港元,领跑科网股 [1] 快手可灵AI模型进展 - 公司可灵AI基座模型升级至可灵2.5 Turbo版本,视频生成效果提升 [1] - 新模型在高品质1080p模式下生成5秒视频仅需25灵感值,相比2.1模型同档位成本降低近30% [1] - 多模态侧依靠底模迭代保持领先,采用“性能升级+降价30%”组合策略,有望带动用户增长和流水上行 [1] 快手AI技术主业应用 - AI技术持续带动核心主业提效,内容推荐系统OneRec支撑社区生态健康度 [1] - 商业化系统进行AI重构,为公司主业稳健增长提供长效动能 [1] 行业AI视频模型动态 - OpenAI发布其最先进的视频生成模型Sora 2.0,并推出全新社交应用“Sora”,可能成为视频生成领域的ChatGPT时刻 [2] - AI视频生成工具可大幅减少实景拍摄、降低视频制作成本 [2] - Sora的发布被视为AI视频应用的里程碑事件,有望打开更广阔的AI应用市场,特别是在短视频、游戏、电影等领域 [2]
Sora 2干翻Veo 3?超全对比实测:会中文脱口秀,但体操翻车,附有效邀请码
机器之心· 2025-10-01 15:26
Sora 2 性能提升 - 相比于旧版本,Sora 2在物理准确性、真实感和可控性方面都更胜一筹,并具备音画同步能力 [1] - Sora 2生成的视频没有物体相互穿透或无故消失,人物手指未出现畸变,且能自动生成连贯的评论音频 [5] - 模型可直接生成最长20秒的1080p视频 [7] 与谷歌Veo 3的对比测试 - 在诺曼底士兵场景中,Veo 3严格遵循文本描述,雨水效果更逼真,人物运动幅度更大,而Sora 2省略了“跪下”等部分动作 [16][17] - 在ASMR和男歌手场景中,两个模型均能实现精准的音画同步,细节处理到位,效果惊艳足以以假乱真 [20][22] - 在假新闻场景中,Sora 2胜出,其视频包含演播室主播和现场镜头切换,使内容更像真正的新闻报道,而Veo 3画面较模糊 [24][25] - 在中文脱口秀场景中,Sora 2能根据中文提示词自动生成中国演员及对应口型,但提示词中夹杂的英文发音不准;Veo 3目前仅支持英语提示,无法成功生成 [27] 技术局限性与挑战 - 在生成体操视频时,Sora 2和Veo 3均出现翻车,如动作突然倍速、多出胳膊或手臂旋转异常等物理错误 [28][29][31][33] - 有观点指出,当生成的视频长度加倍时,文本到视频生成器的能耗会增加四倍,引发对计算资源用于此类应用而非癌症研究等领域的资源错配担忧 [9][10] 产品化与市场策略 - Sora 2目前可通过网页端或iOS App(美加地区)免费使用,但需要邀请码和美区IP [11][12] - OpenAI为Sora 2采取了邀请制、安全水印及限制公众人物深度伪造等安全措施,以防止滥用,App常因版权保护等原因拒绝生成视频 [35] - OpenAI推出了基于自拍的客串功能,并推出了设计极似TikTok的Sora iOS应用,包含推荐算法驱动的视频流和社交互动功能 [39][42][44] - 有分析认为,通过应用程序建立产品壁垒可使公司在模型指标暂时落后时,仍能握住用户入口和使用习惯 [46]
OpenAI Sora 2 登场!同步推出APP,Altman称这是创意领域的「ChatGPT 时刻」
Founder Park· 2025-10-01 12:07
产品发布与市场定位 - OpenAI正式发布新一代AI视频模型Sora 2,被视为对谷歌Veo 3的正面竞争[3] - 此次发布被描述为视频领域的“GPT-3.5时刻”,标志着AI视频生成技术进入新阶段[17] - 公司推出首个Sora App,iOS版可在商店直接下载,安卓用户可通过sora.com访问,起步为邀请制并在美加上线[14][57] 技术性能突破 - 模型在物理准确性、逼真度上刷新SOTA,并在一致性、可控性上实现巨大飞跃[4] - 首次实现“音画同步”,音频与口型对齐,环境音、动作声效随场景变化[5][42] - 物理细节显著进化,能合理模拟物体运动惯性、受力和材质,例如篮球投掷可能打板弹开或投丢,而非强行进筐[19][27] - 人物角色一致性非常高,在多镜头切换时能保持服饰、光线、道具的连续性,解决了以往易穿帮的问题[12][35] 功能与新玩法 - 新增“Cameo”功能,用户可通过录制一段带声音的视频,将自己的形象和声音准确置入任意生成场景中[48][50] - 支持多风格生成,包括写实、电影质感、日漫等风格,并能实现复杂的运镜效果[37][39][40][60] - 用户可用自然语言指定镜头顺序、节奏、景别变化,像导演一样把握故事节奏[36] - 模型能赋予角色“超能力”,例如让人物飞起来,为创意玩法提供更多可能[49][53] 团队与未来发展 - Sora团队负责人为Bill Peebles,其背景包括MIT计算机本科和加州伯克利计算机博士,曾在英伟达、Adobe、Meta的AI岗实习[81][83][86] - 公司明确Sora 2不是终点,未来将继续用更多高质量视频数据喂养模型,提升世界模拟的准确性和细节感[88][89] - 该技术进化预计将影响影视广告、动画分镜、教育科普、产品演示乃至AI机器人训练等多个行业[90]
刚刚,OpenAI Sora 2重磅登场!首个APP上线,或将成为AI时代新TikTok
创业邦· 2025-10-01 11:48
产品发布 - OpenAI正式发布新一代AI视频模型Sora 2 在物理准确性、逼真度和一致性上实现重大飞跃并首次实现音画同步功能[3][4] - Sora 2被官方称为开启视频领域的GPT-3.5时刻 标志着AI视频生成技术进入新阶段[11] - 公司同步推出iOS端Sora App 支持用户通过录制视频将个人形象投射到生成场景中实现全新社交互动方式[8][34] 技术突破 - 模型在物理细节准确性上显著进化 能够合理模拟物体运动惯性、受力和材质 例如篮球打板弹开或投丢等符合物理规律的效果[12][17] - 实现多镜头连续生成能力 确保角色服饰、光线、道具等世界状态在不同镜头间保持连贯性 避免穿帮现象[24] - 支持音画同步功能 生成对白与口型精准对齐 并可模拟复杂环境声效 音频效果几乎无法分辨为AI生成[4][19][28] 应用功能 - 新增Cameo功能允许用户将自身形象融入视频故事 可实现与熊猫打乒乓或赋予飞行超能力等创意场景[34][37] - 模型支持多种风格生成 包括写实电影质感、日漫超现实风格以及吉卜力动画风格 满足不同创作需求[24][26][29] - 提供精细化镜头控制 用户可像导演一样指定镜头顺序、节奏和景别变化 直接生成连贯成片[24] 性能表现 - 模型通过业界称为AI体操界图灵测试的挑战 能准确生成体操运动员在平衡木上翻转等高难度动作[13][15] - 开发者实测显示Sora 2在动漫效果渲染和极致运镜方面表现卓越 从近景拉远镜头完全无违和感[42][43] - 内测用户反馈模型生成内容一致性极高 人物角色在不同镜头中保持稳定 接近好莱坞级制作水平[8][44] 安全治理 - 系统部署三层审核机制 对文本提示、上传素材及生成视频进行全流程分层拦截 重点保护未成年人场景[54] - 严格管理肖像权 禁止未授权使用他人视频换脸 且所有涉及用户形象的作品均可被追溯和撤回[54] - 采用动态水印和元数据嵌入技术 确保内容可追溯性 并开发专用工具检测AI生成内容[54] 团队背景 - 项目负责人Bill Peebles为95后研究员 拥有MIT本科和加州伯克利博士学位 此前在英伟达、Adobe、Meta等公司有AI实习经历[58][59][60] - 开发团队阵容豪华 几乎涵盖OpenAI所有员工 显示出公司对该项目的高度重视[56][58] 行业影响 - 技术突破将影响影视广告、动画分镜、教育科普及产品演示等多个行业 并为未来AI机器人训练提供支持[62] - 模型分发逻辑注重二创价值 通过自然语言交互调整推荐内容 可能重塑社交媒体内容生态[40] - 当前以邀请制在美加地区首发 高质量Pro版本专供ChatGPT Pro用户 API接口即将开放[40][42]
OpenAI突然发布Sora 2:好一个“AI版抖音”!
量子位· 2025-10-01 09:12
Sora 2模型核心能力升级 - 模型定位从Sora 1的“GPT-1时刻”跨越至“GPT-3.5时刻”,实现代际飞跃 [6] - 升级为音视频同步生成模型,生成的视频自带配音 [5] - 物理模拟能力显著增强,能更好地遵循物理定律,例如人物动作丝滑连贯,物体运动轨迹自然 [7][8][10] - 可控性更强,能处理涉及多个镜头的复杂提示词,并保持虚拟世界的逻辑一致性 [11] - 支持将现实世界元素注入视频,通过观察某人视频即可将该形象植入Sora生成的任何环境 [14] Sora iOS应用:AI短视频平台 - 应用定位为完全由AI生成视频的短视频平台,被类比为“AI版抖音” [1][2][35] - 用户可创作AI内容、对他人生成内容进行二次创作,并在可自定义信息流中发现视频 [15] - 核心功能“客串”允许用户经身份验证后,将自己或朋友的形象置入Sora生成的环境 [15][20] - 用户对个人肖像拥有端到端完全控制权,可决定谁可使用其形象,并随时撤销授权或删除相关视频 [24][38] - 应用率先在北美地区启动初始推送 [33] 实际生成效果与用户体验 - 生成视频画面逼真,水花飞溅、皮肤细节和神态处理达到电影级别,难以分辨真伪 [4][27] - 支持中文提示词,生成过程快速,约两分钟即可产出带配乐的视频 [22] - 可生成多种风格,包括吉卜力动漫风格、1960年代黑白新闻报道风格等 [12][28][29] - 当前普通版本存在画质较低的问题,但ChatGPT Pro用户可抢先体验更高质量的Sora 2 Pro模型 [23][31] 商业化与行业影响 - 官方计划后续发布Sora 2的API,为更广泛商用提供可能 [32] - 应用依托OpenAI现有大语言模型研发了全新类别的推荐算法,用户可通过自然语言调控信息流 [37] - 发布后与快手旗下可灵等现有AI视频应用形成直接竞争,引发效果对比 [42]