Workflow
AI视频生成
icon
搜索文档
从视频生成工具到“世界模型”距离有多远?
中国经营报· 2025-10-31 17:49
在Sora驰骋的将近两年时间里,视频生成模型赛道已聚集了谷歌、Meta等科技巨头以及Runway、Luma AI、Midjourney等创业公司。在国内市场,阿里、腾讯、字节、快手、百度等企业也已推出了数十款视 频大模型产品。不仅如此,入局者仍在扩充,比如美团日前开源了其首款视频生成模型LongCat- Video。 当Sora在2024年2月面世之时,OpenAI以"世界模拟器"描绘Sora的终极愿景——一种能够理解和模拟现 实物理世界的模型框架,将其视为通往AGI(通用人工智能)的重要里程碑。2025年10月,第二代Sora 登陆苹果应用商店后仅5天下载量就超过了100万次,增速超过ChatGPT。 视频生成模型"进化"到了什么样?在哪些应用场景中实现了破局?从视频生成模型到"世界模型"还需要 跨越哪些关卡?……针对这些大众关心的问题,《中国经营报》记者做了相关的采访。 社交娱乐的新"名片" 近期密集体验了Sora2、即梦、可灵、混元等视频生成App的互联网分析师丁道师向本报记者表示,以 往可能只有10%的专业人员适合从事内容创作,实际上,这对人类创造力而言是一个巨大浪费,现在借 助AI工具,可能90%的 ...
Sora App的AI视频社交,给了百度们新希望
36氪· 2025-10-24 11:25
Sora 2发布两周后,百度的蒸汽机AI视频模型,和谷歌Veo 3.1撞了档期。 两家公司选择同期发布并非有多默契,而是Sora 2带来的压迫感促使它们不得不加快脚步。 奥尔特曼将形容Sora 2为"创意领域的ChatGPT 3.5时刻",不仅在物理逻辑、画面连贯性、真实感和音画同步等方面实现了质的飞跃,还把Sora从一个"文 本到视频"的工具进化成一个"创意到生态"的平台。 这无疑是扔在AI视频生成领域的一颗重磅炸弹,它揭示了另一种可能,按照OpenAI的逻辑,通过Cameo(客串)、Remix(二创)和社交化产品设计这三 大支柱,足以彻底重构内容创作的商业逻辑。 这是Google、Meta、TikTok不愿意看到的,却是百度、阿里、360们期待的。百度蒸汽机团队在最近的一次采访中就坦承,Sora 2的产品化和社交裂变方面 带来了重要启发。 通过Cameo等功能,Sora巧妙地解决了AI+社交的难题,将重点放在熟人关系的低成本Remix共创上,而非单纯追求视频质量。更重要的是,大模型厂商之 间的竞争也从过往简单的模型SOAT比拼升级至产品落地、商业变现等价值维度层面。 这意味着,定义应用与产品能力的重要性正 ...
对话百度蒸汽机团队:国内视频生成模型赛道非常“卷” Sora2发布后团队都没休假
中国经营报· 2025-10-21 22:35
行业竞争态势 - 视频生成大模型赛道竞争进入白热化阶段 [2] - OpenAI推出Sora2模型,凭借10秒有声一体化视频及社交化玩法引爆网络,加剧国内技术竞赛压力 [2] - 国内视频模型团队迅速响应,百度蒸汽机团队与快手AI团队在国庆中秋期间无休投入工作 [2] - 国内赛道竞争激烈程度远超国外,呈现百花齐放状态 [4] 百度蒸汽机技术进展 - 百度蒸汽机在10月15日完成升级,打破传统AI视频生成10秒左右时长限制,首次实现AI长视频实时交互生成 [4] - 用户可支持无限时长视频生成,并能在生成过程中实时交互,随时改写内容或扩写续集 [4] - 团队创新性地将自回归流式生成与扩散模型结合构建新型混合架构,使生成成本呈线性增长,适合长视频生成 [5][6] - 通过训推一致、关键参考帧注意力、历史帧扰动等技术缓解自回归带来的累计误差与一致性问题 [6] 产品特性与市场定位 - 百度蒸汽机实现实时交互能力,用户可在视频生成过程中随时暂停、修改段落或插入新情节,告别盲盒式生成 [6] - 产品致力于让创作过程符合创作者边写边改的思维习惯,目标是让用户想到可编辑、可打断的长视频时第一个想到蒸汽机 [6] - 在Sora2因定价高昂被开发者吐槽的背景下,百度蒸汽机升级后仍坚持原有定价策略,未来通过技术降本为用户释放红利而非陷入价格战 [6] 技术发展瓶颈与路径 - 视频生成技术面临瓶颈,DiT架构初期表现好但随需求深化,成本、生成时间、算力需求呈几何级数增长 [5] - 行业高门槛体现在生成技术复杂性及对及时满足的要求,用户无法接受延时等待 [5] - Sora2底层模型有提升,但在内容一致性、大动作呈现等方面基础模型升级幅度远不如从GPT到GPT-3.5显著 [5] - 多模态领域竞争焦灼,没有团队能拥有绝对长期技术优势,当前核心是比拼执行力,看谁能更快推进 [4]
一对分别为 19 岁与 20 岁的斯坦福辍学生兄弟完成 410 万美元、超额认购的种子轮融资,用于打造 Golpo AI 并重塑 AI 视频生成方式
Globenewswire· 2025-10-21 17:31
Golpo AI 获得超额认购种子轮融资,通过交互式 AI 视频变革沟通方式旧金山, Oct. 21, 2025 (GLOBE NEWSWIRE) -- Golpo 是一个可将文档与提示转换为交互式解说视频的 AI 平台,今日宣布已完成一笔 410 万美元、超额认购的种子轮融资。本轮由 BNVT Capital (由 Gates Foundation 与 Hedosophia 分拆而来) 领投,Emergence Capital、Y Combinator、Afore Capital 等亦参投。 本轮融资获投资者高度追捧,创始人不得不婉拒相当规模的追加资金。 Golpo 由 Shraman Kar(19 岁)和 Shreyas Kar(20 岁)兄弟创立,他们从斯坦福大学计算机科学专业辍学,以实现让 AI 视频沟通变得实用、可扩展且人人可及的愿景。 Golpo 联合创始人 Shraman Kar 表示:“一年前,我还坐在高中教室上最后一堂课,为即将前往斯坦福大学而兴奋不已。 如果那时有人告诉我,一年后我会辍学与哥哥一起创业,我肯定会一笑置之。 但有些问题至关重要,不容忽视。” 这对兄弟发现了 AI 视频领域存在 ...
Vidu Q2携「王炸」登场!杀手锏「参考生」功能全球上线,APP体验全面革新
量子位· 2025-10-20 18:29
金磊 发自 凹非寺 量子位 | 公众号 QbitAI AI视频领域杀疯了! 发布Vidu Q2图生视频不到2周,Vidu又又又更新了,而且直接甩出三张王牌。 首先是AI创作者们等待良久的 Vidu Q2参考生功能 终于要正式发布了。 在Vidu AI APP,只需轻松点击"二次创作",@一下 主体 就可以生成一段玩好有趣的合拍视频,你可以与你喜欢的角色进行合拍,或者基 于其他人创作的AI视频更改其故事走向,任何脑洞大开的创意都可以在这里实现。不再需要繁琐的提示词,@主体+一句话就能生成有趣的 视频,创作门槛大幅降低。 同时APP端内置海量主体库,包括人物、动物、特效等丰富素材,用户可以直接调用喜欢的主体,随时随地生成好玩有趣的视频。 不仅如此,用户还可以像刷短视频一样在Vidu APP中刷各类AI视频内容,简直不要太爽! 从此社交有了更高维的形状,AI+创意+社交将生长出全新的AI社交方式。 随着Vidu移动端应用的全新升级,一个集内容创作、互动、分发于一体的平台已经诞生,用户不仅可以浏览AI生成的精彩视频,更能随时随 地将自己的奇思妙想变为现实。 此外, Vidu视频延长功能一来就亮绝杀 , 最高可延长至五 ...
数码家电行业周度市场观察-20251018
艾瑞咨询· 2025-10-18 17:27
行业投资评级 - 报告未明确给出统一的行业投资评级 但通过对多个细分领域的分析 呈现结构性投资机会 [1] 核心观点 - AI技术正经历从"人机协同"向"人机委托"的范式转移 行业接近温和拐点 未来竞争将围绕"撒手速度"展开 [5] - AI商业化模式从工具销售转向"为结果付费" AI RaaS(结果即服务)成为核心趋势 推动行业从算力竞争转向价值创造 [2] - 生成式AI热潮推动云计算市场K型分化 算力革命下资本开支激增 行业从价格战转向生态建设和深度服务 [14] - 移动互联网流量达12.67亿 微信小程序和APP为主要渠道 多业务协同成为企业巩固优势的关键 [14] 行业环境总结 家电市场趋势 - 预测2025年中国家电零售额达6087亿元 增长14.9% 消费分层、智能化、健康化是主要趋势 [2] - 洗衣机市场受政策红利推动增长 97.2%消费者考虑多筒分区洗护产品 热泵烘干技术受欢迎 [2] AI技术与商业化 - AI视频生成领域迎来资本和技术突破 厂商分化为产品导向的初创企业(如爱诗科技)和生态布局的大厂(如字节、快手) [4] - 国内大模型公有云服务Tokens调用量从2023年的114.2万亿次飙升至2024年上半年的536.7万亿次 半年增长近5倍 [17] - MaaS(模型即服务)模式崛起 火山引擎以49.2%市场份额领先 开发者通过按量调用降低应用门槛 [17] - 聊天机器人填补情感陪伴需求但伴随伦理风险 AI广告已全面渗透 超53%广告主使用AIGC技术 视频制作成本可降低95% [7][11] 算力与基础设施 - 中国算力规模与能耗统计存在差异 理论年耗电量2726亿度远超实际值1166亿度 [8] - 预计2030年算力规模达2500-5000 EFLOPS 年耗电量6000亿度(占全社会用电量5%-6%)直接产业规模约2万亿元 [8] 硬件与供应链 - 人形机器人行业从"单打独斗"转向生态合作 头部企业通过投资、合资加速布局 智元机器人年化收益率达8倍 [4] - 车载SOC芯片国产化率已超10% "舱驾一体化"成为新趋势 高通、英伟达及国产厂商纷纷布局 [10] - AI手机竞争转向硬件+系统+大模型综合能力 Google Pixel 10凭借Gemini Nano模型整合在本地化处理和隐私保护上领先 [10] 区域与生态发展 - 杭州被誉为"中国AI宇宙中心" 得益于政府政策、民营经济活力和从算力到应用的完整生态 [11] - "超级黄金周"期间文旅和本地生活消费市场双线爆发 AI技术成为行业竞争核心 平台从流量争夺转向全链路效率提升 [7] 头部品牌动态总结 云服务与AI平台 - 阿里云瓴羊发布企业级AI智能体服务平台AgentOne 提供20多种企业级Agent 覆盖营销、客服等核心场景 [17] - OpenAI取得三大突破:与甲骨文签署5年3000亿美元云服务合同 解除与微软独占协议 自研芯片将于2025年投产 [18] 战略合作与生态构建 - 美的与华为签署战略合作协议 整合制造与ICT技术优势 共建星闪和开源鸿蒙生态 重点覆盖AIGC、智慧工厂及智慧家庭 [18] - 阿里将英伟达Physical AI(物理AI)软件栈纳入开发者选项 推动AI技术从虚拟向物理世界跨越 [21] 产品发布与市场扩张 - 小米大家电正式登陆欧洲市场 推出空调、冰箱和洗衣机等产品 2025年第二季度总收入达1160亿元(同比增长30.5%) [24] - 海信海外最大工业园区在泰国开工 对标全球灯塔工厂 采用AI质检、数字孪生等技术 计划2030年全部建成 [24] - 华为发布WATCH GT 6系列智能手表 续航达14-21天 以及FreeClip 2耳夹耳机 算力提升10倍 [27] 芯片与硬件技术 - 高通在2025骁龙峰会上强调端侧AI重要性 推出新一代移动处理器第五代骁龙8至尊版 采用3nm工艺 [21] - 宇树科技计划递交A股上市申请 有望成为"人形机器人第一股" 2024年公司营收突破10亿元 估值或超1200亿元 [28] 医疗与垂直应用 - 京东健康推出三大AI医疗创新成果:京医千询2.0、行业首个AI医院和CGM智能互联生态 推动优质医疗资源普惠化 [20] - 谷歌AI工具Nano Banana两周内生成超2亿张图片 带动Gemini App用户增长超千万 垂类应用寻求场景化差异化竞争 [27]
季度AI视频生成产品:多模态输入成标配,角逐一站式生成能力 | 量子位智库AI 100
量子位· 2025-10-18 15:33
AI视频生成行业动态 - Sora2在五天内下载量突破百万次,显著提升AI视频生成领域热度[3] - 谷歌推出对标产品Veo3.1,重点布局音频生成技术[4] - 国际厂商竞争聚焦电影级创意能力,国内企业追求秒级生成高清稳定视频并深耕垂直场景[5][6] - 视觉模型与世界模型深度融合,推动3D物理场景逼真化,实现无限一致视频生成[6] 技术演进趋势 - 多模态输入成为行业标配,支持文生视频、图生视频及音画同步生成[7] - 部分产品实现Agent一站式生成,构建全流程视频生成体系[7] - 输出视频时长从数秒延长至数分钟,分辨率提升至2K/4K级别,帧率达60fps[7] - 角色一致性、分镜设计、关键帧控制及口型同步等技术稳定性显著增强[7] 用户数据表现 - 5款产品访问量超20万,包括即梦AI、可灵AI、RoboNeo、海螺AI和Vidu[8] - 即梦AI下载量突破1100万,访问量增长27%至约950万[9] - 可灵AI网页端月访问量超100万,RoboNeo紧随其后[9] - 豆包、通义万相等综合类AI产品均集成视频生成功能[10] 头部产品功能特性 - 即梦AI支持3分钟视频生成,具备首尾帧控制、镜头运动及数字人口型同步功能[15] - 腾讯混元3D通过世界模型实现360°沉浸场景生成,支持物理仿真[18] - 可灵AI提供首尾帧稳定衔接及多图参考角色生成,拥有百余种风格模板[20] - 海螺AI实现2D插画转动态视频,30秒内生成6秒短视频,支持2K高清输出[24] - 绘想提供五种模型选择,支持音视一体化生成及11种特效,适配中文语境[25][27] 创新产品技术突破 - 白日梦Agent可将2000字文案转为6分钟连贯视频,支持角色DNA库与智能分镜[37][39] - Vidu最快10秒生成视频,提供4秒/8秒时长选项,分辨率达1080P[43][44] - SEELE实现零代码3D游戏生成,支持角色控制、场景构建及物理效果[60] - FilmAction支持最高16K视频生成,整合从剧本创作到视频合成的全流程[62][63]
爱诗科技完成1亿元B+轮融资 ARR超4000万美元
搜狐财经· 2025-10-18 00:28
稳定的用户增长和高社区粘性,为商业化奠定了坚实基础。爱诗科技的ARR主要来源于会员订阅服务,2024年11月公司启动商业化业务。同时,今年初 才开放的API生态也表现突出。据公司统计,截至8月31日,PixVerse(拍我AI)开放平台在过去半年里通过API生成的视频数量突破1000万个。 随着V5大 模型、Agent智能体以及多主体生成等能力的更新,八月单月API调用量即实现翻倍,助力合作伙伴更轻松地创建叙事驱动的视频内容。 爱诗科技通过准实时生成、角色驱动视频等核心技术大幅降低创作门槛。PixVerse作为全球最早实现角色驱动视频生成的平台之一,在V4更早实现音画同 步,极大增强了内容的生动性与情感连接。首尾帧、续写和重绘等功能让创意和故事在AI视频中"活"起来,增强了创作者对"故事叙事"的掌控力,在广 告、影视、游戏制作中逐步应用起来。 在AI视频生成领域,从技术探索到规模化应用的转变是一个关键阶段。业内人士表示,能够同时聚集海量用户、构建社交场域并展现出清晰商业化路径 的产品仍然较为稀少。在AI原生应用中,PixVerse两年时间内迅速成为全球普通消费者体验和消费AI视频内容的"第一站"。 AI视频企 ...
爱诗科技完成1亿元B+轮融资:过去一年收入和用户增长最快的AI平台之一
IPO早知道· 2025-10-17 19:14
公司融资与估值 - 公司完成1亿元人民币B+轮融资,投资方包括复星锐正、同创伟业、顺禧基金等 [2] - 此前于9月10日完成B轮融资,总金额超过6000万美元,由阿里巴巴领投,创下国内视频生成领域单次最大融资额 [2] - 公司年度经常性收入超过4000万美元,商业化不到一年收入增长超过10倍 [4] 技术与产品进展 - 公司是国内首个发布DiT架构视频生成模型的创业公司,在极速生成与一致性等关键维度实现全球领先 [2] - 自研视频生成大模型在两年内进行五次迭代,共八个版本更新,为用户提供准实时、高质量且音画同步的视频生成服务 [2] - PixVerse V5上线,优化动态效果、超清视觉处理、一致性保持等核心环节,并推出Agent创作助手功能,降低用户创作门槛 [4] - 平台通过准实时生成与角色驱动视频等核心技术,在影像、广告、游戏制作等领域逐步应用 [4] 用户与市场表现 - 公司旗下产品PixVerse与拍我AI用户规模突破1亿,月活跃用户超过1600万 [4] - 平台是过去一年全球收入和用户增长最快的AI平台之一 [4] - 开放平台在过去半年通过API生成的视频数量突破1000万个,八月单月API调用量实现翻倍 [6] - 根据AIGCRank数据,PixVerse在9月网站访问量增长超过26.91%,移动和网页端双增长 [6]
百度蒸汽机,盯上长视频生成实时交互
21世纪经济报道· 2025-10-17 19:00
多模态AI视频行业竞争格局 - 行业竞争焦灼 参与方在技术上均无绝对优势 长期优势难以维持[2] - 当前竞争焦点在于执行力与速度[2] - 近期Open AI发布Sora 2模型 国内AI视频公司亦频繁更新动态[3] 百度蒸汽机模型技术进展 - 百度蒸汽机模型于10月15日升级 重点提升交互体验[3] - 模型实现实时交互生成AI长视频 突破传统10秒时长限制[4] - 用户可通过上传图片和提示词启动生成 并可实时预览 随时暂停或修改提示词以控制视频剧情 画面和转场[4] 百度蒸汽机模型技术细节与迭代 - 为延长视频时长 行业普遍采用"首尾帧续写"技术 但易导致视频缺乏连贯性[4] - 百度团队升级基础架构 引入自回归扩散模型 并着手消除训推偏差及优化一致性以应对技术挑战[4] - 自7月发布以来 模型基本保持每月重大更新的迭代频率[4] - 百度蒸汽机的APP正在规划中[4]