Workflow
AI视频生成
icon
搜索文档
让AI生成视频「又长又快」:Rolling Forcing实现分钟级实时生成
机器之心· 2025-11-05 08:18
研究背景与核心问题 - AI实时生成长时间、高质量且连贯的视频流是当前技术瓶颈,现有模型存在误差累积问题,导致视频延长时出现画面崩坏 [4] - 实时长视频生成面临“不可能三角”困境,即高质量、一致性和实时性三者难以兼顾 [8] - 核心挑战包括实时性要求模型顺序生成、消除误差累积与保持一致性难以两全、以及自回归逐帧生成的局限性 [10] 方法核心:Rolling Forcing 技术创新 - 提出“滚动窗口”思想,将视频生成从串行因果过程转变为滑动窗口内的并行协作过程,实现“边生成边修正” [12] - 通过滚动窗口联合降噪,在单次前向传播中同时处理多帧窗口,利用双向注意力机制进行帧间相互校准 [14] - 引入Attention Sink机制,将初始生成帧作为全局锚点持久化缓存,以维持视频长期视觉属性的一致性 [14] - 采用基于非重叠窗口的高效蒸馏训练算法,使训练过程更贴近推理真实场景,缓解曝光偏差 [14] 实验结果与性能表现 - 在参数量为1.3B的情况下,模型生成速度达到15.79 FPS,延迟为0.76秒,实现了实时生成 [17] - 关键质量漂移指标ΔDriftQuality低至0.01,远低于对比模型(如SkyReels-V2的5.59和MAGI-1的2.15),显著抑制了误差累积 [17] - 在多项评估指标上超越现有主流方法,如主体一致性得分92.80,背景一致性得分93.71,美学质量得分70.75 [17] - 定性结果显示,在长达2分钟的生成过程中能保持高度稳定的细节、色彩和运动连贯性 [20] 应用潜力与未来挑战 - 技术为交互式世界模型、神经游戏引擎和AR/VR等实时视频流应用提供了基础 [23] - 支持交互式视频流生成,用户可随时改变文本提示词,模型能动态调整后续内容 [21] - 未来挑战包括优化长程记忆机制以保存视频中段信息、提升训练效率以降低计算成本、以及针对VR/AR等场景优化交互延迟 [25]
不上班在家怎么赚钱:在家靠AI工具生成视频每月也能有5000+的进账
搜狐财经· 2025-11-03 02:59
想在抖音上搞点东西但又不想太费劲?直接看这个像素风插画视频的玩法。别搞复杂了,核心就一步:用AI搞定全部。这项目最大的好处就是省事,不 用你懂设计,5分钟就能搞定一条,纯粹是给想"抄近道"的人准备的。 相信很多人跟我一样,在找副业的时候吃过亏、被割过韭菜,还花了不少冤枉钱。如今我找项目,基本都是从 "顺为网创" 公众号获取,那里的教程详 细,实操性强。只要肯动手,一个月多赚个五六千完全没问题。 一、 这玩意儿凭啥能火 前阵子我社群里一个哥们,就靠发这种像素小视频,一个星期干了8000多粉丝。他跑来问我怎么赚钱,思路还没打开。 说白了,这事儿就是信息差。很多人觉得这种图好看,但自己不会做,也不知道有AI这种神器。评论区一堆人求图,就说明需求摆在那儿。别管你喜不 喜欢,市场喜欢就行,咱们的目标就是用最快的方法满足他们。 二、 怎么搞钱最快 别在闲鱼上傻乎乎地一张一张卖图,一张3块钱,一条视频8块,累死累活还不够点外卖的。这种体力活,效率太低,直接pass。 | | | | | | 8分钟前来过 东莞 | | --- | --- | --- | --- | --- | --- | | | | | | | ■■ 1- ...
从视频生成工具到“世界模型”距离有多远?
中国经营报· 2025-10-31 17:49
行业竞争格局 - OpenAI推出的第二代Sora在登陆苹果应用商店后5天内下载量超过100万次,增速超过ChatGPT [1] - 视频生成模型赛道已聚集谷歌、Meta等科技巨头以及Runway、Luma AI、Midjourney等创业公司 [1] - 国内市场已有阿里、腾讯、字节、快手、百度等企业推出数十款视频大模型产品,美团也开源了其首款视频生成模型LongCat-Video [1] - 视频生成模型的主战场正从“拼参数”的通用模型竞赛转向“拼落地”的垂直生态竞争 [7] 技术应用与影响 - AI视频工具使能进行较高质量内容创作的人群从可能只有10%的专业人员提升至可能90%的人 [2] - 使用Sora等产品未来制作影视、游戏、动漫的效率将会呈现几何倍数增长 [2] - AI视频正在成为社交网络的新名片,相关特效广受欢迎,满足了消费者在数字社交中的个性化等心理需求 [2] - 抖音AI短剧排行榜中的《兴安岭诡事》等作品播放量破亿次,AI短剧正在快速崛起 [3] - 视频生成技术发展迅速,表现在内容生态重塑、社交逻辑重构、内容消费体验升级等方面 [6] 技术演进与市场前景 - Sora2的推出标志着视频生成技术正在进入全民可用的成熟阶段,将给视频相关领域带来深远影响 [4] - 通用大模型正在加速从技术提供商向应用平台服务商转变,社交是撬动大众市场的驱动力 [5] - 多模态生成大模型正迎来系统性可用窗口,生数科技旗下Vidu称用户在30秒内可完成多个镜头切换 [6] - 全球AI视频生成市场规模去年达6.15亿美元,预计今年达7.17亿美元,2032年达25.63亿美元,年均复合增速20% [8] 技术挑战与发展方向 - 美团开源的LongCat-Video模型是其探索“世界模型”的第一步,意图是深耕自家田地而非与通用大模型硬碰硬 [6] - 视频生成模型正探索垂直场景的专用模型,在电商广告、短视频制作等领域已有初步试水 [6] - 要成为真正的“世界模型”需跨越诸多关卡,包括对复杂物理规律的精准模拟、前后逻辑及画面的一致性等 [7] - 成功关键在于技术能否与自身商业场景深度耦合,实现闭环价值,而非单纯技术领先 [7]
Sora App的AI视频社交,给了百度们新希望
36氪· 2025-10-24 11:25
行业竞争格局与驱动力 - Sora 2的发布对行业产生重大影响,促使百度、谷歌等公司加快产品发布节奏[1] - 行业竞争焦点从单纯的模型性能比拼,升级至产品落地与商业变现等价值维度[1] - 国内公司如百度、阿里、360等对Sora 2的产品化和社交裂变模式表示期待并寻求借鉴[1] Sora 2的核心技术升级 - 生成质量实现飞跃,包括更精准的物理效果、清晰真实感、同步音频、强可控性和广风格范围[4] - 物理一致性显著优化,对刚体、流体、遮挡及碰撞等动力学建模更为精确[7] - 可控性增强,能更好响应用户脚本指令;新增原生音频功能,实现音画同步[7] - 画面风格覆盖写实、电影、动画等多类型场景,整体表现更稳定[7] Sora App的产品策略与市场表现 - Sora App上线第四天即登顶美国App Store免费应用榜第一名,超越ChatGPT和Gemini[9] - 在仅限美加地区邀请制测试下,其iOS应用在头两天内获得了16.4万次下载量[12] - 应用采用邀请码机制推动社交裂变,每位新用户可邀请4位好友,提升了产品的心理价值[14] - 应用成功得益于ChatGPT庞大的用户基础,其网页端与移动端月活跃用户分别达到7.9亿和2.7亿[14] 创新功能与生态构建 - 通过“客串”功能,用户可一次性录制形象,由模型复刻后置入任何AI场景,创建个人化视频[12] - 通过“混剪”功能,用户可输入提示词对平台内容进行二次创作,生成属于自己的版本[13] - 这些功能布局标志着公司从“AI工具提供商”向“AI生态构建者”的战略转变[13] - 公司正构建由IP驱动的新生态系统,核心是“精细化控制”和“收入分成”模型[17] 商业模式与行业影响 - 新商业模式旨在形成“IP+创作者”的收入分成体系,为版权方提供授权费和维持IP热度的机会[18] - 对创作者而言,可以低成本合法使用知名IP创作,并通过平台分成获得收益[18] - Sora 2的社交属性使其从工具变为平台,为同类产品打开了新的发展思路[19] - 该模式可能为用户快速找到变现路径,进而发展成为用户生产与消费的闭环平台巨头[22]
对话百度蒸汽机团队:国内视频生成模型赛道非常“卷” Sora2发布后团队都没休假
中国经营报· 2025-10-21 22:35
行业竞争态势 - 视频生成大模型赛道竞争进入白热化阶段 [2] - OpenAI推出Sora2模型,凭借10秒有声一体化视频及社交化玩法引爆网络,加剧国内技术竞赛压力 [2] - 国内视频模型团队迅速响应,百度蒸汽机团队与快手AI团队在国庆中秋期间无休投入工作 [2] - 国内赛道竞争激烈程度远超国外,呈现百花齐放状态 [4] 百度蒸汽机技术进展 - 百度蒸汽机在10月15日完成升级,打破传统AI视频生成10秒左右时长限制,首次实现AI长视频实时交互生成 [4] - 用户可支持无限时长视频生成,并能在生成过程中实时交互,随时改写内容或扩写续集 [4] - 团队创新性地将自回归流式生成与扩散模型结合构建新型混合架构,使生成成本呈线性增长,适合长视频生成 [5][6] - 通过训推一致、关键参考帧注意力、历史帧扰动等技术缓解自回归带来的累计误差与一致性问题 [6] 产品特性与市场定位 - 百度蒸汽机实现实时交互能力,用户可在视频生成过程中随时暂停、修改段落或插入新情节,告别盲盒式生成 [6] - 产品致力于让创作过程符合创作者边写边改的思维习惯,目标是让用户想到可编辑、可打断的长视频时第一个想到蒸汽机 [6] - 在Sora2因定价高昂被开发者吐槽的背景下,百度蒸汽机升级后仍坚持原有定价策略,未来通过技术降本为用户释放红利而非陷入价格战 [6] 技术发展瓶颈与路径 - 视频生成技术面临瓶颈,DiT架构初期表现好但随需求深化,成本、生成时间、算力需求呈几何级数增长 [5] - 行业高门槛体现在生成技术复杂性及对及时满足的要求,用户无法接受延时等待 [5] - Sora2底层模型有提升,但在内容一致性、大动作呈现等方面基础模型升级幅度远不如从GPT到GPT-3.5显著 [5] - 多模态领域竞争焦灼,没有团队能拥有绝对长期技术优势,当前核心是比拼执行力,看谁能更快推进 [4]
一对分别为 19 岁与 20 岁的斯坦福辍学生兄弟完成 410 万美元、超额认购的种子轮融资,用于打造 Golpo AI 并重塑 AI 视频生成方式
Globenewswire· 2025-10-21 17:31
Golpo AI 获得超额认购种子轮融资,通过交互式 AI 视频变革沟通方式旧金山, Oct. 21, 2025 (GLOBE NEWSWIRE) -- Golpo 是一个可将文档与提示转换为交互式解说视频的 AI 平台,今日宣布已完成一笔 410 万美元、超额认购的种子轮融资。本轮由 BNVT Capital (由 Gates Foundation 与 Hedosophia 分拆而来) 领投,Emergence Capital、Y Combinator、Afore Capital 等亦参投。 本轮融资获投资者高度追捧,创始人不得不婉拒相当规模的追加资金。 Golpo 由 Shraman Kar(19 岁)和 Shreyas Kar(20 岁)兄弟创立,他们从斯坦福大学计算机科学专业辍学,以实现让 AI 视频沟通变得实用、可扩展且人人可及的愿景。 Golpo 联合创始人 Shraman Kar 表示:“一年前,我还坐在高中教室上最后一堂课,为即将前往斯坦福大学而兴奋不已。 如果那时有人告诉我,一年后我会辍学与哥哥一起创业,我肯定会一笑置之。 但有些问题至关重要,不容忽视。” 这对兄弟发现了 AI 视频领域存在 ...
Vidu Q2携「王炸」登场!杀手锏「参考生」功能全球上线,APP体验全面革新
量子位· 2025-10-20 18:29
金磊 发自 凹非寺 量子位 | 公众号 QbitAI AI视频领域杀疯了! 发布Vidu Q2图生视频不到2周,Vidu又又又更新了,而且直接甩出三张王牌。 首先是AI创作者们等待良久的 Vidu Q2参考生功能 终于要正式发布了。 在Vidu AI APP,只需轻松点击"二次创作",@一下 主体 就可以生成一段玩好有趣的合拍视频,你可以与你喜欢的角色进行合拍,或者基 于其他人创作的AI视频更改其故事走向,任何脑洞大开的创意都可以在这里实现。不再需要繁琐的提示词,@主体+一句话就能生成有趣的 视频,创作门槛大幅降低。 同时APP端内置海量主体库,包括人物、动物、特效等丰富素材,用户可以直接调用喜欢的主体,随时随地生成好玩有趣的视频。 不仅如此,用户还可以像刷短视频一样在Vidu APP中刷各类AI视频内容,简直不要太爽! 从此社交有了更高维的形状,AI+创意+社交将生长出全新的AI社交方式。 随着Vidu移动端应用的全新升级,一个集内容创作、互动、分发于一体的平台已经诞生,用户不仅可以浏览AI生成的精彩视频,更能随时随 地将自己的奇思妙想变为现实。 此外, Vidu视频延长功能一来就亮绝杀 , 最高可延长至五 ...
数码家电行业周度市场观察-20251018
艾瑞咨询· 2025-10-18 17:27
行业投资评级 - 报告未明确给出统一的行业投资评级 但通过对多个细分领域的分析 呈现结构性投资机会 [1] 核心观点 - AI技术正经历从"人机协同"向"人机委托"的范式转移 行业接近温和拐点 未来竞争将围绕"撒手速度"展开 [5] - AI商业化模式从工具销售转向"为结果付费" AI RaaS(结果即服务)成为核心趋势 推动行业从算力竞争转向价值创造 [2] - 生成式AI热潮推动云计算市场K型分化 算力革命下资本开支激增 行业从价格战转向生态建设和深度服务 [14] - 移动互联网流量达12.67亿 微信小程序和APP为主要渠道 多业务协同成为企业巩固优势的关键 [14] 行业环境总结 家电市场趋势 - 预测2025年中国家电零售额达6087亿元 增长14.9% 消费分层、智能化、健康化是主要趋势 [2] - 洗衣机市场受政策红利推动增长 97.2%消费者考虑多筒分区洗护产品 热泵烘干技术受欢迎 [2] AI技术与商业化 - AI视频生成领域迎来资本和技术突破 厂商分化为产品导向的初创企业(如爱诗科技)和生态布局的大厂(如字节、快手) [4] - 国内大模型公有云服务Tokens调用量从2023年的114.2万亿次飙升至2024年上半年的536.7万亿次 半年增长近5倍 [17] - MaaS(模型即服务)模式崛起 火山引擎以49.2%市场份额领先 开发者通过按量调用降低应用门槛 [17] - 聊天机器人填补情感陪伴需求但伴随伦理风险 AI广告已全面渗透 超53%广告主使用AIGC技术 视频制作成本可降低95% [7][11] 算力与基础设施 - 中国算力规模与能耗统计存在差异 理论年耗电量2726亿度远超实际值1166亿度 [8] - 预计2030年算力规模达2500-5000 EFLOPS 年耗电量6000亿度(占全社会用电量5%-6%)直接产业规模约2万亿元 [8] 硬件与供应链 - 人形机器人行业从"单打独斗"转向生态合作 头部企业通过投资、合资加速布局 智元机器人年化收益率达8倍 [4] - 车载SOC芯片国产化率已超10% "舱驾一体化"成为新趋势 高通、英伟达及国产厂商纷纷布局 [10] - AI手机竞争转向硬件+系统+大模型综合能力 Google Pixel 10凭借Gemini Nano模型整合在本地化处理和隐私保护上领先 [10] 区域与生态发展 - 杭州被誉为"中国AI宇宙中心" 得益于政府政策、民营经济活力和从算力到应用的完整生态 [11] - "超级黄金周"期间文旅和本地生活消费市场双线爆发 AI技术成为行业竞争核心 平台从流量争夺转向全链路效率提升 [7] 头部品牌动态总结 云服务与AI平台 - 阿里云瓴羊发布企业级AI智能体服务平台AgentOne 提供20多种企业级Agent 覆盖营销、客服等核心场景 [17] - OpenAI取得三大突破:与甲骨文签署5年3000亿美元云服务合同 解除与微软独占协议 自研芯片将于2025年投产 [18] 战略合作与生态构建 - 美的与华为签署战略合作协议 整合制造与ICT技术优势 共建星闪和开源鸿蒙生态 重点覆盖AIGC、智慧工厂及智慧家庭 [18] - 阿里将英伟达Physical AI(物理AI)软件栈纳入开发者选项 推动AI技术从虚拟向物理世界跨越 [21] 产品发布与市场扩张 - 小米大家电正式登陆欧洲市场 推出空调、冰箱和洗衣机等产品 2025年第二季度总收入达1160亿元(同比增长30.5%) [24] - 海信海外最大工业园区在泰国开工 对标全球灯塔工厂 采用AI质检、数字孪生等技术 计划2030年全部建成 [24] - 华为发布WATCH GT 6系列智能手表 续航达14-21天 以及FreeClip 2耳夹耳机 算力提升10倍 [27] 芯片与硬件技术 - 高通在2025骁龙峰会上强调端侧AI重要性 推出新一代移动处理器第五代骁龙8至尊版 采用3nm工艺 [21] - 宇树科技计划递交A股上市申请 有望成为"人形机器人第一股" 2024年公司营收突破10亿元 估值或超1200亿元 [28] 医疗与垂直应用 - 京东健康推出三大AI医疗创新成果:京医千询2.0、行业首个AI医院和CGM智能互联生态 推动优质医疗资源普惠化 [20] - 谷歌AI工具Nano Banana两周内生成超2亿张图片 带动Gemini App用户增长超千万 垂类应用寻求场景化差异化竞争 [27]
季度AI视频生成产品:多模态输入成标配,角逐一站式生成能力 | 量子位智库AI 100
量子位· 2025-10-18 15:33
AI视频生成行业动态 - Sora2在五天内下载量突破百万次,显著提升AI视频生成领域热度[3] - 谷歌推出对标产品Veo3.1,重点布局音频生成技术[4] - 国际厂商竞争聚焦电影级创意能力,国内企业追求秒级生成高清稳定视频并深耕垂直场景[5][6] - 视觉模型与世界模型深度融合,推动3D物理场景逼真化,实现无限一致视频生成[6] 技术演进趋势 - 多模态输入成为行业标配,支持文生视频、图生视频及音画同步生成[7] - 部分产品实现Agent一站式生成,构建全流程视频生成体系[7] - 输出视频时长从数秒延长至数分钟,分辨率提升至2K/4K级别,帧率达60fps[7] - 角色一致性、分镜设计、关键帧控制及口型同步等技术稳定性显著增强[7] 用户数据表现 - 5款产品访问量超20万,包括即梦AI、可灵AI、RoboNeo、海螺AI和Vidu[8] - 即梦AI下载量突破1100万,访问量增长27%至约950万[9] - 可灵AI网页端月访问量超100万,RoboNeo紧随其后[9] - 豆包、通义万相等综合类AI产品均集成视频生成功能[10] 头部产品功能特性 - 即梦AI支持3分钟视频生成,具备首尾帧控制、镜头运动及数字人口型同步功能[15] - 腾讯混元3D通过世界模型实现360°沉浸场景生成,支持物理仿真[18] - 可灵AI提供首尾帧稳定衔接及多图参考角色生成,拥有百余种风格模板[20] - 海螺AI实现2D插画转动态视频,30秒内生成6秒短视频,支持2K高清输出[24] - 绘想提供五种模型选择,支持音视一体化生成及11种特效,适配中文语境[25][27] 创新产品技术突破 - 白日梦Agent可将2000字文案转为6分钟连贯视频,支持角色DNA库与智能分镜[37][39] - Vidu最快10秒生成视频,提供4秒/8秒时长选项,分辨率达1080P[43][44] - SEELE实现零代码3D游戏生成,支持角色控制、场景构建及物理效果[60] - FilmAction支持最高16K视频生成,整合从剧本创作到视频合成的全流程[62][63]
爱诗科技完成1亿元B+轮融资 ARR超4000万美元
搜狐财经· 2025-10-18 00:28
融资与财务表现 - 公司于10月17日完成1亿元人民币B+轮融资,投资方包括复星锐正、同创伟业、顺禧基金等 [1] - 公司年度经常性收入超过4000万美元,自2024年11月商业化以来不到一年时间收入增长超过10倍 [1] - 产品月活跃用户数超过1600万,用户总规模已突破1亿 [1] 产品与技术进展 - 公司自研视频生成大模型在两年内进行了五次迭代,共八个版本的更新 [1] - 8月27日上线的PixVerse V5模型具备准实时生成能力,优化了动态效果、超清视觉处理、一致性保持等核心环节 [2] - 同步上线的Agent创作助手功能,使用户无需复杂提示词技巧即可一键生成专业级视频 [2] - 平台通过准实时生成与角色驱动视频等核心技术降低创作门槛,是全球最早实现角色驱动视频生成的平台之一 [2][4] 商业化与生态建设 - 公司商业化模式主要基于会员订阅服务,并于今年初开放API生态 [2] - 截至8月31日,过去半年内通过API生成的视频数量突破1000万个,八月单月API调用量实现翻倍 [2] - 产品在影像、广告、游戏制作等领域逐步应用,增强了创作者对故事叙事的掌控力 [2][4] 市场地位与用户增长 - 公司是过去一年全球收入和用户增长最快的AI平台之一,产品成为全球创作者使用AI视频生成的首选平台 [1][2] - 平台凭借“速度快、易上手、创意可控”的产品理念,迅速成为全球普通消费者体验和消费AI视频内容的“第一站” [2][4]