Workflow
AI视频生成
icon
搜索文档
把龙做成菜,一个会计是怎么用AI做出740万播放的视频的?
后浪研究所· 2025-11-17 17:35
AI视频内容创作的成功要素 - 视频《把远古沧龙做成六道菜(上)》上线三天播放量达700万,总播放量达740万,B站粉丝数涨至7.1万[5][11][13] - 成功关键在于故事编排、密集热梗和画面快速切换(1-2秒切换镜头),而非单纯依赖AI技术[16] - 创作者通过故意加入穿帮镜头(如人物手放滚烫锅上)引发讨论,推动视频进入更高流量层级[18][20] AI视频制作的技术细节 - 视频时长6分23秒,需拼接至少75个5秒片段,实际生成超1000条素材,部分镜头“抽卡”次数过百[10] - 使用多模型组合:Gemini和ChatGPT优化脚本提示词,Veo 3负责80%视频生成,可灵处理东方题材,wan 2.2优化动作生成,Heygen和Minimax用于配音[28] - 保持人物一致性依赖图生视频技术(首帧固定人物形象)和精细化提示词描述(如面部轮廓细节)[32] 创作者背景与行业趋势 - 创作者为28岁会计,通过三年自学掌握AI视频制作,从月产一小段提升至日产多段[11] - 行业出现AI替代传统拍摄趋势,部分品牌已用AI完成宣传片,替代90%实景拍摄[40] - 内容平台(如B站、快手)积极推广AI生成内容,B站热门视频多含AI元素,快手计划赋能创作者生产AI长内容[12] 内容创意与成本投入 - 选题聚焦“未见过的生物”(如恐龙、麒麟),结合《地狱厨房》等流行文化元素,避免同质化切石头、小猫做饭等内容[24] - 月成本包括上千元会员费、额外token费用及本地算力,总成本约四五千元,时间成本高(每日工作至凌晨3点)[31] - 创作者计划拓展至30分钟至1小时影视级长视频,探索剧集式内容形态[39]
把龙做成菜,一个会计是怎么用AI做出740万播放的视频的?
36氪· 2025-11-14 16:41
AI视频内容创作的成功要素 - 视频《把远古沧龙做成六道菜(上)》在B站上线三天播放量达700万,总播放量达740万,评论近5000条,粉丝数涨至7.1万[3][7][11] - 核心成功逻辑包括密集的热梗植入(如印度厨师做“九转大肠”、中国厨师辛西娅的经典台词)、1-2秒快速镜头切换、以及故意保留穿帮镜头以引发观众讨论[5][12][14] - 创作者强调“一定要有梗才能留住人”,单纯做菜内容预计播放量仅十几万至三十几万,而结合故事、热梗和高质量画面可实现爆发式传播[5][13] AI视频制作的技术与成本 - 视频全长6分23秒,基于当前AI模型普遍仅能生成5-10秒片段的限制,需生成超1000条素材,部分镜头“抽卡”次数过百,最终选取75个核心镜头拼接[5][7] - 主要使用Veo 3(占80%)、可灵(中餐场景)、wan2.2(动作生成)等多模型协作,配合Gemini/ChatGPT优化脚本,月成本包括会员费上千元及额外token和算力约四五千元[21] - 人物一致性通过图生视频(首帧固定人物形象)及精细化提示词(分段落描述形象、风格、动作、音频)实现,复杂特效画面需一页以上文档的提示词[19][22] 行业趋势与创作者转型 - 内容平台对AI生成内容接受度大幅提升,B站热门视频多含AI元素,快手等平台明确希望赋能创作者生产高质量AI长内容[10] - 创作者原为会计,通过三年自学AI工具,从月产一小段提升至日产多段,目前已收到大量商业合作邀约,计划向全职AI设计师转型[7][11] - AI视频商业前景被看好,可替代90%实景拍摄,部分大品牌已开始投入资源与AI机构合作,但传统拍摄仍会因部分受众排斥AI而保留[29] 内容创意与未来规划 - 选题聚焦“未见过的内容”(如灭绝生物恐龙、神话麒麟),通过结合《地狱厨房》等综艺及动漫元素打造差异化故事,避免同质化切石头、小猫做饭等常见AI内容[18][26] - 未来计划从6分钟视频延伸至30分钟或1小时影视级长内容,探索剧情与做菜比重的动态调整机制,根据用户反馈优化内容结构[26][28] - 创意延续性依赖非刻意逼压灵感,可能尝试虚拟演唱会等跨界内容,但需规避肖像权等法律风险[26]
NeurIPS'25 Oral:何必DiT,字节首次拿着自回归,单GPU一分钟生成5秒720p视频
36氪· 2025-11-14 16:35
核心观点 - 字节跳动商业化技术团队提出名为InfinityStar的视频生成方法,旨在解决DiT模型计算复杂度高、资源消耗大和生成速度慢的问题,实现了质量与效率的兼顾 [2] - InfinityStar是首个在VBench基准上超越扩散模型的离散自回归视频生成器,在多项任务中表现优异,生成速度比主流扩散模型快一个数量级 [3][24] - 该方法通过时空金字塔建模等关键技术,将图像和视频生成任务统一为自回归预测问题,支持文生图、文生视频、图生视频及交互式长视频生成等多种功能 [3][9][11] 技术架构与创新 - 核心架构为时空金字塔建模方法,将视频分解为首帧(负责静态外观信息)和后续视频片段(负责动态信息),通过时空自回归Transformer统一建模 [9][10][11] - 采用高效的视觉分词器,通过知识继承技术加快训练收敛,并引入随机量化器深度正则化技术以均衡信息在不同尺度上的分布,提升生成质量 [14][15] - 对自回归Transformer进行三项关键改进:语义尺度重复以增强视频结构一致性和运动流畅性;时空稀疏注意力以降低长序列计算复杂度;时空RoPE位置编码以提供精确时空坐标感 [17][18] 性能表现 - 在文生图任务上,InfinityStar在GenEval和DPG基准上取得优异表现,尤其在位置和物体关系上展现出明显优势 [18] - 在文生视频任务上,InfinityStar-8B模型在VBench基准上超越所有先前的自回归模型,其总体得分达到83.74,甚至优于部分基于DiT的模型,如CogVideoX-5B(81.61)和HunyuanVideo-13B(83.24) [21][22] - 在人类偏好评估中,InfinityStar-8B在指令遵循方面展现出显著优势,效果优于HunyuanVideo-13B [22] - 生成效率显著提升,比同尺寸的基于DiT的方法快一个数量级,在单张GPU上生成5秒720p视频仅需不到1分钟 [24] 应用与功能 - 支持多种生成任务,包括文生图、文生视频、图生视频以及交互式长视频生成 [3][8] - 提供Discord社区体验入口,用户可通过提示词生成高质量图像,并进一步基于图像生成视频,实现联动玩法 [4][6][8] - 作为原生自回归模型,支持交互式长视频生成,可根据参考视频和新提示词持续生成后续内容 [8]
可灵2.5 Turbo模型上线首尾帧功能
新浪科技· 2025-11-12 20:27
产品发布 - 可灵2.5 Turbo模型上线全新首尾帧功能 [1] - 新模型在动态效果、文本响应、风格保持、美学效果等维度较2.1模型均取得显著提升 [1] - 新功能进一步强化了AI视频生成的可控性、稳定性、一致性 [1] 应用前景 - 技术升级为其更广泛地应用于影视、短剧、游戏、动画、广告营销等专业创意内容生产场景奠定基础 [1] - 为创作者提供了更加优质的视频生成解决方案 [1]
这家好莱坞公司提供了全新的影视工业AI解决方案
钛媒体APP· 2025-11-11 17:33
全球AI视频生成市场格局 - 2025年全球AI视频生成市场规模突破300亿美元,年复合增长率维持在40%以上高位水平[2] - 市场呈现短视频厂商(如快手可灵、抖音即梦)与通用大模型厂商(如Sora、Google Veo)分而治之的局面,短视频平台凭借庞大流量基础和模板化创作闭环,市场占有率甚至超过技术领跑者[2] - 主流AI视频模型普遍追求短片极致细节以吸引C端用户付费,导致其在面对电影等工业级长片需求时力不从心[2] 主流视频模型的技术瓶颈 - 主流模型在长程视频、多人物、复杂场景中难以维持角色外貌、服装和场景元素的稳定性[3] - 模型缺乏叙事能力,难以理解剧本因果链条和叙事手法,无法匹配相应镜头语言,导致生成内容与导演意图差异巨大[3] - 模型物理规则认知水平不足,其基于2D像素统计规律理解的物理规则无法满足电影工业级别需求[3] - AI视频生成模型发展路径已分化,短程与长程、追求细节与追求叙事、短视频与电影需求催生不同技术路线[3] Utopai Studios公司概况与战略合作 - Utopai Studios是好莱坞AI原生影视工作室,与全球创新投资平台Stock Farm Road共同出资数十亿美元设立合资公司Utopai East,旨在建立全球首个AI原生影视制作体系[4][7] - 公司前身Cybever成立于2022年,2025年更名为Utopai Studios并从AI技术供应商转型为AI原生影视工作室,聚焦用AI技术制作原创内容[4] - Utopai Studios获得好莱坞改革派力量投资,首年实现1.1亿美元预售收入,涵盖史诗电影《Cortés》和科幻剧集《Project Space》等项目[7] - 合作方Stock Farm Road由韩国LG集团继承人与阿联酋Offsets Group创始人联合成立,计划在韩国建设350亿美元级AI数据中心,为模型训练提供算力支撑[7] - 合资公司Utopai East结合韩国成熟影视工业体系与先进AI制作技术,形成韩系产业资本、硅谷创新网络和中东主权资金的产业—技术—资本联动案例[9] Utopai影视模型技术架构 - 模型采用"规划—生成"自回归机制,通过自回归模型作为"导演大脑"负责理解剧本和生成拍摄计划,扩散模型作为"执行引擎"负责高质量画面生成[10][12] - 工作流实现端到端闭环,将剧本拆解为故事板,通过3D-EnGen生成可交互3D场景,再输出可控视频(Previz-to-Video Pipeline)[10] - 规划层与渲染层通过统一状态空间交换信息,规划器输出未来帧几何与语义约束,渲染器生成图像并反馈结果,逐帧保证叙事连贯性与画面一致性[12][14] - 模型严格依据规划层输出的结构化指令生成画面,生成条件包括深度、法线、光流、遮罩、参考帧、相机轨迹等丰富信号[13] 模型定位与创作理念 - Utopai强调AI模型在影视制作中是"协作者"而非"作者",核心是帮助导演更高效精确地表达故事,而非决定故事[16][17] - 实际使用反馈显示导演并未感到被替代,反而被AI实时生成能力激发灵感,能够重写剧本和重新设计节奏[17] - 公司理念是技术扩展人类想象力,让模型与创作者协作而非替代,每个组件都围绕创作流程设计[23] - Utopai产出的所有影视作品均已应用该模型体系,包括由奥斯卡提名编剧执笔的《Cortés》和成功预售欧洲市场的科幻剧集《Project Space》[17] 数据基座与训练方法论 - 模型训练使用大量高质量、带精确标注的3D合成数据,而非通用视频模型常用的网络二维视频数据,使模型能够内化物理规律,避免生成内容出现物理"幻觉"[18] - 训练数据仅使用经授权的专业数据集,确保学习源头高质量和合法性,合作方SFR拥有庞大合规视频数据集与算力基础设施[18] - 训练分为两个关键阶段:几何与语义对齐预训练建立对物理世界的底层理解;多模态指令微调增强对复杂叙事指令的遵循能力[18] - 模型能够对复杂情感和叙事意图进行状态级精确建模,例如协调生成身体姿态、视线方向、镜头语言等要素呈现角色情感转变过程[19] 工作流效率与评估体系 - Utopai实现模型与工作流统一,真实制作场景数据持续优化模型,形成数据、模型、工作流与创作者深度集成的闭环系统[21] - 工作流可实现60%到90%的提效,具体程度取决于内容类型和复杂程度[22] - 公司建立基于专业影视标准的内部评估体系,补充一致性指标、剧本指令遵从度和制作效率跃升指标,超越仅衡量视觉逼真度的通用指标[21] 行业未来展望 - 预计未来数年内workflow agent将在各行业爆发,AI会带来新题材和内容,成功标准在于能否实现80%~90%的自动化[23] - 衡量成功有两个重心:产品是否具有好的审美和体验;效率层面是否能替代80%的行业臃肿重复工作[23] - 未来视频模型将从渲染器发展为统一的理解性系统,具备更强叙事逻辑和理解思考能力[23]
对谈 Sora 核心团队:Sora 其实是一个社交产品,视频生成模型会带来科研突破
海外独角兽· 2025-11-09 16:17
Sora的产品定位与核心功能 - Sora被定位为社交产品而非单纯的视频生成工具其病毒式传播的核心是Cameos功能该功能允许用户将自己的形象融入AI生成视频中[2] - 产品设计将人类创造力置于核心位置鼓励主动创作而非被动消费信息流推荐算法围绕社交关系链展开这与传统短视频工具存在显著差异[2] - 将Sora作为独立应用推出一方面是基于此前图片生成产品ImageGen的成功经验另一方面是为了避免与ChatGPT的生产力工具定位产生冲突[2][3] - Cameos功能起初是内部工程师的随意尝试通过收集团队成员视频进行人物标记后意外发现其强大吸引力并成为产品的核心亮点[5] - Storyboard功能是Sora 2的革命性突破能够将自然语言脚本自动转化为长达25秒的连贯视频片段实现了质量标准的大幅飞跃[6] 产品开发历程与设计理念 - 产品灵感源于早期在ChatGPT内部测试的社交媒体流功能用户上传图片后其他人提出修改需求形成的动态创意交互揭示了GenAI独有的创作方式[4] - 推荐系统经过重新设计旨在服务于创意表达而非刺激被动消费避免产品陷入单纯的内容刷屏模式[8] - 产品设计基于核心假设即与朋友一起使用会更有趣推荐系统强化了社交互动未来将深化社区功能并强化私信等互动方式[12] - 团队认为产品的关键在于用户对内容的“认可印章”即有人审视后决定发布的行为本身构成了创作参与这与纯AI生成内容有根本差异[9][10] - 产品致力于创作民主化通过提供从基础混搭到专业分镜剪辑的工具降低创意门槛支持用户从初学者成长为专业创作者[10][11] 商业化策略与生态构建 - Sora 2的API成本相比Sora 1大幅降低Sora 1生成720p短视频成本约为50美元而Sora 2的定价仅为前者的九牛一毛[16] - 商业化初期采用用户日均使用30次后开始收费的模式目前未出现强烈抵制未来计划为创作者和版权方提供变现途径构建受益生态系统[16][17] - 货币化功能将优先支持早期投入资源的创作者并为版权方提供新的内容变现方式目前正启动试点项目探索新模式[14][15] - 品牌营销模式可能被重构例如创作者可将视频中的元素展示权拍卖给品牌方这代表全新的创意广告领域[18] - Cameos功能创造了独特的传播属性工程与产品负责人Thomas Dimson的个人Cameos已有17000次出镜其视频总观看量惊人展示了平台的影响力[19] 技术发展路径与行业展望 - 视频生成模型的下一个突破点是生成长达数小时的内容并基于模拟能力在科研领域创造价值长期目标是成为“世界模拟器”[2][30] - 从DALL·E 1到Sora 2技术进展显著Sora 1被视为视频领域的“GPT-1时刻”能够生成高分辨率60秒视频而Sora 2在智能和实用性上实现飞跃[29][30] - 视频模型有望推动机器人技术等领域的进展通过理解运动机制和物理规律解决传统依赖大规模现实数据采集的难题[31] - 行业里程碑将是视频模型通过模拟现象实现首个科学突破尤其是在经典物理相关领域预计2028年前可能实现这一目标[32] - 模型通过预测任务学习物理原理例如扩散模型通过去噪过程神经网络在优化压力下从海量数据中涌现出对物理规律的理解[35] 团队认知与竞争格局 - 团队规模精简约40人其中研究员9-10人产品团队不到20人系统团队约13人通过Sora API支持外部开发者构建新应用[26][27] - 行业竞争加剧但公司有信心保持领先优势核心是拥抱用户将创作工具交到用户手中而非单纯技术竞争[25] - 团队认知发生转变意识到纯AI生成内容可能空洞真正价值在于人类创作的碎片和情感共鸣而非仅追求内容质量[26] - 技术普及速度被高估基础研究领先但打造好用的产品和进行用户教育存在滞后企业端应用还需面对监管等复杂障碍[25] - 模型评估体系因实际产品落地而得到加强例如通过对比Sora 1和Sora 2对相同提示词的输出来衡量进步Cameos功能成为核心测试场景[33]
3.6亿,前腾讯混元技术负责人创业,0产品融资了
36氪· 2025-11-07 15:57
融资信息 - 视频生成初创公司Video Rebirth完成5000万美元融资 约合人民币3.56亿元 [2] - 本轮融资由多家全球顶级金融及战略投资机构共同参与 [2] 公司概况与战略 - 公司由前腾讯杰出科学家刘威博士于2024年10月创立 总部位于新加坡 [3] - 公司计划于今年12月推出首款正式产品"Bach"模型 [3] - 公司战略重心从消费级工具转向广告、电商、影视与动画等专业创作领域 [3] - 公司目标是构建面向AI视频生成的"世界模型" 提供具备高保真度、可控性与物理一致性的生成式视频解决方案 [3] 技术与产品 - 公司核心技术为自研的"物理原生注意力"架构 旨在解决AI生成娱乐内容领域的技术难题 实现对光影、运动与交互的精确建模 [6] - 公司曾发布Avenger 0.5 Pro模型 在Artificial Analysis的视频竞技场上拿下总榜第二的排名 仅次于Kling 2.5 Turbo [6][7] - 公司目标不仅是"文生视频" 而且是构建一个真正的生成平台 为需要电影质感与物理一致性的创作者而生 [7] 创始人背景 - 创始人兼CEO刘威本科毕业于浙江大学 于2012年在美国哥伦比亚大学获得计算机科学与电子工程博士学位 [3] - 刘威曾加入IBM沃森研究中心担任研究科学家 后于2016年加入腾讯AI Lab [3][6] - 在腾讯期间 刘威担任AI Lab计算机视觉中心总监、广告多媒体AI中心总监 并曾是腾讯混元大模型的技术负责人之一 [6]
让AI生成视频「又长又快」:Rolling Forcing实现分钟级实时生成
机器之心· 2025-11-05 08:18
研究背景与核心问题 - AI实时生成长时间、高质量且连贯的视频流是当前技术瓶颈,现有模型存在误差累积问题,导致视频延长时出现画面崩坏 [4] - 实时长视频生成面临“不可能三角”困境,即高质量、一致性和实时性三者难以兼顾 [8] - 核心挑战包括实时性要求模型顺序生成、消除误差累积与保持一致性难以两全、以及自回归逐帧生成的局限性 [10] 方法核心:Rolling Forcing 技术创新 - 提出“滚动窗口”思想,将视频生成从串行因果过程转变为滑动窗口内的并行协作过程,实现“边生成边修正” [12] - 通过滚动窗口联合降噪,在单次前向传播中同时处理多帧窗口,利用双向注意力机制进行帧间相互校准 [14] - 引入Attention Sink机制,将初始生成帧作为全局锚点持久化缓存,以维持视频长期视觉属性的一致性 [14] - 采用基于非重叠窗口的高效蒸馏训练算法,使训练过程更贴近推理真实场景,缓解曝光偏差 [14] 实验结果与性能表现 - 在参数量为1.3B的情况下,模型生成速度达到15.79 FPS,延迟为0.76秒,实现了实时生成 [17] - 关键质量漂移指标ΔDriftQuality低至0.01,远低于对比模型(如SkyReels-V2的5.59和MAGI-1的2.15),显著抑制了误差累积 [17] - 在多项评估指标上超越现有主流方法,如主体一致性得分92.80,背景一致性得分93.71,美学质量得分70.75 [17] - 定性结果显示,在长达2分钟的生成过程中能保持高度稳定的细节、色彩和运动连贯性 [20] 应用潜力与未来挑战 - 技术为交互式世界模型、神经游戏引擎和AR/VR等实时视频流应用提供了基础 [23] - 支持交互式视频流生成,用户可随时改变文本提示词,模型能动态调整后续内容 [21] - 未来挑战包括优化长程记忆机制以保存视频中段信息、提升训练效率以降低计算成本、以及针对VR/AR等场景优化交互延迟 [25]
不上班在家怎么赚钱:在家靠AI工具生成视频每月也能有5000+的进账
搜狐财经· 2025-11-03 02:59
项目概述 - 项目核心是利用AI工具生成像素风插画视频,是一种低门槛、高效率的副业模式 [1] - 项目优势在于无需设计技能,单条视频制作时间约5分钟,适合希望低投入获取收益的人群 [1] - 该模式被描述为典型的“用巧劲”赚钱,无需拍摄剪辑或露脸,完全依赖工具自动化 [17] 市场潜力与需求 - 市场需求基于信息差,许多用户觉得像素风图片好看但不会制作,评论区存在大量求图需求 [4] - 社群的实践案例显示,通过发布此类视频,一周内可增长8000多名粉丝 [2] - 项目的可行性在于市场存在明确需求,关键在于以最快方法满足该需求 [4] 盈利模式 - 模式一:在闲鱼平台提供定制服务,单张图片定价3元,实况视频定价8元,需将沟通流程模板化以提高效率 [7] - 模式二:通过抖音平台获取流量收益,粉丝数达到1000后可开通伙伴计划,依靠视频播放量获得平台分成 [9] - 附加模式:将运营成熟的账号出售,单个账号价值可达几十元,批量操作可形成额外收入 [9] 操作流程 - 第一步使用“即梦AI”的图片生成功能,输入简单指令如“像素风,未来城市夜景,高清”即可生成素材 [13] - 第二步设置生成参数,选择模型3.0和9:16的图片比例,AI每次生成4张图片供选择 [15] - 第三步直接选择图片生成视频并下载,熟练后整个流程耗时极短,可实现批量生产 [15]
从视频生成工具到“世界模型”距离有多远?
中国经营报· 2025-10-31 17:49
行业竞争格局 - OpenAI推出的第二代Sora在登陆苹果应用商店后5天内下载量超过100万次,增速超过ChatGPT [1] - 视频生成模型赛道已聚集谷歌、Meta等科技巨头以及Runway、Luma AI、Midjourney等创业公司 [1] - 国内市场已有阿里、腾讯、字节、快手、百度等企业推出数十款视频大模型产品,美团也开源了其首款视频生成模型LongCat-Video [1] - 视频生成模型的主战场正从“拼参数”的通用模型竞赛转向“拼落地”的垂直生态竞争 [7] 技术应用与影响 - AI视频工具使能进行较高质量内容创作的人群从可能只有10%的专业人员提升至可能90%的人 [2] - 使用Sora等产品未来制作影视、游戏、动漫的效率将会呈现几何倍数增长 [2] - AI视频正在成为社交网络的新名片,相关特效广受欢迎,满足了消费者在数字社交中的个性化等心理需求 [2] - 抖音AI短剧排行榜中的《兴安岭诡事》等作品播放量破亿次,AI短剧正在快速崛起 [3] - 视频生成技术发展迅速,表现在内容生态重塑、社交逻辑重构、内容消费体验升级等方面 [6] 技术演进与市场前景 - Sora2的推出标志着视频生成技术正在进入全民可用的成熟阶段,将给视频相关领域带来深远影响 [4] - 通用大模型正在加速从技术提供商向应用平台服务商转变,社交是撬动大众市场的驱动力 [5] - 多模态生成大模型正迎来系统性可用窗口,生数科技旗下Vidu称用户在30秒内可完成多个镜头切换 [6] - 全球AI视频生成市场规模去年达6.15亿美元,预计今年达7.17亿美元,2032年达25.63亿美元,年均复合增速20% [8] 技术挑战与发展方向 - 美团开源的LongCat-Video模型是其探索“世界模型”的第一步,意图是深耕自家田地而非与通用大模型硬碰硬 [6] - 视频生成模型正探索垂直场景的专用模型,在电商广告、短视频制作等领域已有初步试水 [6] - 要成为真正的“世界模型”需跨越诸多关卡,包括对复杂物理规律的精准模拟、前后逻辑及画面的一致性等 [7] - 成功关键在于技术能否与自身商业场景深度耦合,实现闭环价值,而非单纯技术领先 [7]