Workflow
视频生成模型
icon
搜索文档
想法流CEO沈洽金:AI驱动的下一代互动内容应该怎么做?|「锦秋会」分享
锦秋集· 2025-11-04 19:01
AI内容行业发展趋势 - AI内容产业正从效率革命转向情感革命,从"可生成"到"可共情",从"自动化创作"到"个性化互动"[4] - AI内容竞争的核心不是模型参数规模,而是共情力与创造力[9] - AI内容的两大核心能力是互动性与想象力,互动创造参与感和情感连接,想象力让内容超越现实[13] 公司产品战略与定位 - 公司不追求让AI更像工具,而是让AI更像"存在",打造具备互动性、想象力与陪伴感的"内容人格"[4][6] - 公司从AI互动故事起家,正在搭建AI共创的内容宇宙,用户从观看者转变为与AI共同创造角色、世界与故事的人[6] - 公司打造AI原生IP生态,已有300多个AI IP角色,由用户共创与社群互动不断演化[13] 技术架构与模型应用 - 公司持续追随模型演化,从文字到图像、音频,再到视频与多模态创作,每次模型迭代都带来新内容形态[13][20] - 公司开发Studio/Workflow系统,将语言、图像、视频、音频模型串联起来,让创作者用可视化流程创作[13] - 创作Agent能基于用户意图自动选择最合适Workflow,并补全Prompt与参数,系统内置Prompt最佳实践库让模型参考人类经验生成内容[13][33] 内容形态演进路径 - 早期基于character模型做带章节结构的互动故事,随后逐步拓展图像玩法、AI音乐音频内容、故事性视频和社交型内容[22] - 视频生成模型出现两大突破:角色一致性和故事性视频生成能力,这使得AI生成内容从特效类转向具备可消费性的剧情片段[43][44] - 公司探索复杂内容类型如海龟汤和规则怪谈类玩法,利用模型更大上下文窗口和更强推理能力实现模板化[60] 创作者生态与用户互动 - AI不会取代创作者,而是辅助和激发创作者,放大他们的创造力与社群连接力[13][76] - 平台提供低门槛模板,即使是初中生用户也能在手机上完成AI创作,不需要懂模型或精通提示词[13][36] - 创作者通过积极与用户互动,接受用户"许愿",不断丰满作品世界观和角色,形成完整故事宇宙[76] 具体功能与商业化实践 - 换装玩法利用新图像生成模型实现角色风格一致性,无需额外训练LoRA模型,万圣节活动用户参与度远超预期[49][50] - 故事线功能基于用户与AI互动上下文自动生成剧情节点与互动成就,并可打包交付给用户,最新版本能扩写成完整小说[66] - 线索卡功能模型自动生成五个新故事线索并配插图,用户逐步解锁,单个作品消费深度显著提升[69]
美团LongCat-Video正式发布并开源,支持高效长视频生成
36氪· 2025-10-27 16:59
产品发布与定位 - 美团LongCat团队于10月27日发布并开源视频生成模型LongCat-Video [2] - 该模型被定位为公司“世界模型”方向探索的重要一步 [8] 技术架构与功能 - 模型基于Diffusion Transformer架构,以“条件帧数量”区分任务,统一支持文本生成视频、图像生成视频和视频续写三类基础任务 [5] - 在预训练阶段引入原生视频续写任务,以提升长时序生成能力,可稳定生成分钟级长视频 [6] - 模型在跨帧时序一致性与物理运动合理性方面做了针对性优化,以减少色彩漂移、画质衰减与动作断裂等问题 [6] 性能表现与基准测试 - 在VBench 2.0基准测试中,模型总得分为62.11%,在开源模型中表现领先 [5] - 模型在文本对齐与运动连贯等指标上表现突出,其中常识性指标得分达70.94%,可控性指标得分达44.79% [5] - 团队称该模型在内部与公开基准测试中取得开源范围内的领先结果 [2] 效率优化与参数规模 - 模型结合块稀疏注意力与条件token缓存机制,以降低长序列推理冗余 [6] - 针对高分辨率、高帧率场景,采用“二阶段粗到精+块稀疏注意力+蒸馏”组合策略,据称推理速度较基线提升至约10.1倍 [6] - LongCat-Video基座模型的参数规模约为136亿参数 [6]
豆包视频生成模型1.0 pro fast正式发布
第一财经· 2025-10-27 14:49
产品发布 - 火山引擎于10月24日正式上线豆包视频生成模型1.0 pro fast [1] - 该模型在继承Seedance 1.0 pro模型核心优势的基础上实现效率突破 [1] 性能与成本 - 模型生成速度最高提升约3倍 [1] - 模型价格直降72% [1]
美团视频生成模型正式发布并开源
第一财经· 2025-10-27 10:55
公司技术发布 - 美团LongCat团队于10月27日发布并开源了LongCat-Video视频生成模型 [2] - 该模型通过“二阶段粗到精生成(C2F)+ 块稀疏注意力(BSA)+ 模型蒸馏”三重优化技术 [2] - 优化后模型视频推理速度提升至10.1倍 [2] 行业技术瓶颈与突破 - 模型主要针对高分辨率、高帧率视频生成领域的计算瓶颈问题 [2] - 三重优化方案有效解决了视频生成的计算效率挑战 [2]
闪电快讯|Sora 2亮相后,百度谷歌同日发布视频模型新品
新浪财经· 2025-10-16 22:04
行业动态与竞争格局 - OpenAI于10月1日发布最新视频生成应用Sora 2,为全球视频生成赛道打响新的发令枪 [1] - 百度于10月15日官宣视频生成模型百度蒸汽机升级,谷歌于同一天夜间推出最新视频生成模型Veo 3.1版 [2][5] - 视频生成赛道竞争焦灼,各公司在技术上没有绝对长期优势,竞争焦点在于执行力和速度 [7] 百度蒸汽机模型技术特点 - 升级后的蒸汽机模型行业首次实现AI长视频实时交互生成功能,突破传统AI视频生成10秒左右的时长限制,理论支持无限时长生成 [2][5] - 模型支持图生视频和视频生视频双模式生成,用户可实时查看推理内容、随时暂停、修改提示词,实现对视频剧情、画面、转场的实时控制 [5] - 同步推出可交互数字人与开放世界动态构建两大功能,数字人支持沉浸式双向互动,开放世界允许用户在AI生成环境中自由探索 [5] 产品定价策略 - 百度蒸汽机Turbo有声版价格2.5元/秒,首发双周优惠为1.4元/5秒,C端用户在“绘想”平台会员充值定价41元/月起 [2] - Sora 2 API定价为0.1美元/秒起,C端用户需拥有ChatGPT Plus(20美元/月)或Pro(200美元/月)会员 [3] - 百度蒸汽机定价为行业同类产品的70%,本次升级沿用了之前的价格策略 [2] 产品化与生态构建 - Sora 2推出了独立的iOS App应用,首页以信息流呈现优质生成作品,支持用户浏览、分享、共创,被讨论有意入局社交内容产品 [8] - 百度蒸汽机目前主要接入百度App满足内部业务需求,独立App是未来规划方向 [8] - 百度搜索于10月15日全面升级文心助手AIGC创作能力,支持AI图片、视频、音乐、播客等8种模态创作,每天有千万量级AIGC内容由用户通过文心助手创作产生 [8] 应用场景与功能 - 百度文心助手提供“长视频生成玩法”,用户可通过输入描述要求AI自动完成一部3分钟故事片的全流程制作,包括情节设计、角色塑造、场景搭建等 [10] - 文心助手集成“一句话写歌”、“MV制作”、“名场面模仿秀”等创作功能,以及超30种特效玩法模板,后续将上线音乐数字人分身功能 [10] - 百度搜索发布行业首个开放式实时互动的数字人智能体,支持用户与持证真人专家的数字分身进行1v1对话,应用于法律、情感、旅游等专业咨询场景 [10] 谷歌Veo模型更新 - 谷歌Veo 3.1版在音频输出、精细化编辑控制以及图像转视频效果方面均有提升 [5] - Veo 3.1特别推出视频扩展、首尾帧补过渡、图片引导风格控制三大升级功能 [6]
美股异动|谷歌涨超2.3%创新高,此前推出新一代视频生成模型Veo 3.1
格隆汇· 2025-10-16 22:01
公司股价表现 - 谷歌A股价上涨超过2.3%,最高触及256.96美元,创下历史新高 [1] 产品与技术进展 - 公司推出新一代视频生成模型Veo 3.1,在音频输出、精细化编辑控制和图像转视频效果方面均有提升 [1] - Veo 3.1模型正被部署至视频编辑平台Flow、Gemini应用程序、Vertex AI平台和Gemini API接口 [1] 用户数据与产品采用 - 自今年5月Flow上线以来,用户已在该应用上创作了超过2.75亿个视频 [1]
OpenAI“抖音”被嘲“好尬”?!Altman 大秀Sora 2、赶上谷歌Veo 3,但要邀请码才能玩?
AI前线· 2025-10-01 10:24
Sora 2模型技术特点 - OpenAI推出结合新模型Sora 2和新产品的应用Sora [2] - OpenAI称Sora 2是视频的GPT-3.5时刻 能完成以往视频生成模型难以完成的任务 [2] - Sora 2在理解物理世界上进行大量优化 被描述为世界最佳视频生成模型 可体验原始现实世界物理特性 [2] - 该模型不完美 会犯错 但证明扩展神经网络在视频数据上的训练能更接近模拟现实 [4] Sora应用社交功能 - Sora应用核心是围绕"Cameos"功能构建的社交应用 用户可创建和混音彼此创作 发现个性化视频流 [5] - 通过Cameos功能 用户可录制简短视频音频验证身份 然后将自身嵌入任何Sora场景 [5] - 内测期间有用户反馈因此交到新朋友 对外公布版本需要邀请码 [5] 市场反应与竞争 - 网友认为Sora逼真度令人信服 OpenAI已成功赶上谷歌的Veo3 [5] - Sora 2开发成本巨大 社交媒体应用Sora的回报需在未来体现 [5] - 网友对演示反应不一 有人欢呼 也有人称尴尬和糟糕 [6] - 有用户批评剪辑尴尬 音频不自然 [9]
Sora 2 中国首测?Open AI 这次真成了!
歸藏的AI工具箱· 2025-10-01 04:32
模型核心能力 - 该模型被描述为当前世界上最强的视频生成模型,具备卓越的人物ID保持能力,仅需用户录制三段视频(包括说三个数字和转转头)即可克隆其人脸和声音 [1] - 模型具备世界知识,能够理解复杂提示词并生成符合逻辑的视频内容,例如在雨天场景中人物未打伞时脸上会有雨水效果 [4][8] - 视频生成具备自动分镜和镜头切换能力,能够根据对话者自动调整镜头位置,展现出成熟的视频编排和故事逻辑创作能力 [8][11] - 支持多模态输入,用户可上传图片(如马、汽车、香水瓶)并结合简单提示词生成视频,实现人物、场景和物体ID的一致性保持 [6][7][9] 技术性能表现 - 语音克隆效率极高,仅需不到2秒的语音样本(三个数字)即可完成音色克隆,并支持中文、日语、英语等多种语言 [1] - 在复杂提示词遵循方面表现优异,能够精确匹配动作细节(如篮球投掷、教练喊话)和场景转换(从白天到黄昏的长镜头),音效同步精准 [13][14] - 支持多人物合拍功能,用户可在生成视频时@其他用户,实现人物间的互动对话,且对话内容具有逻辑性和深度 [1][15][16] 产品形态与市场定位 - 公司为该模型推出了一个社交APP,其形态类似于AI版的抖音,用户可邀请朋友合拍AI视频,且视频生成服务免费 [1] - 产品设计了“Ramix”功能,用户可通过简单提示词(如“在城堡”)对现有视频进行二次创作,改变场景和装扮同时保持人物面部一致性 [5] - 该模型被定位为真正面向C端用户的视频生成工具,集成了声音、音效、运镜和分镜规划,大幅降低了高质量视频内容的创作门槛 [17]
北京跑出未来独角兽:要用“具身 Sora ”做机器人大脑,已融资数千万
搜狐财经· 2025-08-28 08:03
公司背景与定位 - 北京灵生科技成立于2023年 专注于具身智能机器人大脑研发 核心产品为云-边-端一体化大脑系统LingBrain 目前已获数千万融资 [3] - 公司创始人杨洪兵拥有百度、腾讯等互联网大厂AI算法和产业经验 团队优势在于懂AI、懂本体、懂产业结合点 [7][22] - 公司定位为机器人垂域大脑供应商 通过开源策略推动行业生态繁荣 目标成为机器人智能领域的"Windows"或"Android" [26][39][44] 技术突破与创新 - 开源业内首个支持异步运行的快慢双系统视觉语言动作框架RealDualVLA 提供高效协同解决方案 [2] - 独创视频生成模型"具身Sora" 通过生成行为视频让机器人进行推演学习 将任务成功率从90%以下提升到95%以上 [3][16][17] - 技术壁垒在于对物理世界复杂因素(光照、摩擦力、弹性力)的建模能力 以及持续的模型迭代和资源聚焦 [19] - 实现自然语言处理通用接口(NLI) 用户可通过日常语言指令控制机器人执行动作 [45] 行业痛点与解决方案 - 机器人行业面临数据匮乏问题 人类行为历史未被系统记录 导致训练数据极度不足 [15] - 行业封闭性导致恶性循环:数据少导致训练难 训练难导致不愿开源 进一步减缓行业发展 [15] - 通过视频生成技术弥补数据不足 生成大量行为视频供机器人学习 解决数据瓶颈难题 [15][16] - 开源策略打破闭源竞争格局 推动行业技术迭代和生态繁荣 [11][38] 商业模式与商业化进展 - 商业模式基于开放平台加增值服务 通过技术支持、模型优化定制收费 [24] - 与本体厂商合作通过增值服务收费 与终端客户合作通过直接赋能大脑技术收费 [25] - 合作分三阶段:付费POC概念验证→小批量采购→中等规模乃至大批量复购 目前大部分合作已进入小规模复购阶段 [27][28] - 已与富士康集团、国际3C巨头、半导体领域头部上市公司等数十家客户建立合作 解决分拣泛化操作、产线精密操作等难题 [29][30][44] 产业化挑战与应对 - 真实产业环境复杂度远高于实验室 需通过工程化体系化能力适配上千上万台机器规模化需求 [31] - 产业环境更关注失败次数控制而非成功次数 需优化模型推理速度、效率和准确率确保交付稳定性 [33] - 利用具身Sora视频生成技术弥补数据缺失 填补行业空白 [32] - 通过开源策略消除本体公司对数据安全和供应商依赖的顾虑 源代码完全透明开放 [37][40] 行业发展与竞争格局 - 机器人行业存在两条技术路线:以智元为代表的真机数据采集和以银河通用为代表的仿真环境 均存在局限性 [16] - 本体公司自研大脑存在资源分散难题 难以在每个环节做到极致 [35] - 大厂虽拥有强大AI团队 但缺乏软硬件结合的垂直能力和产业场景深度 [21] - 远期通用大脑(AGI)在技术上几乎不可行 因需极高泛化能力、超算力成本且性价比低 垂域大脑才是现实方向 [41][42][43]
可灵AI单季度营收2.5亿元,视频生成模型的赚钱能力正在提升
新浪财经· 2025-08-22 09:51
核心观点 - 快手可灵AI商业化进展超预期 2025年第二季度营收达2.5亿元 较前期累计1亿元收入实现数倍增长[1] - 视频生成模型通过架构创新实现训练推理成本大幅下降 行业商业化前景逐步明朗[4][6] - 互联网企业加速布局视频生成领域 百度等厂商推出明确商业化导向的产品[6] 财务表现 - 可灵AI 2025年第二季度营收2.5亿元 较去年7月至今年2月累计1亿元收入显著提升[1] - 2025年4月及5月单月付费金额均突破1亿元[1] - 预计2025年全年营收将较年初目标翻倍[1] - 推理算力层面已实现毛利率为正[6] - 快手第二季度总营收350亿元 其中线上营销服务198亿元 直播收入100亿元[1] 技术突破 - 新架构依据扩散模型异构特征科学调配计算资源 激活1倍参数量实现3倍生成性能[4] - 算法模型codesign采用定制化全流程推理方案 在效果无损前提下大幅降低推理成本[4] - 模型累计迭代升级近30次 画质/语义理解/画面美学及人物表情动作真实性显著提升[4] 商业化应用 - 累计生产超2亿个视频和4亿张图片 服务超2万家企业客户[6] - 主要客户为视频自媒体/广告营销从业者等专业创作者 以及小米/蓝色光标等企业[5] - 在服装行业推出双人直播间实时换装功能 某男装品牌营销素材消耗量增长2倍[7] - 百度7月发布蒸汽机模型 直接服务广告主和代理商营销素材生成需求[6] 资源投入 - 公司年中追加推理算力投入 2025年Capex投入较年初预算实现翻倍[6] - 视频生成模型被确定为内部重点方向 获得更多研发资源支持[4] - 行业训练推理成本随着模型能力提升出现明显下降[4]