视频生成模型
搜索文档
美股异动|谷歌涨超2.3%创新高,此前推出新一代视频生成模型Veo 3.1
格隆汇· 2025-10-16 22:01
公司股价表现 - 谷歌A股价上涨超过2.3%,最高触及256.96美元,创下历史新高 [1] 产品与技术进展 - 公司推出新一代视频生成模型Veo 3.1,在音频输出、精细化编辑控制和图像转视频效果方面均有提升 [1] - Veo 3.1模型正被部署至视频编辑平台Flow、Gemini应用程序、Vertex AI平台和Gemini API接口 [1] 用户数据与产品采用 - 自今年5月Flow上线以来,用户已在该应用上创作了超过2.75亿个视频 [1]
OpenAI“抖音”被嘲“好尬”?!Altman 大秀Sora 2、赶上谷歌Veo 3,但要邀请码才能玩?
AI前线· 2025-10-01 10:24
Sora 2模型技术特点 - OpenAI推出结合新模型Sora 2和新产品的应用Sora [2] - OpenAI称Sora 2是视频的GPT-3.5时刻 能完成以往视频生成模型难以完成的任务 [2] - Sora 2在理解物理世界上进行大量优化 被描述为世界最佳视频生成模型 可体验原始现实世界物理特性 [2] - 该模型不完美 会犯错 但证明扩展神经网络在视频数据上的训练能更接近模拟现实 [4] Sora应用社交功能 - Sora应用核心是围绕"Cameos"功能构建的社交应用 用户可创建和混音彼此创作 发现个性化视频流 [5] - 通过Cameos功能 用户可录制简短视频音频验证身份 然后将自身嵌入任何Sora场景 [5] - 内测期间有用户反馈因此交到新朋友 对外公布版本需要邀请码 [5] 市场反应与竞争 - 网友认为Sora逼真度令人信服 OpenAI已成功赶上谷歌的Veo3 [5] - Sora 2开发成本巨大 社交媒体应用Sora的回报需在未来体现 [5] - 网友对演示反应不一 有人欢呼 也有人称尴尬和糟糕 [6] - 有用户批评剪辑尴尬 音频不自然 [9]
Sora 2 中国首测?Open AI 这次真成了!
歸藏的AI工具箱· 2025-10-01 04:32
模型核心能力 - 该模型被描述为当前世界上最强的视频生成模型,具备卓越的人物ID保持能力,仅需用户录制三段视频(包括说三个数字和转转头)即可克隆其人脸和声音 [1] - 模型具备世界知识,能够理解复杂提示词并生成符合逻辑的视频内容,例如在雨天场景中人物未打伞时脸上会有雨水效果 [4][8] - 视频生成具备自动分镜和镜头切换能力,能够根据对话者自动调整镜头位置,展现出成熟的视频编排和故事逻辑创作能力 [8][11] - 支持多模态输入,用户可上传图片(如马、汽车、香水瓶)并结合简单提示词生成视频,实现人物、场景和物体ID的一致性保持 [6][7][9] 技术性能表现 - 语音克隆效率极高,仅需不到2秒的语音样本(三个数字)即可完成音色克隆,并支持中文、日语、英语等多种语言 [1] - 在复杂提示词遵循方面表现优异,能够精确匹配动作细节(如篮球投掷、教练喊话)和场景转换(从白天到黄昏的长镜头),音效同步精准 [13][14] - 支持多人物合拍功能,用户可在生成视频时@其他用户,实现人物间的互动对话,且对话内容具有逻辑性和深度 [1][15][16] 产品形态与市场定位 - 公司为该模型推出了一个社交APP,其形态类似于AI版的抖音,用户可邀请朋友合拍AI视频,且视频生成服务免费 [1] - 产品设计了“Ramix”功能,用户可通过简单提示词(如“在城堡”)对现有视频进行二次创作,改变场景和装扮同时保持人物面部一致性 [5] - 该模型被定位为真正面向C端用户的视频生成工具,集成了声音、音效、运镜和分镜规划,大幅降低了高质量视频内容的创作门槛 [17]
北京跑出未来独角兽:要用“具身 Sora ”做机器人大脑,已融资数千万
搜狐财经· 2025-08-28 08:03
公司背景与定位 - 北京灵生科技成立于2023年 专注于具身智能机器人大脑研发 核心产品为云-边-端一体化大脑系统LingBrain 目前已获数千万融资 [3] - 公司创始人杨洪兵拥有百度、腾讯等互联网大厂AI算法和产业经验 团队优势在于懂AI、懂本体、懂产业结合点 [7][22] - 公司定位为机器人垂域大脑供应商 通过开源策略推动行业生态繁荣 目标成为机器人智能领域的"Windows"或"Android" [26][39][44] 技术突破与创新 - 开源业内首个支持异步运行的快慢双系统视觉语言动作框架RealDualVLA 提供高效协同解决方案 [2] - 独创视频生成模型"具身Sora" 通过生成行为视频让机器人进行推演学习 将任务成功率从90%以下提升到95%以上 [3][16][17] - 技术壁垒在于对物理世界复杂因素(光照、摩擦力、弹性力)的建模能力 以及持续的模型迭代和资源聚焦 [19] - 实现自然语言处理通用接口(NLI) 用户可通过日常语言指令控制机器人执行动作 [45] 行业痛点与解决方案 - 机器人行业面临数据匮乏问题 人类行为历史未被系统记录 导致训练数据极度不足 [15] - 行业封闭性导致恶性循环:数据少导致训练难 训练难导致不愿开源 进一步减缓行业发展 [15] - 通过视频生成技术弥补数据不足 生成大量行为视频供机器人学习 解决数据瓶颈难题 [15][16] - 开源策略打破闭源竞争格局 推动行业技术迭代和生态繁荣 [11][38] 商业模式与商业化进展 - 商业模式基于开放平台加增值服务 通过技术支持、模型优化定制收费 [24] - 与本体厂商合作通过增值服务收费 与终端客户合作通过直接赋能大脑技术收费 [25] - 合作分三阶段:付费POC概念验证→小批量采购→中等规模乃至大批量复购 目前大部分合作已进入小规模复购阶段 [27][28] - 已与富士康集团、国际3C巨头、半导体领域头部上市公司等数十家客户建立合作 解决分拣泛化操作、产线精密操作等难题 [29][30][44] 产业化挑战与应对 - 真实产业环境复杂度远高于实验室 需通过工程化体系化能力适配上千上万台机器规模化需求 [31] - 产业环境更关注失败次数控制而非成功次数 需优化模型推理速度、效率和准确率确保交付稳定性 [33] - 利用具身Sora视频生成技术弥补数据缺失 填补行业空白 [32] - 通过开源策略消除本体公司对数据安全和供应商依赖的顾虑 源代码完全透明开放 [37][40] 行业发展与竞争格局 - 机器人行业存在两条技术路线:以智元为代表的真机数据采集和以银河通用为代表的仿真环境 均存在局限性 [16] - 本体公司自研大脑存在资源分散难题 难以在每个环节做到极致 [35] - 大厂虽拥有强大AI团队 但缺乏软硬件结合的垂直能力和产业场景深度 [21] - 远期通用大脑(AGI)在技术上几乎不可行 因需极高泛化能力、超算力成本且性价比低 垂域大脑才是现实方向 [41][42][43]
可灵AI单季度营收2.5亿元,视频生成模型的赚钱能力正在提升
新浪财经· 2025-08-22 09:51
核心观点 - 快手可灵AI商业化进展超预期 2025年第二季度营收达2.5亿元 较前期累计1亿元收入实现数倍增长[1] - 视频生成模型通过架构创新实现训练推理成本大幅下降 行业商业化前景逐步明朗[4][6] - 互联网企业加速布局视频生成领域 百度等厂商推出明确商业化导向的产品[6] 财务表现 - 可灵AI 2025年第二季度营收2.5亿元 较去年7月至今年2月累计1亿元收入显著提升[1] - 2025年4月及5月单月付费金额均突破1亿元[1] - 预计2025年全年营收将较年初目标翻倍[1] - 推理算力层面已实现毛利率为正[6] - 快手第二季度总营收350亿元 其中线上营销服务198亿元 直播收入100亿元[1] 技术突破 - 新架构依据扩散模型异构特征科学调配计算资源 激活1倍参数量实现3倍生成性能[4] - 算法模型codesign采用定制化全流程推理方案 在效果无损前提下大幅降低推理成本[4] - 模型累计迭代升级近30次 画质/语义理解/画面美学及人物表情动作真实性显著提升[4] 商业化应用 - 累计生产超2亿个视频和4亿张图片 服务超2万家企业客户[6] - 主要客户为视频自媒体/广告营销从业者等专业创作者 以及小米/蓝色光标等企业[5] - 在服装行业推出双人直播间实时换装功能 某男装品牌营销素材消耗量增长2倍[7] - 百度7月发布蒸汽机模型 直接服务广告主和代理商营销素材生成需求[6] 资源投入 - 公司年中追加推理算力投入 2025年Capex投入较年初预算实现翻倍[6] - 视频生成模型被确定为内部重点方向 获得更多研发资源支持[4] - 行业训练推理成本随着模型能力提升出现明显下降[4]
百度辟谣蒸汽机视频生成模型多个海外仿冒网址
新浪财经· 2025-08-19 19:37
公司动态 - 百度营销发布官方声明 提示用户注意甄别近期海外出现的大量关于视频生成模型百度蒸汽机(MuseSteamer)的虚假网站 [1] - 百度蒸汽机(MuseSteamer)将于8月21日举办升级发布会 全新推出2.0版本 包括Turbo、Lite、Pro和有声版全系模型 [1] - 百度蒸汽机(MuseSteamer)于7月2日正式发布 发布首日平均每分钟超百人申请 2周内注册用户超30万 [1] 产品表现 - 百度蒸汽机(MuseSteamer)自上线以来受到各方关注 [1]
被多家海外网站仿冒,百度蒸汽机视频生成模型最新声明
新浪科技· 2025-08-19 19:28
公司动态 - 百度营销发布官方声明提示用户注意甄别近期海外出现的大量关于视频生成模型百度蒸汽机(MuseSteamer)的虚假网站 [3] - 百度蒸汽机(MuseSteamer)将于8月21日举办升级发布会并全新推出2.0版本包括Turbo、Lite、Pro和有声版全系模型 [3] - 百度蒸汽机(MuseSteamer)于7月2日正式发布发布首日平均每分钟超百人申请2周内注册用户超30万 [3] 产品技术 - 百度蒸汽机2.0版本基于多模态时空规划、中文场景深度优化以及音视端到端建模等领先技术能力 [3] - 新产品能够实现多人音视频一体化生成、复杂运镜、电影级人物细腻表演、丰富镜头表现和流畅画质 [3]
硅基流动SiliconCloud上线阿里通义万相Wan2.2
第一财经· 2025-08-15 21:19
公司动态 - 硅基流动大模型云服务平台SiliconCloud上线阿里通义万相团队最新开源视频生成基础模型Wan2.2 [1] - 上线模型包括文生视频模型Wan2.2-T2V-A14B和图生视频模型Wan2.2-I2V-A14B [1] - 模型定价均为2元/Video [1] 行业技术 - 阿里通义万相团队开源视频生成基础模型Wan2.2 [1] - 模型涵盖文本到视频和图像到视频两类生成能力 [1]
WRC 2025聚焦(2):人形机器人临近“CHATGPT时刻” 模型架构成核心突破口
新浪财经· 2025-08-12 14:33
行业核心观点 - 人形机器人行业正处于ChatGPT时刻前夜 最快1-2年实现关键突破 [1] - 2025H1国内整机及零部件厂商平均增长50-100% [1] - 技术突破与算力升级将驱动市场规模和生态格局全面重塑 [2] 行业发展阶段 - 短期1-2年国内市场在政策补贴与场景拓展推动下保持高速增长 整机厂及核心零部件厂商订单可见度高 [2] - 中期2-5年端到端具身智能模型有望成为主流架构 推动从示范样机向大规模商业化迈进 [2] - 长期5年以上家用与工业市场年出货量或达百万级别 竞争焦点转向成本控制与生态体系建设 [2] 技术瓶颈分析 - 硬件并非最大瓶颈 整机和灵巧手已满足多数应用需求 量产与工程化仍需优化但非根本制约因素 [3] - 具身智能AI模型架构是关键短板 VLA模型存在先天不足 数据不足且结合RL训练后效果有限 [4] - 视频生成/世界模型路径更具潜力 通过模拟任务再映射控制 更易收敛且速度可能优于VLA [4] 技术突破方向 - RL Scaling Law有待突破 当前缺乏迁移性 新任务需从零训练 需实现类似语言模型的Scaling Law [5] - 视频生成路径需降低画质追求以减少GPU算力消耗 重点关注执行效率 [4] - 分布式算力是未来趋势 本体算力仅相当于数个手机(峰值功耗约100W) 需依赖工厂/小区级局域服务器 [6] 产业链投资机会 - 硬件端关注进入量产爬坡阶段的驱动器与传感器厂商 [2] - 软件端关注具备视频生成世界模型研发能力的AI公司 [2] - 基础设施端看好分布式算力中心及边缘云服务商 将与5G/6G形成生态协同 [2] 全球化发展 - 海外特斯拉/Figure AI等龙头企业实现量产将加速全球产业链分工与技术标准统一 [2]
宇树科技王兴兴:机器人数据关注度有点太高了,最大问题在模型
21世纪经济报道· 2025-08-09 21:52
行业观点 - 未来2到5年最重要的发展方向是端到端的具身智能AI模型 [1] - 当前机器人硬件性能足够但AI能力不足是限制人形机器人大规模应用的最大瓶颈 [18] - 行业目前处于类似ChatGPT爆发前1-3年的阶段 技术路线已明确但尚未突破 [18] - 模型架构问题比数据问题更关键 当前对数据关注度过高而忽视模型优化 [20][21] - VLA+RL模型架构仍需升级 视频生成模型可能比VLA模型更具潜力 [21][22] 技术发展 - 机器人运动控制的scaling law尚未突破 每次新动作需从头训练 [23] - 分布式算力将成为重要方向 本地化部署解决延迟和成本问题 [25][26] - 具身智能的临界点将是机器人能自主完成陌生环境下的复杂任务 [19] - 最新技术已实现机器人动作随机组合和抗冲击能力 格斗动作速度提升100% [14][15] - 视频生成世界模型可能成为驱动机器人行动的有效路径 [22] 产品布局 - 四足机器人GO2集成大语言模型 全球出货量领先 [3] - 人形机器人G1低配价格9.9万元 出货量全球领先 [5] - 新款人形机器人R1价格下探至3.99万元 高度可定制化 [5] - 工业级四足机器人持续负载25-30kg 续航6小时 [6][8] - 自研3D激光雷达成本仅1000元 视场角达90×360度 [10] 市场表现 - 2023年春晚16台机器人全自动变队形表演成为科技文化符号 [11][12] - 行业上半年整体增长50-100% 需求端拉动显著 [16] - 特斯拉计划2025年量产数千台人形机器人 [17] - 全球科技巨头持续投入机器人领域 [17] - 客户预付订单促使公司2023年启动人形机器人项目 [4] 研发历程 - 2013-2016年研发投入仅1-2万元 开创低成本高性能方案 [3] - 早期反对人形机器人 因AI突破改变战略方向 [4] - 核心零部件全部自研 包括电机、减速器和传感器 [9][10] - 技术路线从固定动作序列发展到随机组合控制 [13][14] - 坚持让机器人"真正干活"的研发理念 [9][13]