Workflow
视频生成模型
icon
搜索文档
OpenAI“抖音”被嘲“好尬”?!Altman 大秀Sora 2、赶上谷歌Veo 3,但要邀请码才能玩?
AI前线· 2025-10-01 10:24
整理 | 褚杏娟 OpenAI 刚刚推出了一款名为 Sora 的新应用,这是一款结合了新模型 Sora 2 和一款使视频创作、分享与观看变得更加便捷的新产品。 OpenAI 对 Sora 2 信心十足:"我们直接跳到了我们认为可能是视频的 GPT-3.5 时刻。Sora 2 可以完成以前视频生成模型难以完成甚至根本完 不成的事情。" Sora 2 主要在理解物理世界上进行了大量优化。"这是世界上最好的视频生成模型,让你和朋友体验原始现实世界的物理特性,告别怪异的人 工智能氛围。"OpenAI Sora 研究员 Gabriel Petersson 说道。 网友 Chubby 表示,Sora 的逼真度令人信服,OpenAI 实际上已经成功赶上了谷歌的 Veo3。然而,OpenAI 的 Sora2 开发成本巨大,而社交 媒体应用 Sora 的回报只能在未来才能体现。 网友们看到 OpenAI 的演示后,有人表示欢呼,但也有人称"尴尬"和"糟糕"。 Gabriel 用自己和 Altman 为例演示了系列视频。 OpenAI 表示,该模型并不完美,也会犯很多错,但它证明了进一步扩展神经网络在视频数据上的训练,将使我们更 ...
Sora 2 中国首测?Open AI 这次真成了!
歸藏的AI工具箱· 2025-10-01 04:32
本来以为 Sora 2 会是 Open AI 开发者大会的大招,结果他提前发布了,先看藏师傅的简短介绍: 看到了吗,这个就是我的脸! 同时我在用我自己的音色介绍 Sora2 模型,而且我可以说中文、日语、英语多种语言,真的要不是 那个水印,你把这视频给我我都分不清。 而且你要知道,我在克隆语音的时候只说了三个数字,一共不到两秒,市面上没有任何一个语音模 型能达到这个效果,别说这还是个视频模型了。 从他们自己的话来说,Sora 2 是现在世界上最强的视频生成模型,他们还为 Sora 2 推出了一个社 交 APP,看起来就像是 AI 版的抖音,不过你可以邀请你的朋友跟你合拍 AI 视频,而且视频生成还 是免费的! 在第一次登录的时候他会让你录三段视频,先是说三个数字,然后转转头他就帮你把你的人脸和声 音创建好了。 你在生成的时候可以 @ 其他用户跟他们一起出现在生成的视频里面。 好的,我们知道这些就行了,先来看一些案例: @sama is introducing a video generation model called Sora2 to @op7418 然后如果你喜欢这个视频你就可以 Ramix 这个视频, ...
北京跑出未来独角兽:要用“具身 Sora ”做机器人大脑,已融资数千万
搜狐财经· 2025-08-28 08:03
公司背景与定位 - 北京灵生科技成立于2023年 专注于具身智能机器人大脑研发 核心产品为云-边-端一体化大脑系统LingBrain 目前已获数千万融资 [3] - 公司创始人杨洪兵拥有百度、腾讯等互联网大厂AI算法和产业经验 团队优势在于懂AI、懂本体、懂产业结合点 [7][22] - 公司定位为机器人垂域大脑供应商 通过开源策略推动行业生态繁荣 目标成为机器人智能领域的"Windows"或"Android" [26][39][44] 技术突破与创新 - 开源业内首个支持异步运行的快慢双系统视觉语言动作框架RealDualVLA 提供高效协同解决方案 [2] - 独创视频生成模型"具身Sora" 通过生成行为视频让机器人进行推演学习 将任务成功率从90%以下提升到95%以上 [3][16][17] - 技术壁垒在于对物理世界复杂因素(光照、摩擦力、弹性力)的建模能力 以及持续的模型迭代和资源聚焦 [19] - 实现自然语言处理通用接口(NLI) 用户可通过日常语言指令控制机器人执行动作 [45] 行业痛点与解决方案 - 机器人行业面临数据匮乏问题 人类行为历史未被系统记录 导致训练数据极度不足 [15] - 行业封闭性导致恶性循环:数据少导致训练难 训练难导致不愿开源 进一步减缓行业发展 [15] - 通过视频生成技术弥补数据不足 生成大量行为视频供机器人学习 解决数据瓶颈难题 [15][16] - 开源策略打破闭源竞争格局 推动行业技术迭代和生态繁荣 [11][38] 商业模式与商业化进展 - 商业模式基于开放平台加增值服务 通过技术支持、模型优化定制收费 [24] - 与本体厂商合作通过增值服务收费 与终端客户合作通过直接赋能大脑技术收费 [25] - 合作分三阶段:付费POC概念验证→小批量采购→中等规模乃至大批量复购 目前大部分合作已进入小规模复购阶段 [27][28] - 已与富士康集团、国际3C巨头、半导体领域头部上市公司等数十家客户建立合作 解决分拣泛化操作、产线精密操作等难题 [29][30][44] 产业化挑战与应对 - 真实产业环境复杂度远高于实验室 需通过工程化体系化能力适配上千上万台机器规模化需求 [31] - 产业环境更关注失败次数控制而非成功次数 需优化模型推理速度、效率和准确率确保交付稳定性 [33] - 利用具身Sora视频生成技术弥补数据缺失 填补行业空白 [32] - 通过开源策略消除本体公司对数据安全和供应商依赖的顾虑 源代码完全透明开放 [37][40] 行业发展与竞争格局 - 机器人行业存在两条技术路线:以智元为代表的真机数据采集和以银河通用为代表的仿真环境 均存在局限性 [16] - 本体公司自研大脑存在资源分散难题 难以在每个环节做到极致 [35] - 大厂虽拥有强大AI团队 但缺乏软硬件结合的垂直能力和产业场景深度 [21] - 远期通用大脑(AGI)在技术上几乎不可行 因需极高泛化能力、超算力成本且性价比低 垂域大脑才是现实方向 [41][42][43]
可灵AI单季度营收2.5亿元,视频生成模型的赚钱能力正在提升
新浪财经· 2025-08-22 09:51
核心观点 - 快手可灵AI商业化进展超预期 2025年第二季度营收达2.5亿元 较前期累计1亿元收入实现数倍增长[1] - 视频生成模型通过架构创新实现训练推理成本大幅下降 行业商业化前景逐步明朗[4][6] - 互联网企业加速布局视频生成领域 百度等厂商推出明确商业化导向的产品[6] 财务表现 - 可灵AI 2025年第二季度营收2.5亿元 较去年7月至今年2月累计1亿元收入显著提升[1] - 2025年4月及5月单月付费金额均突破1亿元[1] - 预计2025年全年营收将较年初目标翻倍[1] - 推理算力层面已实现毛利率为正[6] - 快手第二季度总营收350亿元 其中线上营销服务198亿元 直播收入100亿元[1] 技术突破 - 新架构依据扩散模型异构特征科学调配计算资源 激活1倍参数量实现3倍生成性能[4] - 算法模型codesign采用定制化全流程推理方案 在效果无损前提下大幅降低推理成本[4] - 模型累计迭代升级近30次 画质/语义理解/画面美学及人物表情动作真实性显著提升[4] 商业化应用 - 累计生产超2亿个视频和4亿张图片 服务超2万家企业客户[6] - 主要客户为视频自媒体/广告营销从业者等专业创作者 以及小米/蓝色光标等企业[5] - 在服装行业推出双人直播间实时换装功能 某男装品牌营销素材消耗量增长2倍[7] - 百度7月发布蒸汽机模型 直接服务广告主和代理商营销素材生成需求[6] 资源投入 - 公司年中追加推理算力投入 2025年Capex投入较年初预算实现翻倍[6] - 视频生成模型被确定为内部重点方向 获得更多研发资源支持[4] - 行业训练推理成本随着模型能力提升出现明显下降[4]
百度辟谣蒸汽机视频生成模型多个海外仿冒网址
新浪财经· 2025-08-19 19:37
公司动态 - 百度营销发布官方声明 提示用户注意甄别近期海外出现的大量关于视频生成模型百度蒸汽机(MuseSteamer)的虚假网站 [1] - 百度蒸汽机(MuseSteamer)将于8月21日举办升级发布会 全新推出2.0版本 包括Turbo、Lite、Pro和有声版全系模型 [1] - 百度蒸汽机(MuseSteamer)于7月2日正式发布 发布首日平均每分钟超百人申请 2周内注册用户超30万 [1] 产品表现 - 百度蒸汽机(MuseSteamer)自上线以来受到各方关注 [1]
被多家海外网站仿冒,百度蒸汽机视频生成模型最新声明
新浪科技· 2025-08-19 19:28
公司动态 - 百度营销发布官方声明提示用户注意甄别近期海外出现的大量关于视频生成模型百度蒸汽机(MuseSteamer)的虚假网站 [3] - 百度蒸汽机(MuseSteamer)将于8月21日举办升级发布会并全新推出2.0版本包括Turbo、Lite、Pro和有声版全系模型 [3] - 百度蒸汽机(MuseSteamer)于7月2日正式发布发布首日平均每分钟超百人申请2周内注册用户超30万 [3] 产品技术 - 百度蒸汽机2.0版本基于多模态时空规划、中文场景深度优化以及音视端到端建模等领先技术能力 [3] - 新产品能够实现多人音视频一体化生成、复杂运镜、电影级人物细腻表演、丰富镜头表现和流畅画质 [3]
硅基流动SiliconCloud上线阿里通义万相Wan2.2
第一财经· 2025-08-15 21:19
公司动态 - 硅基流动大模型云服务平台SiliconCloud上线阿里通义万相团队最新开源视频生成基础模型Wan2.2 [1] - 上线模型包括文生视频模型Wan2.2-T2V-A14B和图生视频模型Wan2.2-I2V-A14B [1] - 模型定价均为2元/Video [1] 行业技术 - 阿里通义万相团队开源视频生成基础模型Wan2.2 [1] - 模型涵盖文本到视频和图像到视频两类生成能力 [1]
WRC 2025聚焦(2):人形机器人临近“CHATGPT时刻” 模型架构成核心突破口
新浪财经· 2025-08-12 14:33
行业核心观点 - 人形机器人行业正处于ChatGPT时刻前夜 最快1-2年实现关键突破 [1] - 2025H1国内整机及零部件厂商平均增长50-100% [1] - 技术突破与算力升级将驱动市场规模和生态格局全面重塑 [2] 行业发展阶段 - 短期1-2年国内市场在政策补贴与场景拓展推动下保持高速增长 整机厂及核心零部件厂商订单可见度高 [2] - 中期2-5年端到端具身智能模型有望成为主流架构 推动从示范样机向大规模商业化迈进 [2] - 长期5年以上家用与工业市场年出货量或达百万级别 竞争焦点转向成本控制与生态体系建设 [2] 技术瓶颈分析 - 硬件并非最大瓶颈 整机和灵巧手已满足多数应用需求 量产与工程化仍需优化但非根本制约因素 [3] - 具身智能AI模型架构是关键短板 VLA模型存在先天不足 数据不足且结合RL训练后效果有限 [4] - 视频生成/世界模型路径更具潜力 通过模拟任务再映射控制 更易收敛且速度可能优于VLA [4] 技术突破方向 - RL Scaling Law有待突破 当前缺乏迁移性 新任务需从零训练 需实现类似语言模型的Scaling Law [5] - 视频生成路径需降低画质追求以减少GPU算力消耗 重点关注执行效率 [4] - 分布式算力是未来趋势 本体算力仅相当于数个手机(峰值功耗约100W) 需依赖工厂/小区级局域服务器 [6] 产业链投资机会 - 硬件端关注进入量产爬坡阶段的驱动器与传感器厂商 [2] - 软件端关注具备视频生成世界模型研发能力的AI公司 [2] - 基础设施端看好分布式算力中心及边缘云服务商 将与5G/6G形成生态协同 [2] 全球化发展 - 海外特斯拉/Figure AI等龙头企业实现量产将加速全球产业链分工与技术标准统一 [2]
宇树科技王兴兴:机器人数据关注度有点太高了,最大问题在模型
21世纪经济报道· 2025-08-09 21:52
行业观点 - 未来2到5年最重要的发展方向是端到端的具身智能AI模型 [1] - 当前机器人硬件性能足够但AI能力不足是限制人形机器人大规模应用的最大瓶颈 [18] - 行业目前处于类似ChatGPT爆发前1-3年的阶段 技术路线已明确但尚未突破 [18] - 模型架构问题比数据问题更关键 当前对数据关注度过高而忽视模型优化 [20][21] - VLA+RL模型架构仍需升级 视频生成模型可能比VLA模型更具潜力 [21][22] 技术发展 - 机器人运动控制的scaling law尚未突破 每次新动作需从头训练 [23] - 分布式算力将成为重要方向 本地化部署解决延迟和成本问题 [25][26] - 具身智能的临界点将是机器人能自主完成陌生环境下的复杂任务 [19] - 最新技术已实现机器人动作随机组合和抗冲击能力 格斗动作速度提升100% [14][15] - 视频生成世界模型可能成为驱动机器人行动的有效路径 [22] 产品布局 - 四足机器人GO2集成大语言模型 全球出货量领先 [3] - 人形机器人G1低配价格9.9万元 出货量全球领先 [5] - 新款人形机器人R1价格下探至3.99万元 高度可定制化 [5] - 工业级四足机器人持续负载25-30kg 续航6小时 [6][8] - 自研3D激光雷达成本仅1000元 视场角达90×360度 [10] 市场表现 - 2023年春晚16台机器人全自动变队形表演成为科技文化符号 [11][12] - 行业上半年整体增长50-100% 需求端拉动显著 [16] - 特斯拉计划2025年量产数千台人形机器人 [17] - 全球科技巨头持续投入机器人领域 [17] - 客户预付订单促使公司2023年启动人形机器人项目 [4] 研发历程 - 2013-2016年研发投入仅1-2万元 开创低成本高性能方案 [3] - 早期反对人形机器人 因AI突破改变战略方向 [4] - 核心零部件全部自研 包括电机、减速器和传感器 [9][10] - 技术路线从固定动作序列发展到随机组合控制 [13][14] - 坚持让机器人"真正干活"的研发理念 [9][13]
花旗:料二季度业绩符合预期,将快手目标价上调至88港元,市盈率估值从13倍上调至15倍
智通财经· 2025-07-30 17:16
港股市场表现 - 7月30日港股三大指数集体收跌 恒生指数跌0.43% 国企指数跌0.43% 恒生科技指数跌1.57% [1] - 互联网板块承压背景下快手逆势上涨0.42%至72.4港元 盘中最高涨超2% 成交额达29.1亿港元 [1] 机构评级与目标价 - 花旗7月28日报告将快手目标价从66港元上调至88港元 较最新收盘价潜在上行空间达21% [1] - 估值基准切换至2026年业绩 市盈率估值从13倍上调至15倍 [3] 业绩预测 - 花旗预测快手二季度营收同比增长11%至345亿元人民币 经调整净利润约51亿元 符合市场预期 [2] - 预计二季度广告收入增速加速至12.3% 主要受电商商家广告投放加大及非电商广告需求回暖推动 [1] 增长驱动因素 - 视频生成模型可灵AI商业化超预期 4-5月单月收入突破1亿元人民币 结合一季度逾1.5亿元收入 全年收入有望大幅超越管理层1亿美元指引 [1] - 货架电商广告系统深度优化推动变现能力提升 全年GMV13%增长目标有望稳健达成 [2]