Workflow
视频生成模型
icon
搜索文档
百度辟谣蒸汽机视频生成模型多个海外仿冒网址
新浪财经· 2025-08-19 19:37
公司动态 - 百度营销发布官方声明 提示用户注意甄别近期海外出现的大量关于视频生成模型百度蒸汽机(MuseSteamer)的虚假网站 [1] - 百度蒸汽机(MuseSteamer)将于8月21日举办升级发布会 全新推出2.0版本 包括Turbo、Lite、Pro和有声版全系模型 [1] - 百度蒸汽机(MuseSteamer)于7月2日正式发布 发布首日平均每分钟超百人申请 2周内注册用户超30万 [1] 产品表现 - 百度蒸汽机(MuseSteamer)自上线以来受到各方关注 [1]
被多家海外网站仿冒,百度蒸汽机视频生成模型最新声明
新浪科技· 2025-08-19 19:28
公司动态 - 百度营销发布官方声明提示用户注意甄别近期海外出现的大量关于视频生成模型百度蒸汽机(MuseSteamer)的虚假网站 [3] - 百度蒸汽机(MuseSteamer)将于8月21日举办升级发布会并全新推出2.0版本包括Turbo、Lite、Pro和有声版全系模型 [3] - 百度蒸汽机(MuseSteamer)于7月2日正式发布发布首日平均每分钟超百人申请2周内注册用户超30万 [3] 产品技术 - 百度蒸汽机2.0版本基于多模态时空规划、中文场景深度优化以及音视端到端建模等领先技术能力 [3] - 新产品能够实现多人音视频一体化生成、复杂运镜、电影级人物细腻表演、丰富镜头表现和流畅画质 [3]
硅基流动SiliconCloud上线阿里通义万相Wan2.2
第一财经· 2025-08-15 21:19
公司动态 - 硅基流动大模型云服务平台SiliconCloud上线阿里通义万相团队最新开源视频生成基础模型Wan2.2 [1] - 上线模型包括文生视频模型Wan2.2-T2V-A14B和图生视频模型Wan2.2-I2V-A14B [1] - 模型定价均为2元/Video [1] 行业技术 - 阿里通义万相团队开源视频生成基础模型Wan2.2 [1] - 模型涵盖文本到视频和图像到视频两类生成能力 [1]
WRC 2025聚焦(2):人形机器人临近“CHATGPT时刻” 模型架构成核心突破口
新浪财经· 2025-08-12 14:33
行业核心观点 - 人形机器人行业正处于ChatGPT时刻前夜 最快1-2年实现关键突破 [1] - 2025H1国内整机及零部件厂商平均增长50-100% [1] - 技术突破与算力升级将驱动市场规模和生态格局全面重塑 [2] 行业发展阶段 - 短期1-2年国内市场在政策补贴与场景拓展推动下保持高速增长 整机厂及核心零部件厂商订单可见度高 [2] - 中期2-5年端到端具身智能模型有望成为主流架构 推动从示范样机向大规模商业化迈进 [2] - 长期5年以上家用与工业市场年出货量或达百万级别 竞争焦点转向成本控制与生态体系建设 [2] 技术瓶颈分析 - 硬件并非最大瓶颈 整机和灵巧手已满足多数应用需求 量产与工程化仍需优化但非根本制约因素 [3] - 具身智能AI模型架构是关键短板 VLA模型存在先天不足 数据不足且结合RL训练后效果有限 [4] - 视频生成/世界模型路径更具潜力 通过模拟任务再映射控制 更易收敛且速度可能优于VLA [4] 技术突破方向 - RL Scaling Law有待突破 当前缺乏迁移性 新任务需从零训练 需实现类似语言模型的Scaling Law [5] - 视频生成路径需降低画质追求以减少GPU算力消耗 重点关注执行效率 [4] - 分布式算力是未来趋势 本体算力仅相当于数个手机(峰值功耗约100W) 需依赖工厂/小区级局域服务器 [6] 产业链投资机会 - 硬件端关注进入量产爬坡阶段的驱动器与传感器厂商 [2] - 软件端关注具备视频生成世界模型研发能力的AI公司 [2] - 基础设施端看好分布式算力中心及边缘云服务商 将与5G/6G形成生态协同 [2] 全球化发展 - 海外特斯拉/Figure AI等龙头企业实现量产将加速全球产业链分工与技术标准统一 [2]
宇树科技王兴兴:机器人数据关注度有点太高了,最大问题在模型
21世纪经济报道· 2025-08-09 21:52
行业观点 - 未来2到5年最重要的发展方向是端到端的具身智能AI模型 [1] - 当前机器人硬件性能足够但AI能力不足是限制人形机器人大规模应用的最大瓶颈 [18] - 行业目前处于类似ChatGPT爆发前1-3年的阶段 技术路线已明确但尚未突破 [18] - 模型架构问题比数据问题更关键 当前对数据关注度过高而忽视模型优化 [20][21] - VLA+RL模型架构仍需升级 视频生成模型可能比VLA模型更具潜力 [21][22] 技术发展 - 机器人运动控制的scaling law尚未突破 每次新动作需从头训练 [23] - 分布式算力将成为重要方向 本地化部署解决延迟和成本问题 [25][26] - 具身智能的临界点将是机器人能自主完成陌生环境下的复杂任务 [19] - 最新技术已实现机器人动作随机组合和抗冲击能力 格斗动作速度提升100% [14][15] - 视频生成世界模型可能成为驱动机器人行动的有效路径 [22] 产品布局 - 四足机器人GO2集成大语言模型 全球出货量领先 [3] - 人形机器人G1低配价格9.9万元 出货量全球领先 [5] - 新款人形机器人R1价格下探至3.99万元 高度可定制化 [5] - 工业级四足机器人持续负载25-30kg 续航6小时 [6][8] - 自研3D激光雷达成本仅1000元 视场角达90×360度 [10] 市场表现 - 2023年春晚16台机器人全自动变队形表演成为科技文化符号 [11][12] - 行业上半年整体增长50-100% 需求端拉动显著 [16] - 特斯拉计划2025年量产数千台人形机器人 [17] - 全球科技巨头持续投入机器人领域 [17] - 客户预付订单促使公司2023年启动人形机器人项目 [4] 研发历程 - 2013-2016年研发投入仅1-2万元 开创低成本高性能方案 [3] - 早期反对人形机器人 因AI突破改变战略方向 [4] - 核心零部件全部自研 包括电机、减速器和传感器 [9][10] - 技术路线从固定动作序列发展到随机组合控制 [13][14] - 坚持让机器人"真正干活"的研发理念 [9][13]
花旗:料二季度业绩符合预期,将快手目标价上调至88港元,市盈率估值从13倍上调至15倍
智通财经· 2025-07-30 17:16
港股市场表现 - 7月30日港股三大指数集体收跌 恒生指数跌0.43% 国企指数跌0.43% 恒生科技指数跌1.57% [1] - 互联网板块承压背景下快手逆势上涨0.42%至72.4港元 盘中最高涨超2% 成交额达29.1亿港元 [1] 机构评级与目标价 - 花旗7月28日报告将快手目标价从66港元上调至88港元 较最新收盘价潜在上行空间达21% [1] - 估值基准切换至2026年业绩 市盈率估值从13倍上调至15倍 [3] 业绩预测 - 花旗预测快手二季度营收同比增长11%至345亿元人民币 经调整净利润约51亿元 符合市场预期 [2] - 预计二季度广告收入增速加速至12.3% 主要受电商商家广告投放加大及非电商广告需求回暖推动 [1] 增长驱动因素 - 视频生成模型可灵AI商业化超预期 4-5月单月收入突破1亿元人民币 结合一季度逾1.5亿元收入 全年收入有望大幅超越管理层1亿美元指引 [1] - 货架电商广告系统深度优化推动变现能力提升 全年GMV13%增长目标有望稳健达成 [2]
花旗:料二季度业绩符合预期,将快手(01024)目标价上调至88港元,市盈率估值从13倍上调至15倍
智通财经网· 2025-07-30 17:13
港股市场表现 - 港股三大指数集体收跌 恒生指数跌0.43% 国企指数跌0.43% 恒生科技指数跌1.57% [1] - 互联网板块承压背景下 快手逆势上涨0.42%至72.4港元 盘中最高涨超2% 成交额达29.1亿港元 [1] 机构评级与目标价 - 花旗将快手目标价从66港元上调至88港元 较最新收盘价存在21%潜在上行空间 [1] - 估值基准切换至2026年业绩 市盈率从13倍上调至15倍 [3] 二季度业绩预测 - 预计营收同比增长11%至345亿元人民币 经调整净利润约51亿元 均符合市场预期 [2] - 广告收入增速预计加速至12.3% 主要受电商商家广告投放加大及非电商广告需求回暖驱动 [1] 增长驱动因素 - 可灵AI商业化超预期 4-5月单月收入突破1亿元人民币 结合Q1逾1.5亿元收入 全年收入有望大幅超越1亿美元管理层指引 [1] - 货架电商广告系统深度优化推动变现能力提升 [1][2] - 下半年增长动能充足 全年GMV增长13%目标有望稳健达成 [2]
阿里开源通义万相Wan2.2,大幅提升电影级画面的制作效率
证券时报网· 2025-07-28 23:07
阿里开源电影级视频生成模型通义万相Wan2.2 - 公司推出通义万相Wan2.2模型,直接整合光影、色彩、镜头语言三大电影美学元素,提供60多个可控参数以提升电影级画面制作效率 [1] - 模型可生成5秒高清视频,支持多轮提示词完成短剧制作,未来计划提升单次生成时长 [1] - 展示《星际穿越》《布达佩斯大饭店》《海上钢琴师》等经典电影画面生成能力 [1] 模型技术特点 - 开源三款模型:文生视频(Wan2.2-T2V-A14B)、图生视频(Wan2.2-I2V-A14B)和统一视频生成(Wan2.2-TI2V-5B) [1] - 文生视频和图生视频模型为业界首个采用MoE架构的视频生成模型,总参数量27B,激活参数14B [1] - 采用高噪声专家模型和低噪专家模型组合,分别负责整体布局和细节完善,节省50%计算资源 [1] - 解决视频生成处理Token过长导致的资源消耗问题,在复杂运动生成、人物交互、美学表达等方面有显著提升 [1] 小尺寸统一视频生成模型 - 开源5B小尺寸统一视频生成模型,同时支持文生视频和图生视频,可在消费级显卡部署 [2] - 采用高压缩率3D VAE架构,时间与空间压缩比达4×16×16,信息压缩率提升至64 [2] - 仅需22G显存即可在数分钟内生成5秒720P高清视频(24帧/秒),为目前速度最快的基础模型之一 [2] 模型获取与应用 - 开发者可通过GitHub、HuggingFace、魔搭社区下载模型和代码 [2] - 企业可通过阿里云百炼调用模型API [2] - 用户可在通义万相官网和通义APP直接体验 [2] 开源成果与影响 - 自2月以来已连续开源多款视频生成模型,包括文生视频、图生视频、首尾帧生视频和全能编辑模型 [2] - 开源社区下载量超500万,成为最受欢迎的视频生成模型之一 [2]
阿里开源电影级视频生成模型通义万相2.2
快讯· 2025-07-28 20:40
技术突破 - 公司开源电影级视频生成模型通义万相Wan2 2 单次可生成5秒高清视频 [1] - 模型采用MoE架构 总参数量27B 激活参数14B 节省约50%计算资源消耗 [1] - 包含文生视频模型Wan2 2-T2V-A14B和图生视频模型Wan2 2-I2V-A14B 均为业界首个使用MoE架构的视频生成模型 [1] 产品布局 - 开源三款模型:文生视频(Wan2 2-T2V-A14B) 图生视频(Wan2 2-I2V-A14B)和统一视频生成(Wan2 2-TI2V-5B) [1] - 高噪声专家模型负责视频整体布局 低噪专家模型负责细节完善 [1] 行业影响 - 模型实现电影级视频生成能力 推动AI视频生成技术发展 [1] - 通过开源策略降低行业使用门槛 可能加速相关应用生态构建 [1]
写了两万字综述 - 视频未来帧合成:从确定性到生成性方法
自动驾驶之心· 2025-07-08 20:45
未来帧合成(FFS)综述核心观点 - FFS任务目标是从历史帧或单帧生成未来帧序列,强调合成能力并扩展视频预测范围[1] - 领域经历了从确定性方法向生成性方法的演变,生成模型在产生逼真多样化预测中的作用日益重要[1] - 关键挑战包括平衡像素保真度与场景理解、评估指标设计、长期合成困难等[5] - 未来方向在于预测技术与生成技术的协同整合,实现更稳健连贯的合成[4] 研究方法分类 确定性范式 - 采用CNN、RNN、LSTM等架构进行像素级拟合,但易产生模糊输出[9] - Transformer架构逐渐挑战传统方法主导地位,如ViT、Swin Transformer等[9] - 优化PSNR/SSIM等指标会导致模型对多个未来取平均[10] 随机性范式 - 通过随机变量或概率模型建模视频动态不确定性[10] - 包括VAE、GAN等方法,能产生多样化预测但可能偏离真实值[10] - 面临多样性、视觉保真度和计算效率的平衡挑战[46] 生成性范式 - 优先考虑连贯合理的视频序列而非像素级保真度[10] - 利用扩散模型、LLM等先进生成技术[10] - 在对象出现/消失等复杂场景表现更优[59] 关键技术进展 架构创新 - 循环网络(PredNet、PredRNN)在时空建模中表现突出但计算复杂[26] - 卷积网络(SimVP)简化架构实现相当性能[29] - Transformer架构(TimeSformer、ViViT)处理时空信息能力显著[9] 运动建模 - 光流方法(DMVFN)在短期预测有效,长期生成仍存挑战[31][33] - 3D高斯表示(GaussianPrediction)等新方法探索运动表示[34] - 内容-运动解耦(LEO、D-VDM)提升逼真度[48] 生成模型 - 扩散模型(Video LDM、SEINE)实现高质量视频生成[60][61] - 基于令牌方法(MAGVIT、VideoPoet)探索LLM在视觉生成的应用[67][69] - 大型模型(HunyuanVideo 13B)展现强大生成能力[63] 应用领域 自动驾驶 - GAIA-1整合多模态LLM和扩散模型提升决策能力[74] - 视觉语义信息利用显著改善行为预测[74] 机器人技术 - GR-1/2显示视频生成预训练大幅提升操作能力[75] - 在动态环境中实现高效路径规划和避障[75] 电影制作 - 生成逼真场景增强叙事连贯性和艺术表达[77] - 可控合成技术(CineMaster)支持精确场景控制[58] 数据集发展 - 数据集复杂性和分辨率持续提升(如HD-VILA-100M)[21] - 高质量高分辨率数据集仍稀缺,限制模型泛化能力[18] - 多模态标注(文本、深度、语义等)成为趋势[21]