视频生成模型

搜索文档
硅基流动SiliconCloud上线阿里通义万相Wan2.2
第一财经· 2025-08-15 21:19
据硅基流动消息,硅基流动大模型云服务平台SiliconCloud已上线阿里通义万相团队最新开源的视频生 成基础模型Wan2.2,包括文生视频模型 Wan2.2-T2V-A14B、图生视频模型 Wan2.2-I2V-A14B,价格均为 2元/Video。 (文章来源:第一财经) ...
宇树科技王兴兴:机器人数据关注度有点太高了,最大问题在模型
21世纪经济报道· 2025-08-09 21:52
行业观点 - 未来2到5年最重要的发展方向是端到端的具身智能AI模型 [1] - 当前机器人硬件性能足够但AI能力不足是限制人形机器人大规模应用的最大瓶颈 [18] - 行业目前处于类似ChatGPT爆发前1-3年的阶段 技术路线已明确但尚未突破 [18] - 模型架构问题比数据问题更关键 当前对数据关注度过高而忽视模型优化 [20][21] - VLA+RL模型架构仍需升级 视频生成模型可能比VLA模型更具潜力 [21][22] 技术发展 - 机器人运动控制的scaling law尚未突破 每次新动作需从头训练 [23] - 分布式算力将成为重要方向 本地化部署解决延迟和成本问题 [25][26] - 具身智能的临界点将是机器人能自主完成陌生环境下的复杂任务 [19] - 最新技术已实现机器人动作随机组合和抗冲击能力 格斗动作速度提升100% [14][15] - 视频生成世界模型可能成为驱动机器人行动的有效路径 [22] 产品布局 - 四足机器人GO2集成大语言模型 全球出货量领先 [3] - 人形机器人G1低配价格9.9万元 出货量全球领先 [5] - 新款人形机器人R1价格下探至3.99万元 高度可定制化 [5] - 工业级四足机器人持续负载25-30kg 续航6小时 [6][8] - 自研3D激光雷达成本仅1000元 视场角达90×360度 [10] 市场表现 - 2023年春晚16台机器人全自动变队形表演成为科技文化符号 [11][12] - 行业上半年整体增长50-100% 需求端拉动显著 [16] - 特斯拉计划2025年量产数千台人形机器人 [17] - 全球科技巨头持续投入机器人领域 [17] - 客户预付订单促使公司2023年启动人形机器人项目 [4] 研发历程 - 2013-2016年研发投入仅1-2万元 开创低成本高性能方案 [3] - 早期反对人形机器人 因AI突破改变战略方向 [4] - 核心零部件全部自研 包括电机、减速器和传感器 [9][10] - 技术路线从固定动作序列发展到随机组合控制 [13][14] - 坚持让机器人"真正干活"的研发理念 [9][13]
阿里开源通义万相Wan2.2,大幅提升电影级画面的制作效率
证券时报网· 2025-07-28 23:07
阿里开源电影级视频生成模型通义万相Wan2.2 - 公司推出通义万相Wan2.2模型,直接整合光影、色彩、镜头语言三大电影美学元素,提供60多个可控参数以提升电影级画面制作效率 [1] - 模型可生成5秒高清视频,支持多轮提示词完成短剧制作,未来计划提升单次生成时长 [1] - 展示《星际穿越》《布达佩斯大饭店》《海上钢琴师》等经典电影画面生成能力 [1] 模型技术特点 - 开源三款模型:文生视频(Wan2.2-T2V-A14B)、图生视频(Wan2.2-I2V-A14B)和统一视频生成(Wan2.2-TI2V-5B) [1] - 文生视频和图生视频模型为业界首个采用MoE架构的视频生成模型,总参数量27B,激活参数14B [1] - 采用高噪声专家模型和低噪专家模型组合,分别负责整体布局和细节完善,节省50%计算资源 [1] - 解决视频生成处理Token过长导致的资源消耗问题,在复杂运动生成、人物交互、美学表达等方面有显著提升 [1] 小尺寸统一视频生成模型 - 开源5B小尺寸统一视频生成模型,同时支持文生视频和图生视频,可在消费级显卡部署 [2] - 采用高压缩率3D VAE架构,时间与空间压缩比达4×16×16,信息压缩率提升至64 [2] - 仅需22G显存即可在数分钟内生成5秒720P高清视频(24帧/秒),为目前速度最快的基础模型之一 [2] 模型获取与应用 - 开发者可通过GitHub、HuggingFace、魔搭社区下载模型和代码 [2] - 企业可通过阿里云百炼调用模型API [2] - 用户可在通义万相官网和通义APP直接体验 [2] 开源成果与影响 - 自2月以来已连续开源多款视频生成模型,包括文生视频、图生视频、首尾帧生视频和全能编辑模型 [2] - 开源社区下载量超500万,成为最受欢迎的视频生成模型之一 [2]
写了两万字综述 - 视频未来帧合成:从确定性到生成性方法
自动驾驶之心· 2025-07-08 20:45
未来帧合成(FFS)综述核心观点 - FFS任务目标是从历史帧或单帧生成未来帧序列,强调合成能力并扩展视频预测范围[1] - 领域经历了从确定性方法向生成性方法的演变,生成模型在产生逼真多样化预测中的作用日益重要[1] - 关键挑战包括平衡像素保真度与场景理解、评估指标设计、长期合成困难等[5] - 未来方向在于预测技术与生成技术的协同整合,实现更稳健连贯的合成[4] 研究方法分类 确定性范式 - 采用CNN、RNN、LSTM等架构进行像素级拟合,但易产生模糊输出[9] - Transformer架构逐渐挑战传统方法主导地位,如ViT、Swin Transformer等[9] - 优化PSNR/SSIM等指标会导致模型对多个未来取平均[10] 随机性范式 - 通过随机变量或概率模型建模视频动态不确定性[10] - 包括VAE、GAN等方法,能产生多样化预测但可能偏离真实值[10] - 面临多样性、视觉保真度和计算效率的平衡挑战[46] 生成性范式 - 优先考虑连贯合理的视频序列而非像素级保真度[10] - 利用扩散模型、LLM等先进生成技术[10] - 在对象出现/消失等复杂场景表现更优[59] 关键技术进展 架构创新 - 循环网络(PredNet、PredRNN)在时空建模中表现突出但计算复杂[26] - 卷积网络(SimVP)简化架构实现相当性能[29] - Transformer架构(TimeSformer、ViViT)处理时空信息能力显著[9] 运动建模 - 光流方法(DMVFN)在短期预测有效,长期生成仍存挑战[31][33] - 3D高斯表示(GaussianPrediction)等新方法探索运动表示[34] - 内容-运动解耦(LEO、D-VDM)提升逼真度[48] 生成模型 - 扩散模型(Video LDM、SEINE)实现高质量视频生成[60][61] - 基于令牌方法(MAGVIT、VideoPoet)探索LLM在视觉生成的应用[67][69] - 大型模型(HunyuanVideo 13B)展现强大生成能力[63] 应用领域 自动驾驶 - GAIA-1整合多模态LLM和扩散模型提升决策能力[74] - 视觉语义信息利用显著改善行为预测[74] 机器人技术 - GR-1/2显示视频生成预训练大幅提升操作能力[75] - 在动态环境中实现高效路径规划和避障[75] 电影制作 - 生成逼真场景增强叙事连贯性和艺术表达[77] - 可控合成技术(CineMaster)支持精确场景控制[58] 数据集发展 - 数据集复杂性和分辨率持续提升(如HD-VILA-100M)[21] - 高质量高分辨率数据集仍稀缺,限制模型泛化能力[18] - 多模态标注(文本、深度、语义等)成为趋势[21]
百度跟进视频生成模型 基础版限时免费打破行业壁垒
中国经营报· 2025-07-04 20:48
百度MuseSteamer视频生成模型发布 - 百度搜索宣布十年来最大改版,推出全球首个中文音视频一体化生成模型MuseSteamer,该模型由百度商业研发团队推出,主打卖点是打破传统AIGC视频"先画面后配音"的割裂流程 [2] - 百度在ChatGPT后推出文小言,但未立即跟进视频生成模型,直至近日才正式推出MuseSteamer,标志着公司正式进军视频生成模型赛道 [2] - MuseSteamer研发由商业需求驱动,而非技术驱动,主要满足广告主对生成类广告创意素材的需求 [2][3] 模型研发背景与特点 - 2024年底短剧投流市场爆发,传统剪辑和生图无法满足创意需求,代理商和广告主提出具体需求促使百度自研MuseSteamer [3] - 百度商业团队曾考虑接入外部模型,但因迭代周期长决定自研,项目代号"MuseSteamer" [3] - 模型研发过程中不断根据客户需求调整,如补足动漫类数据耗时一个多月,研发运镜语言模型耗时两周 [3] - 百度擎舵平台已有算法层、数据层、模型架构层积累,加上国内深度大模型快速迭代,促进MuseSteamer三个月内取得成效 [4] 模型应用与行业影响 - MuseSteamer被嵌入百度广告投放后台,形成"需求输入-创意生成-效果反馈"闭环,可即时填补搜索团队面对长尾需求时的素材空白 [4] - 国内视频生成大模型在"可控性"方面取得突破,能精准控制角色位置、运动轨迹和音效同步 [4] - 百度推出三个版本:基础Turbo版限时免费公测,Lite版和1080P大师级版本需付费,策略或将冲击视频创作工具市场 [5] - 公司主要目标为B端客户,包括小B端内容制作者和大B端广告主,而非C端个人付费用户 [5] 行业现状与竞争格局 - 快手可灵AI在2025年第一季度营收达1.5亿元,其中P端付费订阅会员贡献近70%收入 [5][6] - 2025年2月视频生成产品用户访问量Top3为海螺(2756万)、可灵(1591万)、Sora(1050万),独立访客数Top3为海螺(634万)、Sora(592万)、可灵(376万) [6] - 同期DeepSeek国内web端用户访问量达5.7亿,显示视频生成模型与头部AI产品访问量仍存差距 [6] - 百度通过免费公测与分层付费模式,旨在打破行业付费壁垒,推动技术普及化应用 [6]
百度自研的视频生成模型还是来了
新浪财经· 2025-07-04 09:39
百度发布视频生成模型MuseSteamer - 公司正式发布自研视频生成模型MuseSteamer及视频产品平台"绘想",采用DIT架构,参数与业界最大视频生成模型同量级,支持生成10s动态视频,最高分辨率1080P [1] - 模型由移动生态商业研发团队开发,非技术中台部门TPG主导,定位为商业驱动型产品,旨在解决广告主生成科幻场景视频的需求 [1][4] 模型研发背景与策略 - 公司CEO李彦宏曾于2023年10月表示不做通用视频生成模型,但支持基于多模态的特定场景开发,如罗永浩数字人和MuseSteamer均针对特定需求 [2] - 项目2024年春节后立项,研发团队数十人,3个月内完成开发,技术积累来自擎舵平台的多模态生成能力和商业体系的模型训练框架 [4] 商业化进展与产品定位 - "绘想"平台定位B端营销产品,Turbo版已开启限时免费公测,其余版本计划8月开放,目前平台已生成超100个AIGC广告并投放 [4] - 公司未明确是否服务C端用户,但已将模型接入百度搜索,未来可能扩展至更多C端产品 [5] 行业差异化特点 - 区别于市场主流技术驱动型视频生成模型,公司采用商业驱动模式,先明确广告营销场景需求再反向研发模型 [4]
豆包视频生成模型Seedance 1.0 pro正式发布 实时语音模型同步全量上线
快讯· 2025-06-11 13:29
豆包视频生成模型Seedance1 0pro发布 - 火山引擎在"2025火山引擎春季FORCE原动力大会"上正式发布豆包视频生成模型Seedance1 0pro [1] - Seedance1 0pro具备无缝多镜头叙事、多动作及随心运镜功能 并能稳定运动保持真实美感 [1] - 该模型定价为0 015元/千tokens(tokens是语言生成模型的最小工作单元) [1] 豆包实时语音模型相关发布 - 火山引擎总裁谭待宣布豆包实时语音模型全量上线 [1] - 会上同时正式发布了语音博客模型 [1]
字节跳动推出视频模型Seedance 1.0 pro
快讯· 2025-06-11 11:41
公司动态 - 字节跳动旗下火山引擎在FORCE原动力大会上发布视频生成模型Seedance 1 0 pro [1] 产品发布 - 视频生成模型Seedance 1 0 pro由火山引擎推出 [1]
VDC+VBench双榜第一!强化学习打磨的国产视频大模型,超越Sora、Pika
机器之心· 2025-05-06 12:11
视频细粒度文本描述技术 - 复旦大学等机构提出的Cockatiel方法在VDC榜单上获得第一名,超越通义千问2-VL、VILA1.5、LLaVA-OneVision、Gemini-1.5等主流视频理解多模态大模型 [3] - Cockatiel采用三阶段微调训练流程:构造人类偏好数据、基于打分器的多模型集成训练、蒸馏轻量化模型,最终训练出13B多模态大语言模型并蒸馏为8B模型 [8] - 实验显示Cockatiel-13B能准确复现基线模型细节,捕捉遗漏信息,且大幅减少幻觉性内容,展现更高可靠性和准确性 [7] 强化学习优化视频生成技术 - 研究团队提出迭代式强化学习偏好优化方法IPOC,在VBench榜单以86.57%总分登顶,领先通义万相、Sora、HunyuanVideo等知名视频生成模型 [14] - IPOC采用三阶段优化:人工偏好数据标注、奖励模型训练、迭代强化学习优化,仅需少量训练数据和算力即可实现效果优化 [19][20] - 优化后视频生成模型在时序一致性、结构合理性、动态程度和美学度均有显著提升,如狮子行走动作更自然连贯,人物与猛犸象结构更合理 [21][23][25] 技术方案细节 - Cockatiel基于人类偏好对齐的高质量合成数据,集成多个模型优势,以单机训练成本实现细粒度表达和人类偏好一致性 [5] - IPOC框架兼容主流偏好优化算法,包括Diffusion-DPO和Diffusion-KTO方法,用户可灵活选择训练目标 [21] - 两项技术均提供完整开源资源,包括论文、项目主页和GitHub代码库 [5][20]
阿里开源版Sora上线即屠榜,4070就能跑,免费商用
量子位· 2025-02-26 11:51
开源视频生成模型Wan 2.1的技术突破 - 阿里开源14B参数视频生成模型Wan 2.1,在VBench榜单表现超越Sora、Gen-3等竞品 [2] - 模型支持复杂运动细节(如5人同步hip-hop)和静态图像文字生成难题 [3][4] - 采用14B(720P)和1.3B(480P)双版本设计,后者可在消费级显卡(如4090显存8GB+)本地部署 [5][6] 计算效率与硬件适配性 - 4090显卡运行1.3B模型耗时261秒/峰值显存8.19GB,多GPU并行显著加速(如8卡降至112秒) [7] - 14B模型在H800显卡上实现最优效率(T2V任务单卡1838秒,8卡288秒) [7] - 12GB显存的4070显卡可支持1.3B版本运行 [6] 商业化与生态整合 - 全部模型采用Apache 2.0协议,允许免费商用 [8] - 计划集成ComfyUI工具链,降低AI创作者使用门槛 [9] - 提供通义万相平台在线体验(消耗"灵感值")及HuggingFace/魔搭社区本地部署方案 [10][11] 核心技术架构创新 - 主体采用DiT架构,结合T5文本编码器与交叉注意力机制实现多语言支持 [21][22] - 创新3D变分自动编码器设计,通过特征缓存和分块处理使VAE重建速度提升2.5倍 [23][28] - 图像转视频(I2V)技术通过CLIP编码器提取首帧特征,新增投影层优化输入通道 [32][34] 实际应用效果展示 - 突破性支持视频内动态文字生成,文字随材质和载体自然变化 [12][13] - 物理模拟精准(如弓弦抖动、水面过渡)且角色动作连贯(华尔兹转身一致性) [15][16][17] - 用户生成案例显示无需提示词即可实现日漫风格动画(如小狗切菜无畸变) [19]