Workflow
Midjourney发布视频模型:不卷分辨率,但网友直呼画面惊艳
虎嗅·2025-06-19 14:56

产品发布 - Midjourney推出首个视频模型V1,具备调色精准、构图考究、情绪饱满的特点,延续了其独特的超现实视觉风格[1][2][8] - 视频模型支持上传或生成图像后点击"Animate"按钮转换,单次任务默认输出4段5秒视频,最长可扩展至21秒[5][29][30] - 提供手动和自动两种模式,用户可通过提示词设定画面效果,并选择低运动或高运动选项以适应不同场景需求[5][33][37] 技术表现 - 视频生成保持高辨识度的美学风格,如博主@EccentrismArt展示的坠落少年动态流畅,城市街区空间扭曲效果稳定[9][10] - 成功处理复杂场景如极光雪地车灯的多重光源干扰,雪地粒子、运动模糊等要素一致性较强[19][22] - 静物表现力方面,奶油动态自然,杯体旋转时标签未扭曲,但写实风格中孩童左手存在不协调问题[21][24] 商业模式 - 视频功能纳入现有订阅体系(10美元/月),GPU消耗为图像任务的8倍,但生成长视频时每秒成本与图像生成接近[11][36] - 相比竞品如OpenAI Sora(20美元/月起)、Google Veo(249.99美元/月),性价比处于第一梯队[38] - 面向Pro用户测试"Relax Mode"以降低算力消耗,其他用户仍按GPU时间和会员等级计费[38] 功能局限 - 仅支持480p分辨率,长宽比自动适配图像原尺寸(如1:1输出624×624像素,16:9输出832×464像素)[11][43][44] - 缺乏音效、时间轴编辑、片段过渡及API接入能力,片段间为跳切衔接难以控制剧情节奏[40][41][42] - 官方承认当前版本属早期探索阶段,重在易用性和可扩展性[45] 战略规划 - 视频模型是构建"世界模型"的第二步,后续将推出3D模型与实时系统,最终整合图像生成、动画控制、3D导航与实时渲染[46][47][48] - 产品路线图分为四阶段:图像模型→视频模型→3D模型→实时模型,最终实现交互式内容生产体系[48][49]