马斯克视频生成模型首次交卷！电影级运镜+音效，免费可玩

Grok Imagine 1.0模型发布与核心能力 - xAI正式全面上线其“迄今为止最强大的视频音频生成模型”Grok Imagine 1.0版本 [1] - 模型支持文生视频和图生视频，单次生成时长为10秒，分辨率为720P，音频效果实现大幅提升 [2] - 在为期30天的测试期内，该模型已生成12.45亿条视频 [8] 视频生成能力详解 - 模型具备电影级运镜理解能力，画面衔接丝滑不卡顿 [11][13] - 在多主体生成方面表现抗打，不同主体间互动自然 [15][17] - 模型能精准遵循用户指令，对创意构想理解到位，支持竖屏与横屏等多种画面比例 [19][21] - 支持替换视频中的对象，并允许用户用自己的动作表演驱动任意角色生成对应动画 [23][25] 视频编辑与风格化功能 - 视频剪辑功能允许用户在视频中添加或删除对象 [25] - 可轻松切换秋日、冬日、薄雾、日落、阴云等多种场景氛围 [27] - 支持修改物体颜色与物件细节，并为现有视频素材更换不同的视觉风格 [29][31] - 能够将静态黑白线稿转化为鲜活的动画 [33] 性能与成本优势 - 公司在延迟、成本控制等核心维度对模型进行了迭代优化 [35] - 根据AI基准测试机构Artificial Analysis的文生视频排名，Grok Imagine综合排名第一，在成本、延迟两项关键指标上表现最优 [36] - 在Artificial Analysis和LMArena两家机构的评估中，Grok Imagine在延迟和成本上均处于领先位置 [39] - 在图生视频方面，模型同样保持了高评分、低延迟、低成本的综合优势 [40] 基准测试与用户反馈 - 在针对视频编辑能力的人工盲评基准测试（使用IVEBench数据库）中，Grok Imagine在整体表现、指令遵循度、效果一致性三大维度均领先 [42][43] - 模型API已发布，用户已在官网进行创作，生成了如小机器人跳舞、还原《猫和老鼠》场景等高质量、画风逼真、动作丝滑的视频内容 [45][46][48][50] - 模型同样能处理第一视角的画面生成 [52] 产品获取与定位 - 目前用户可通过官网免费使用Grok Imagine 1.0 [7] - 该产品定位为AI视频与音频生成工具，旨在精准捕捉用户创意，支持日常趣味创作、热点梗图及短视频制作 [4][5] - 用户可将生成的片段串联，快速拼合成小短片 [6]