Workflow
人工智能视频生成
icon
搜索文档
Midjourney入局视频生成,图像模型V7不断更新,视觉卷王实锤了
量子位· 2025-06-16 18:30
Midjourney视频生成模型 - 视频生成效果展示包括跑步动作、人物和空间转换非常丝滑[2] - 挖蛋糕场景逼真,勺子上有倒影等细节[3] - 多人物动作和视角切换流畅[14] - 小猫动作和人手动作具有物理真实感[16] - 小狗滑滑板场景展示[18] - 小猫美甲精细,手部纹路和指纹细节突出[21] - 叠毯子场景中手部发力和褶皱表现真实,但毯子自动缩回存在不合理性[24] - 爬楼梯场景中花朵从右手飘到左手存在逻辑问题[27] - 视频生成模型在物理真实感、纹路细节、动作平滑度上表现优秀[26] - 缺乏音频功能,与Veo 3相比无法生成乐器声音[28][29][30] Midjourney图像模型V7更新 - 图像模型V7不断更新,支持语音生图功能[37] - 从3月开始呼吁用户参与图像评分以完善V7[38] - 4月发布V7 alpha版本,包含Relax和Turbo模式[39][40] - 手部纹理生成逼真[41] - 旗舰功能"草稿模式"可将提示栏改为对话模式,支持语音输入生成图像[44][45][47] - 草稿模式生成成本减半,渲染速度提升10倍[49] - 快速模式优化耗时从40秒降至18秒[50] - 图像生成速度整体提升40%,快速模式渲染时间从36秒减至22秒,Turbo模式从13秒减至9秒[51][52][53] 公司动态与市场反应 - 视频生成演示引发Reddit热议,点赞量达2.5k[5][6] - 用户评价视频效果"与现实无法区分"[9] - 公司会议展示视频生成功能,强调"动画化图片"作为差异化优势[33] - 动画风格是Midjourney的强项[34] - 定价策略考虑用户需求,展现诚意[35][36]
用Veo 3+Suno做了个AI Rapper,吊打音乐节上的流量明星
机器之心· 2025-05-29 19:38
AI视频生成技术 - Google Flow Veo3和Suno 4 5合作生成的嘻哈歌手rap视频效果逼真 网友难以分辨真实性[1] - Veo3生成的演唱会视频细节丰富 包括乐队成员动作 乐器演奏同步性 镜头切换等 几乎无瑕疵[4][6] - 典型案例包括另类摇滚乐队酒吧演出 怪诞钢琴家与交响乐团合作 混乱摇滚音乐会等场景[5][7][8] AI音乐生成技术 - Suno 4 5被称为"音乐界ChatGPT" 支持歌词输入和风格选择 但免费版Suno 3 5存在咬字不清 电音明显等问题[12][13] - 豆包音乐生成功能支持模板化创作 咬字清晰度优于Suno 尤其擅长处理生僻字发音 但旋律多样性不足[16] - 案例显示AI可将《木兰辞》等古诗改编为嘻哈风格 播放量超百万[10][19] 多模态AI创作流程 - Flow平台提供从文本提示到视频生成的完整工具链 包括摄像机控制 场景构建等功能[20][22] - 高质量视频需精细设计提示词 例如指定服装 舞台动作 观众反应等要素 并通过分段生成实现时长扩展[22][25] - 最终作品需结合Suno/豆包生成的音乐与Flow生成的视频 通过剪辑软件合成完整内容[27]
实测惊艳全球的Veo3!音画同步无敌,贵是有原因的
机器之心· 2025-05-26 17:40
谷歌Veo3视频生成技术 核心功能 - 首次实现视频与音频同步生成,支持文本/图像转视频,口型与对白精准匹配[5][6] - 生成内容涵盖复杂场景如战场士兵、脱口秀表演、假新闻播报等,细节处理达到影视级水准[12][24][26] - 提供多语言提示词支持,实测显示英文提示词效果优于中文[49] 技术突破 - 音画同步能力突出,角色表情、肢体动作与环境音效高度逼真,如ASMR视频仅需单句提示词即可生成[13][30] - 支持多场景应用:游戏直播界面含动态画面与实时聊天框(Twitch风格)、音乐录制棚特写等[26][27] - 生成限制:避免暴力、名人恶搞等内容,遵循谷歌AI政策指南[22] 应用案例 - 成功复刻《肖申克的救赎》经典雨中场景,虽未达原片质量但完整呈现剧情[47][48] - 生成哲学主题视频,探讨AI角色自我认知问题,展现深度内容创作潜力[14] - 商业场景适用性:车展视频与产品演示达到以假乱真水平[13] 现存局限 - 复杂动态场景处理不足:体操运动员动作出现肢体扭曲、篮球比赛逻辑错误[33][41] - 多对象交互生成缺陷:美人鱼与海洋生物互动画面出现拼贴感[40] - 实时元素缺失:游戏直播中观众聊天框静态化[28] 行业影响 - 技术对标好莱坞制作水平,可能重塑影视行业内容生产流程[2][7] - 用户可通过Google One会员免费体验,降低专业视频创作门槛[15][19] - 提示词优化体系已标准化,提供场景描述、视觉细节等结构化生成框架[44]