AI视频生成
搜索文档
爱诗科技正式发布PixVerse V5和Agent创作助手
证券时报网· 2025-08-27 20:11
公司动态 - AI视频生成企业爱诗科技于8月27日正式发布新一代自研大模型PixVerse V5 [1] - 公司同步上线全新Agent创作助手 [1] - 公司全球用户规模突破1亿 [1]
阿里开源14B电影级视频模型!实测来了:免费可玩,单次生成时长可达分钟级
量子位· 2025-08-27 10:24
产品发布与特性 - 阿里发布音频驱动视频生成模型Wan2.2-S2V 仅需一张图片和一段音频即可生成电影级数字人视频 [1] - 模型支持单次分钟级生成 具备影院级音频生成视频能力和基于指令的高级动作与环境控制 [5] - 模型通过混合并行训练和全参数化训练构建超60万个音视频片段数据集 [19] 技术实现 - 融合文本引导全局运动控制和音频驱动细粒度局部运动 实现复杂场景音频驱动视频生成 [19] - 采用AdaIN+CrossAttention控制机制解决音画同步问题 [20] - 利用层次化帧压缩技术将历史参考帧拓展到73帧 实现稳定长视频生成 [21] - 通过多分辨率训练支持竖屏短视频和横屏影视剧等不同分辨率场景生成需求 [22] 用户体验与效果 - 模型生成视频面部表情自然 口型一致且肢体动作丝滑 [1] - 用户可通过通义万相官网免费体验 每日登录赠送50积分 [11] - 实测显示模型对口型能力出色 唇形与台词基本匹配 [13] - 用户生成内容涵盖动漫人物朗诵 人物贴画唱歌及大段rap演绎等多种场景 [15][16][17] 生态影响与市场表现 - 通义万相视频生成模型家族在开源社区和第三方平台下载量已超2000万 [23] - 模型发布即开源 可通过GitHub Modelscope和HuggingFace等平台获取 [24]
AI视频生成新品实测:这怎么不算影院级呢?
量子位· 2025-08-25 23:47
模型性能表现 - 作为全球首个中文音视频一体化生成的I2V模型,在中文语音和口型同步方面表现自然[3][6] - 升级版本擅长复杂运镜和镜头叙事能力,画质进一步提升[7] - 视频生成精细度较高,生成视频大小达20.8M,比对比产品3M大很多[18] 功能应用场景 - 仅用1张图片和1段提示词即可生成带音效的视频,例如猫呼噜声和虫子叫声[4] - 支持宠物动态写真生成,使照片自然动起来[20][29] - 支持创意实现如让林黛玉念《葬花吟》或麦当劳叔叔推荐肯德基[34] - 提供5秒和10秒两种视频长度选择[47] 语义理解能力 - 对提示词中部分内容如"奔跑"和"黄蝴蝶"存在理解忽略现象[15][45] - 对情绪把控有待提升,出现中气十足林黛玉和被迫营业麦当劳的情况[35] - 人手生成仍是历史难题,还有进步空间[46] 音效处理特性 - 可生成效果音和对话,但不会自主生成背景音,需要手动添加BGM[44] - 音效表现突出,如键盘敲击声效果不错[43] - 提供单独的背景音选项但选择后无变化[44] 价格优势 - 限时优惠价格1.4元/5秒,低至行业70%[49] - 登录赠送每月210免费额度[50] - 正常价格2.5元/5秒,200秒视频仅需100元,比对比产品便宜一大半[52] 生成效率 - 视频生成需3分钟,相比对比产品不到1分钟的速度较慢[16][17] - 可能因画面精细度较高导致生成时间较长[18] 生态整合 - 已在百度移动生态广泛使用,结合本土中文生态更适合中国创作者[57] - 提供免费额度获取机会[52]
首个接入GPT-5的视频Agent!一句话生成商业级广告大片,分镜配音字幕等全包了
量子位· 2025-08-25 10:32
产品核心功能 - AI视频生成Agent只需一句提示词即可自动完成分镜、画面、配音、字幕等全流程制作[1][2] - 能够真实还原现实世界画面 从食物到人物动作都极致逼真[4] - 将原本需要数周的视频制作时间缩短至数天甚至数分钟[5] - 不同于传统AI视频生成单个镜头片段 而是直接交付完整创意项目[7] 技术架构特点 - 全球首个接入GPT-5的视频Agent[4][9] - 打造完全自动化的创作生态系统 使AI成为云端创作团队[9][10] - 具备持续学习能力 能记住品牌风格和历史创作[11] - 包含脚本策划、视觉合成、配音字幕三大智能模块[16] 商业应用价值 - 内容产出效率提升10倍 可快速批量生产爆款视频[12] - 支持企业广告、品牌宣传片、产品发布会视频等商业场景[13] - 从0到1构建专业级影视内容 建立可持续创作的影视王国[14] - 通过简单文字指令即可生成商用级视频 降低专业制作门槛[19][21] 用户体验优势 - 操作界面简化 所有功能通过输入栏即可完成[19] - 自动将文本指令分解为创意构思、脚本编写和分镜生成[21] - 支持实时修改调整 生成的图像自动归类到对应分镜[23][25] - 自动完成剪辑过程 并提供项目回放功能追溯创作历程[26] 市场反响 - 小范围开放邀请码后迅速在X、Reddit、YouTube等平台刷屏[6] - 主要创新在于改变了创作协作模式 从单点效率提升转向完整项目交付[7]
刚刚,马斯克开源Grok 2.5:中国公司才是xAI最大对手
量子位· 2025-08-24 09:13
开源发布 - xAI正式开源Grok 2模型 包含42个文件 总大小约500GB [1][5][6] - 模型需通过HuggingFace下载 官方建议使用SGLang推理引擎运行 要求8个GPU且每个显存超过40GB [5][6][14] - 模型参数未明确公开 网友推测为2690亿参数的MoE架构 [9][10] 技术性能 - Grok 2在多项基准测试中表现竞争力:GPQA达56.0% MMLU达87.5% MMLU-Pro达75.5% MATH达76.1% [8][12] - 在LMSYS排行榜总体Elo分数曾超越Claude和GPT-4 [6] - 模型采用非商业开源协议 与MIT/Apache 2.0等主流协议存在差异 [11][13] 产品动态 - Grok APP更新v1.1.58版本 新增AI视频生成功能 [16][17][19] - 马斯克宣称xAI将很快超越谷歌 并认为中国公司是主要竞争对手 [20] 发展路线 - Grok 3预计将在半年后开源 [1] - 公司曾延迟原定开源时间节点 但最终完成发布 [2][3][4]
百度蒸汽机2.0发布:成本降至七成,AIGC视频将进入普惠时代
财经网· 2025-08-23 19:09
核心观点 - AI视频生成成为大模型竞争核心战场 成本与质量平衡成为行业比拼关键[1] - 公司通过技术突破和价格下调策略 旨在撬动更大规模创作者和商业市场[1] 技术突破与产品升级 - 蒸汽机2.0采用端到端生成方式 通过统一潜在空间规划实现多角色自然协同互动[2] - 新版本在语音画面同步、多角色对话生成和中文场景适配等方面升级[1] - 端到端架构提升可用性 支持复杂场景和多角色同时发声的长镜头[2] - 一体化生成方式避免合成痕迹 效果接近真实拍摄[2] 成本优化措施 - 训练阶段通过算子优化和数据集调整减少冗余计算[5] - 推理阶段进行工程化改造 避免传统扩散模型指数级成本增长[5] - 底层算力依托百舸平台和自研昆仑芯片 形成软硬件结合成本压缩能力[5] - GPU算力架构和工程优化积累使推理效率和算力利用率大幅提升[1][4] 价格与商业模式 - 刊例价相比同类产品下降至70% 将好莱坞百万级特效成本降至百元级别[1][3] - 价格优势源自多年GPU算力积累 非补贴换量[4] - 案例显示成本从数周制作周期缩短至数日 费用从万元级降至千元内[5] - 降价策略惠及中小企业市场 降低视频创作门槛[6] 行业竞争与生态落地 - AI视频生成赛道竞争激烈 但存在质量、时长和交互稳定性瓶颈[7] - 公司聚焦中文场景与生态落地可持续性 非单纯追逐画质极致[7] - 蒸汽机已贯穿搜索、内容生态、营销和企业市场等多业务场景[7] - 百度搜索中超60%流量带有AIGC生成内容 增强用户体验[7] - 生态定位驱动搜索与内容生态增长 模型调用营收非首要目标[7]
百元造出科幻大片?AI视频生成“钱景”初显
北京日报客户端· 2025-08-23 09:12
行业技术突破 - AI视频生成技术实现规模化应用,仅需一张图或一句话即可生成电影级质感视频,大幅降低制作门槛 [1] - 百度"蒸汽机"音视频一体化模型实现行业首次多人有声音视频一体化生成,突破传统"默片"限制 [5] - 视频生成长度普遍为5-10秒,但百度内部已在下一代技术架构取得突破性进展,将解决视频长度与成本倍数增长问题 [11] 成本效率变革 - 科幻短片《归途》制作成本仅330.6元人民币,相比传统实拍成本降低超万倍(传统成本需数百万元) [3][5] - 该短片含40多个镜头,通过AI生成超120个片段素材,包括18个10秒有声片段和102个5秒片段,耗时仅一周完成 [3] - AI技术消除传统影视制作的演员、场地、设备租赁及后期特效等高成本环节 [3] 市场竞争格局 - 国内企业包括百度"蒸汽机"、字节即梦、快手可灵AI、智谱清影、生数科技Vidu、MiniMax海螺AI等密集布局AI视频生成赛道 [7] - 国际市场竞争者包括OpenAI Sora、Google Veo、Runway Gen系列及Stability AI的Stable Video Diffusion模型 [7] - 生数科技Vidu模型上线8个月实现年化经常性收入2000万美元(约1.4亿元人民币) [7] - 快手可灵AI收入从一季度1.5亿元增长至二季度2.5亿元,环比大幅提升 [7] 生态价值与用户增长 - 百度将AI视频生成视为生态活跃度核心支点,移动搜索结果页AI生成内容占比从4月35%提升至7月64% [8] - AIGC行业用户使用时长同比飙升393.9%,成为移动互联网新增长引擎 [8] - 爆款漫剧《明日周一》采用"10人团队+45天+50集+AI生成"模式,抖音上线5天播放量突破500万 [7] 应用场景与用户群体 - 当前AI视频生成需专业创作者反复调试提示词(prompt),消费群体以专业创作者为主 [11] - 技术需突破一键生成能力,实现从专业创作者向大众用户群体的跨越 [11]
可灵 2.1 首尾帧藏师傅外挂教程:两张图→大片,附万能提示词
歸藏的AI工具箱· 2025-08-22 17:10
可灵2.1首尾帧模型技术能力 - 模型在提示词理解和遵循以及图片转换自然度方面表现优异 基本达到首尾帧功能天花板[1] - 支持完全无关两张图片的顺滑转换 但前后关联图片能带来更强视觉冲击[2] - 生成效率极高 单条视频从制作到生成仅需半小时 期间可并行处理其他任务[2] 图片素材获取方法论 - 采用相同提示词抽卡方式 利用模型多图生成时种子一致特性 可获得相似度高图片 特别适合展示类视频[9] - 通过修改提示词抽卡 先生成尾帧图片后再逆向调整部分元素 实现人物或物品的移动与消失效果[12] - 运用FLUX Kontext等图像编辑模型 通过自然语言指令精确控制图片编辑 实现材质添加与背景更换[15] 提示词生成系统 - 开发差异化提示词生成策略 自动判断图片关联性(A类关联性强/B类差异巨大)并匹配对应转场方案[28] - A类图片采用"原地演变"策略 聚焦主体状态风格或环境变化 避免使用摄像机移动[29] - B类图片采用"运镜驱动转场"策略 强制使用推拉摇移等镜头运动连接画面 并附加特效变化增强关联性[29][32] 商业化应用场景 - 电商领域可实现模特产品一致性展示 解决手部细节问题 可用性极高[18] - 支持文字特效生成 通过材质替换和环境同步变化提升视觉表现力[21][23] - 玩偶变装等娱乐化应用展现技术泛化能力[25] 工作流优化方案 - 建议将流程固化为标准化模板(首尾帧链接+差异分类+提示词+成片链接) 实现10秒出提示词和半小时出片的高效生产[39] - 强调从"特效思维"转向"叙事思维" 通过构建因果关联使视频单价提升5倍[41] - 三张王牌拿图法(同提示词/改提示词/图像编辑)结合万能提示词形成完整解决方案[40]
可灵2.1首尾帧功能上线 破解AI视频转场难题
环球网· 2025-08-22 16:41
核心产品升级 - 可灵AI推出基于2 1模型的全新首尾帧功能 通过升级端到端多模态语义推理能力提升视频生成效果[1] - 与1 6版本相比效果提升235% 在视频转场 视觉呈现 运镜处理及营销素材制作等方面表现突出[1] 技术能力突破 - 改善AI视频生成中常见的转场问题 实现多场景自然衔接 解决场景衔接生硬和"刹车感"[2] - 引入自适应扩散引导与方向重定向机制 在扩散生成每一步动态引导和纠正条件分布 修正偏离语义或视觉逻辑的动态路径[12] - 深度整合用户提示词与首尾帧图片中的视觉语义及动作意图 融合多模态数据 捕捉画面元素在时空维度上的演变逻辑[12] 视觉表现提升 - 实现艺术风格切换与角色动态衔接的无缝连接 案例显示角色发型 服装和光线实现无缝衔接[4] - 增强复杂视觉元素控制能力 实测中人物轮廓变为火焰形态 火山岩浆流动和星空下烈焰升腾等细节清晰[6] - 保持人物/物体身份一致性 色彩风格与画面基调连贯 提升视频专业质感[12] 运镜技术优化 - 支持专业级复杂运镜 通过首尾帧连续衔接实现镜头轨迹与场景逻辑匹配[6] - 案例显示镜头快速向左下摇镜突出爬行机器人 随后快速左摇拍摄逃窜机器人与爆炸场景 提升观看沉浸感[6] 营销应用价值 - 快速生成符合品牌调性的创意展示视频 适用于市场营销领域 降低素材制作成本[8] - 饮品广告案例显示易拉罐从树莓中飞出 树莓如爆炸般散开 果汁飞溅过程自然[10] 竞品性能表现 - 与Seedance1 0 mini对比的整体GSB得分达2 09 与Midjourney对比达2 30 与可灵1 6对比达3 35[10] - 在与Midjourney的两两偏好对比中胜率为62% 与Seedance1 0 mini对比胜率为57%[10] 平台发展规模 - 已完成30次迭代 服务用户超4500万 累计生成视频超2亿条 图片超4亿张[12] - 覆盖广告 影视 游戏等多个行业 巩固在AI视频生成领域的地位[12]
破解AI视频转场难题 可灵2.1最强首尾帧上线
证券时报网· 2025-08-22 12:49
产品发布 - 可灵AI于8月22日正式发布基于2 1模型的全新首尾帧功能 [1] - 新功能效果较1 6模型提升235% [1] - 新功能在视频转场、视觉冲击力、复杂运镜及创意营销等维度表现卓越 [1] 产品性能 - 专业评测显示,可灵2 1首尾帧的整体GSB得分全面超越Midjourney与Seedance1 0mini [1] - 新功能的推出进一步提升了AI视频生成的可控性 [1] 应用场景 - 可灵2 1首尾帧广泛适用于广告营销、影视、短剧、动画等创意制作场景 [1]