AI视频生成
搜索文档
所有爆款 AI 视频一键生成?Hailuo Video Agent 体验
歸藏的AI工具箱· 2025-06-20 16:45
视频生成Agent行业动态 - MiniMax率先推出分阶段打造的Hailuo Video Agent 标志着视频生成Agent进入实用化阶段 [3] - 行业技术路径呈现从"钢铁侠战甲"(增强工具)向"钢铁侠机器人"(完全自主Agent)的渐进式发展特征 [4] - 视频生成模型成本上升与提示词遵循效果改善共同推动成熟Agent产品加速落地 [2] Hailuo Video Agent产品特性 技术架构 - 采用三阶段发展路径:专业模板→可打断编辑→端到端自动化 [8] - 集成多模态能力 可同步处理音乐、语音、音效、图片包装、字幕等视频制作全要素 [17] - 内置Agent编辑工具 已积累覆盖主流场景的模板库 [18] 用户体验 - 操作门槛极低 仅需上传图片或简单文字描述即可生成高质量视频 [5] - 支持ID保持功能 实现原图与生成视频间的顺滑过渡 [7] - 提供自定义GUI界面 配备自主性调节滑块满足差异化需求 [4] 应用场景覆盖 内容创作领域 - 人像动态写真:支持多套服装更换同时保持面部相似度 [9] - 宠物主题内容:可自动生成宠物生活场景视频 无需提示词输入 [11] - 产品广告视频:一键生成电商产品展示视频 自动匹配卡点音乐 [12] 垂直行业应用 - 科普视频制作:80秒长视频可同步生成专业口播与动画内容 [14] - 像素风格视频:基于简单场景词生成情侣主题像素动画 [15] - 职场主题内容:支持复杂工作流处理 实现多语音风格对话视频 [16] 技术突破 - 实现文字-图片-视频-音频的全流程自动化生成 [14] - 视频模型稳定性显著提升 保证内容连续生成质量 [11] - 突破传统视频制作限制 无需专业打光与场地即可产出广告级内容 [12]
嚯!国产视频模型的物理水准超神了 | 实测MiniMax海螺02
量子位· 2025-06-19 14:25
核心观点 - MiniMax发布新一代视频生成模型Hailuo 02,在物理场景理解和复杂指令执行方面表现突出,支持1080p高清输出和多种视频时长[4][15] - 该模型在体操、镜子成像等复杂物理场景中表现优异,相比早期模型违背常识的概率大幅降低[4][32][34] - 模型能够精准执行包含多要素、大跨度的复杂指令,生成效果稳定且具有纪录片质感[36][40][44][46] - 在图生视频方面,模型可直接生成可用于广告营销等商业场景的高质量视频,无需后期剪辑[56][57][59] - 模型采用噪声感知计算重分配(NCR)架构,训练和推理效率提升2.5倍,参数量达前代3倍,训练数据提升4倍[77][79][82] - 公司正构建从文本、语音到视频的全模态能力体系,技术布局覆盖基础模型和Agent等方向[86][87] 技术性能 - 原生支持1080p高清视频输出,同时提供768p选项,画面质感显著提升[4][15] - 支持6秒和10秒两种视频时长,可通过拼接延长[15] - 在Arena ELO基准测试中得分1332,超越谷歌Veo 3(1241)和快手Kling 2.0(1194)[12] - 训练效率提升2.5倍,参数量达前代3倍,训练数据规模扩大4倍[79][82] - 采用NCR架构实现降本增效,推理成本创新低[77][84] 应用场景 - 体育场景:精准生成体操运动员动作和复杂物理交互[1][2][4] - 影视特效:可生成雨滴悬停等好莱坞级特效画面[65][66][69] - 广告营销:直接生成Labubu玩偶宣传片等商业级视频[57][58] - 社交媒体:支持旅游打卡、灵魂画手等短视频玩法[61][63][50][52] - 纪录片制作:能处理四季变换等时间跨度大的专业需求[44][46] 用户体验 - 新用户赠送500免费积分,生成10秒768p视频消耗50积分[14] - 提供预设提示词库和运镜指导资源,支持AI自动优化提示词[71] - 网页和APP端同步上线,国内用户使用友好[12][13] - 生成效果稳定,相同提示词产出结果一致性高[40] 行业地位 - 视频生成能力进入全球第一梯队,部分表现超越谷歌Veo 3[11][73] - 在物理场景理解和复杂指令执行方面建立技术壁垒[22][32][52] - 国产模型中率先实现语音生成领域全球基准测试双料第一[86] - 通过技术创新持续提升性价比,重新定义行业标准[77][84]
AI生图之王首发视频大模型,每月10刀,最长20秒,效果超逼真
36氪· 2025-06-19 11:23
产品发布 - Midjourney发布首款AI视频生成模型V1,支持用户上传图像生成20秒视频,提供手动和自动生成动作提示词选项[1] - V1可实现画面背景变化时主人公动作连贯流畅,即使虚构形象运动也自然[1] - 用户可通过"Animate Image"按钮体验,会员起订费10美元/月,采用"按次消耗额度"机制[1] - 正在测试为60美元/月会员开放"无限制轻松模式"[1] 产品功能 - V1支持竖屏、横屏不同画幅,生成速度快,网友反馈效果流畅[3] - 提供高速运动和低速运动两种模式,分别适合动态场景和环境场景[10] - 用户可延长满意视频,每次约4秒,最多延展4次达20秒[10] - 支持上传外部图像作为起始帧并输入动作提示[10] 技术对比 - 与Runway相比,V1人物动作更流畅但周围元素可能静止,Runway整体画面更和谐[7] - V1动画效果更具大片感,而Runway效果类似制作不够精良的游戏页面[7] - 相比Veo 3,V1对旧照片动画处理的视觉效果稍逊[7] 商业模式 - 视频制作收费约为图片8倍,每个任务支持生成4个5秒视频[10] - 每秒成本大致相当于生成一张静态图像[10] - 将为专业版及以上订阅用户测试视频"轻松模式"[10] 发展战略 - V1被视为探索构建实时模拟开放世界模型的第一步[11] - 目标建立实时生成图像的AI系统,整合图像、视频、3D和实时模型[11] - 计划明年分别构建发布这些模型后逐步整合成统一系统[11] 行业动态 - 视频生成模型竞争加剧,谷歌、字节跳动、MiniMax近期均发布相关产品[12] - Midjourney从强调可访问性转向开发更复杂模拟框架[12] - 将V1描述为迈向更复杂系统的"技术垫脚石"[12]
MiniMax秀了波AI杂技视频,视频生成赛道又卷起来了
第一财经· 2025-06-18 16:47
行业动态 - AI视频生成赛道近期竞争加剧,多家公司发布新模型,包括快手可灵2.0、字节跳动即梦3.0 Pro、谷歌Veo3和MiniMax海螺02 [1] - 行业整体技术水平提升,海螺02在复杂人类动作、光影和物理模仿方面表现优异 [6] - 视频生成模型竞技场Artificial Analysis Video Arena最新排名:字节Seedance 1.0 pro第一,海螺02第二,谷歌Veo3第三 [6][7] - 行业仍处于技术迭代初期,最终市场格局尚未确定 [16] 公司表现 - MiniMax海螺02在性价比方面领先,1000元可生成1.7万条1080p视频,高于字节即梦1.4万条和谷歌Veo3 2000条 [14] - 海螺AI自去年8月发布以来已帮助创作者生成超过3.7亿个视频 [14] - 快手可灵AI全球用户达2200万,累计生成1.68亿视频和3.44亿图片,月活增长25倍 [14] - 快手可灵AI季度营收超1.5亿元,中金给予60亿美元估值,全球市场占有率30.7% [14][15] 技术进展 - 海螺02在物理运动效果和细节呈现(如泪珠)方面获得用户好评 [8] - AI视频生成仍存在"抽卡"问题,需要多次尝试才能获得理想画面 [6] - 影视行业对AI生成复杂动作场景(如剑斗)仍持观望态度 [10] - 多模态内容生成被视为大模型厂商的必要能力 [15] 商业化前景 - 快手可灵AI的营收表现显示AI视频领域商业化前景可期 [14] - 行业正从专业创作者向更广泛用户群体渗透 [15] - 性价比和生成效率(减少"抽卡"次数)是竞争关键因素 [14]
MiniMax秀了波AI视频杂技:越看越惊艳,指令遵循太强了
量子位· 2025-06-18 08:54
海螺AI 2.0视频生成能力 - 最新发布的MiniMax海螺2.0版本能生成复杂精致的视频效果,包括处理极端物理场景并原生支持1080P分辨率[1] - 展示案例显示模型可精准执行高难度动作指令,如"人物快速流畅地投掷刀具"和"空中杂技表演跟随镜头"[2][3][5][6] - 在超现实场景(如狮子跳火圈)中保持符合物理规律的光影变换,并能捕捉火星飞舞等细节[11][13][14] 技术性能与行业地位 - 海螺2.0在AI视频竞技场图生视频排行榜位列第二,ELO评分1314,超过Google Veo 3 Preview(1240)和Runway Gen 4(1119)[23][24] - 模型在指令遵循、生成质量和成本效率方面达到一流水平,网页端和APP端均已支持该版本[8][17][19] 底层架构创新 - 公司推出全球首个开源大规模混合架构推理模型MiniMax-M1,支持100万token输入(DeepSeek R1的8倍)和8万token输出(超越Gemini 2.5 Pro)[25] - 独创闪电注意力机制使8万token深度推理仅需DeepSeek R1约30%算力,10万token推理算力消耗仅为竞品的25%[26][27] - 强化学习算法CISPO比字节DAPO等算法收敛速度快1倍,整个强化学习阶段仅消耗512块H800三周时间,成本53.47万美元[27] 研发战略方向 - 公司在视频生成和长上下文推理领域连续突破,显示其基础模型创新能力持续强化[28][29] - 技术报告显示架构创新带来显著算力效率优势,支撑其在训练和推理环节的成本竞争力[26][27]
爱诗科技联合举办 CVPR 2025第二届高效端侧生成技术研讨会(EDGE)
财富在线· 2025-06-17 16:15
行业动态 - CVPR 2025第二届高效端侧生成技术研讨会(EDGE)在美国田纳西州纳什维尔市成功举办 [2] - 研讨会期间《AdaVid:Adaptive Video-Language Pretraining》和《Scaling On-Device GPU Inference for Large Generative Models》两篇论文获得最高荣誉 [2] 技术突破 - 《AdaVid》论文提出面向多场景迁移的自适应视频-语言预训练框架 [2] - 《Scaling On-Device GPU Inference for Large Generative Models》论文探讨生成式大模型端侧GPU推理的规模化加速方案 [2] 公司参与 - 爱诗科技旗下AI视频生成平台PixVerse作为联合举办方参与本次研讨会 [4] - 公司与全球顶尖学者专家进行学术共创和行业赋能合作 [4]
中信证券:预计快手(01024)可灵TAM规模超千亿美元,25-30年收入CAGR约44.7%
智通财经网· 2025-06-09 11:58
商业化进展 - 可灵AI在正式推出后第10个月实现年化经常性收入(ARR)超过1亿美元,商业化速度超越AI编程明星产品Cursor(耗时约12个月)[2] - 2025年4月和5月,可灵月度付费金额均突破1亿元人民币[2] - 当前70%收入来自专业个人用户(P端),30%来自企业客户(B端),70%收入来自海外市场,30%来自国内[3] 市场潜力 - 可灵AI定位为AGI时代视频创作的新型基础设施,目标客户覆盖自媒体、广告、短剧、影视剧等整个内容生产行业[2] - 基于贝哲斯咨询数据,2023年全球视频制作市场规模9519亿元,预计2029年达15743亿元,可灵的可触达市场(TAM)规模超千亿美元[2] - 截至2025年3月,可灵AI全球用户超2200万,为超1万家企业提供API服务[3] 增长驱动与收入预测 - 核心增长驱动包括全球专业内容创作者数量增长(预计年增10%)、可灵MAU渗透率持续提升(预计从2024E的5%升至2030E的30%)、付费率提升(从2024E的1.5%升至2030E的5%)[3] - 预计2025-2030年可灵收入复合年增长率(CAGR)达44.7%[1][3] 估值与财务影响 - 参考同业估值(如Runway在2024年12月ARR 8400万美元对应30-40亿美元估值),中信证券保守给予可灵36-48x PS(基于当前ARR 1亿美元),对应估值增量约36-48亿美元[3] - 可灵的商业化进展为快手带来显著价值增量,维持快手"买入"评级,目标价70港元[1]
赛道Hyper | PixVerse国内版上线:AI视频市场生变?
华尔街见闻· 2025-06-08 10:32
公司动态 - 全球领先的AI视频生成平台PixVerse于6月6日推出国内版产品"拍我AI",同步上线网页端及移动端应用,并开放最新V4.5模型 [1] - 国内版"拍我AI"延续海外技术优势,采用"App+网页端"双端策略:App端内置百余种创意模板,网页端面向专业创作者提供精细参数调节功能 [7] - 母公司北京爱诗科技近期完成近3亿元A2至A4轮融资,由蚂蚁集团、北京市人工智能产业投资基金等机构投资,资金将用于技术研发、算力扩展及人才团队建设 [7] 产品技术 - V4.5模型在生成速度、画面精细度及多主体控制等方面实现提升,包含四大技术突破:专业运镜系统、多模态融合技术、复杂动作优化、本地化适配 [2][3] - 专业运镜系统集成20余种电影镜头模板,支持焦距变化速度(0.1-10倍速)和镜头抖动幅度(0-5级)等参数调节 [2] - 多模态融合技术支持最多8张图片输入,通过SE(3)等变网络实现多图像空间关系解算,生成20秒完整片段 [2] - 复杂动作优化使动作流畅度相比V4.0提升约30%,减少扭曲与伪影 [3] - 新增中文提示词支持、智能音效匹配及7种语言界面,针对移动端进行模型轻量化 [3] - "毒液变身"特效在TikTok等平台累计播放量达数十亿次,多次登顶多国应用商店榜单 [3][4] 市场表现 - PixVerse自2024年1月海外上线以来累计吸引全球超6000万用户,月活跃用户突破1600万 [3] - 2025年初V4.5版本上线后,其App在美国iOS总榜排名一度位列第四 [5] - 全球AI视频生成领域呈现多元化竞争态势:Runway Gen-4以人物一致性见长,Higgsfield AI强调专业运镜,Kling和Sora在长视频生成上占优 [7] - 国内市场形成快手可灵AI、抖音即梦AI及PixVerse的头部竞争格局 [8] 行业影响 - AI视频生成技术在中国市场进一步渗透,正成为数字内容产业的重要工具 [9] - 技术将重塑内容生产、传播与消费的全链条 [9]
全球圈粉6000万,被国内粉丝催着上线,PixVerse「国内版」一手实测来了!
机器之心· 2025-06-07 11:59
产品发布与市场反响 - 爱诗科技推出国内版AI视频生成工具「拍我 AI」,该产品为全球热门应用PixVerse的本地化版本,已登陆各大应用商店并提供网页端深度体验[4] - 产品上线前已引发国内用户强烈期待,后台收到大量催上线私信,反映出市场对高质量AI视频工具的需求[2][12] - 海外版PixVerse已积累6000万全球用户,月活达1600万,曾位列美国应用总榜第四并登顶视频类应用榜首[13][14] 产品功能与技术特点 - 提供上百种模板支持一键生成同款视频,大幅降低创作门槛,适合新手用户快速上手[6] - 专业功能包括首尾帧控制、多主体合成、运镜设计、视频重绘等,支持短片及电影级创作[8][30][39][40] - 首创5秒内视频生成速度,实测各项指标拉满时生成时间仍不超过1分钟,显著优于行业水平[44] - 底层模型迭代迅速,从V2到V4.5平均每两月更新一版,国内外版本均搭载最新V4.5模型[45] 市场表现与行业地位 - PixVerse上线30天即实现百万访问量,2024年4月达成88天1000万次视频生成的里程碑[17] - 通过病毒式传播的创意模板实现破圈,典型案例包括科目三舞蹈、吉卜力风格等流行内容[18][24][27] - 在专业创作者群体中建立口碑,用户评价显示其渲染稳定性、动作逼真度及运镜功能显著优于竞品[15] 公司战略与竞争优势 - 采用「好玩+好用」双轨策略:降低普通用户参与门槛,同时满足专业创作者高阶需求[49][50] - 形成用户生态良性循环:普通用户模仿专业作品,专业创作者汲取大众创意灵感[51] - 作为成立仅两年的中国初创公司,在视频生成赛道已具备与OpenAI、谷歌等巨头竞争的实力[17] 行业影响 - 产品国内上线将加剧AI视频生成赛道竞争,为行业树立功能丰富度与生成速度的新标杆[47] - 已验证的全球市场成功模式(6000万用户基础)有望在国内复制,可能改变视频创作生态格局[52]
爱诗王长虎、谢旭璋:“不会创业” 的创始人,怎么做出用户量第一的 AI 视频产品
晚点LatePost· 2025-06-06 19:05
公司概况 - 爱诗科技由80后王长虎与90后谢旭璋联合创立,团队组合打破"35岁以下更适合大模型创业"的行业偏见 [3][4] - 公司定位为AI视频生成领域,同时开发底层模型与to C应用产品,全球用户超6000万,是竞品可灵的3倍 [4] - 核心产品PixVerse移动端上线6个月月活达1600万,国内版"拍我 AI"于6月6日正式发布 [4][6] 产品与技术 - 差异化路径:聚焦普通人需求,通过模板化设计(如毒液变身、科目三跳舞等)实现零Prompt操作,用户首条视频即可获万至百万点赞 [4][8][9] - 技术迭代:模型V3将生成成功率提升至近100%,V3.5将等待时间压缩至10秒内,累计更新7版模型 [6][9] - 生成效率:V4模型实现5-7秒生成5秒视频,正在探索实时生成技术以模糊创作与消费界限 [16][17] 市场表现 - 病毒式传播案例:毒液变身模板全球播放量超10亿次,咧嘴笑模板推动PixVerse登顶美国iOS下载榜前五 [6][12] - 商业化进展:订阅收入已覆盖绝大部分成本,现金流接近转正 [7] - 全球化布局:视频内容天然跨语言传播,高GDP国家贡献主要收入,暂未精细化运营区域市场 [12] 行业竞争 - 视频生成第一梯队:国内为爱诗、快手可灵、MiniMax海螺,海外Google表现突出,认为Sora实际效果与demo差距显著 [14] - 对抗大厂逻辑:视频行业持续分化(长/短视频、直播等),新内容形态需增量供给,非存量替代 [10] - 技术壁垒:毒液模板半年未被复现,依赖高质量生成模型与持续用户洞察能力 [12] 战略决策 - 关键转折:2023年6月All in视频生成,抓住当时行业非共识机会 [23][24] - 资源分配:Sora发布后坚持原定技术路线,未盲目追加资源追赶,最终验证模型实效优于Sora [26] - 双引擎驱动:前期以模型技术为核心,后期产品与模型协同进化,产品需求反哺技术方向 [20] 行业趋势 - 技术架构:主流仍为DiT,自回归+Diffusion混合架构显现潜力但存在帧间误差挑战 [15][16] - 交互革命:实时生成将改变视频线性叙事,用户可动态改变剧情走向,视频与游戏界限模糊化 [17][18] - 价值认知:视频生成领域整体被低估,较之大语言模型更少舆论关注但实际商业落地更快 [24][25]