AI Video Generation
搜索文档
Medeo 教程:一次生成无脑抽卡不可取,真正的视频 Agent 应该啥样
歸藏的AI工具箱· 2025-12-16 07:06
文章核心观点 - AI视频生成智能体Medeo的1.0版本在自然语言交互、提示词泛化能力、多模型支持及视频编辑灵活性方面取得显著进步,代表了视频创作领域的突破性进展 [1][4][9][67] Medeo 1.0版本的核心能力与进步 - 支持通过自然语言对生成的视频进行灵活修改和调整,解决了早期同类产品执行路径死板、泛化性不强的问题 [1][8] - 支持超过上千字的超长提示词,并具备优秀的泛化性,能够制作各种风格和垂类视频 [1] - 几乎支持市面上所有常见的图像和视频生成模型,用户可通过提示词指定使用特定模型,例如Sora或Gemini [9][10] - 提供混合编辑体验,既支持自然语言编辑,也保留了用户熟悉的传统剪辑界面进行精细操控 [10] 产品功能与操作 - 界面简洁直观,提供包含画面、台词、剪辑方式及音乐的完整视频模板供用户直接套用 [5][6] - 支持生成16:9横版和9:16竖版两种常见比例视频 [6] - 提供高度自定义设置,包括视频时长、生成类型、画面风格、配音声音等 [6] - 支持从URL拉取或本地上传文本和图片作为创作素材 [6] - 用户仅需在输入框描述视频需求即可开始创作,无需过度详细描述 [7] 应用案例与提示词策略 - **微缩模型风格科普视频**:通过详细提示词定义了视觉风格、解说人设、配乐及剧本结构,成功生成关于《基地》小说世界观及SpaceX火箭回收的科普短片 [15][25][31] - **生活方式商品宣传片**:通过提示词将产品解构为艺术体验,强调感官美学与生活场景结合,成功为自定义键盘生成了高质量宣传视频,商品细节还原度极高 [32][34][36][39] - **哈基米Meme风格讲解视频**:通过上传并标记Meme角色图片,结合特定语言体系的提示词,成功将《诡秘之主》等作品改编为萌宠角色演绎的抽象风格讲解视频 [45][49][51][55] - 提示词创作模式强调与AI智能体的“共创”和迭代优化,AI能自行反思内容不足并提出改进方案 [20][22][30][47] 技术架构与行业意义 - 公司通过构建名为“Gensystem”的专用语言系统来解决视频创作的“不可能三角”难题,该系统由Medeo DSL、Context System和Environment三部分构成 [58][62] - 该架构旨在平衡使用门槛、生产成本和效果控制,避免传统产品存在的高门槛、工具割裂或内容多样性受限等问题 [60][62] - 系统的成功在于其强大的上下文管理、获取能力以及AI在图像设计、视频剪辑与构建方面的智能,使得单一提示词能完成多领域、多能力的视频构建 [64][65][66][67]
Vidu Q2携「王炸」登场!杀手锏「参考生」功能全球上线,APP体验全面革新
量子位· 2025-10-20 18:29
Vidu Q2参考生功能升级 - 参考生功能于10月21日正式上线,具备高一致性、更快速度和更优惠价格的特点,且无需邀请码即可使用[13] - 生成速度对比上一代Vidu Q1参考生快了3倍,大幅提升创作效率[40] - 支持多主体一致性控制,例如同时处理人物、九尾狐和鱼三个主体且保持原图一致[30][33] 视频延长功能突破 - 视频延长功能首次在网页端单独上线,免费用户最长可生成30秒视频,付费用户最高可延长至5分钟[3][20] - 延长功能支持文生视频、图生视频和参考生视频等多种生成方式[20] - 用户可节选任意视频帧或上传图片进行延长,每次延长时长可在1-7秒间任意选择[21][23] AI视频生成技术进展 - 视频生成画质保证1080p高清晰度,且有效避免主体畸变[17][35] - 具备强大的语义理解能力,能精准实现Prompt要求的复杂场景转换,如人物眼睛自然过渡到星河效果[27][29] - 支持多角度运镜控制,例如从正面拉近、左右移动、上下切换等,满足商品展示等专业需求[36][38] Vidu APP平台化转型 - APP从AI创作平台升级为一站式AI内容社交平台,集成创作、互动和分发功能[4][12] - 新增“二次创作”功能,用户通过@主体+一句话即可生成合拍视频,无需复杂提示词,大幅降低创作门槛[7] - 平台内置海量主体库,包括人物、动物和特效等素材,用户可直接调用生成视频[8] 商业化应用前景 - 技术升级推动AI视频生成进入复杂叙事阶段,满足内容创作和公司对高一致性、长时间及高清的需求[24][42] - 电商行业可快速生成商品展示短片,例如用静态产品图片结合简单Prompt生成动态营销视频,降低制作门槛和成本[43][45][47] - 移动端升级使个人用户可随时随地实现创意,通过简单操作将想法转化为视频内容[47][48]
字节大佬创业,40天狂揽5.2亿融资!产品超1亿人在玩
搜狐财经· 2025-10-17 23:25
融资情况 - 爱诗科技于近期完成1亿元人民币B+轮融资 投资方包括复星锐正、同创伟业、顺禧基金等 [3] - 此前在9月10日公司完成B轮融资 金额超过6000万美元(约4.27亿元人民币)由阿里巴巴领投 创下国内视频生成领域单次最大融资额 [3] - 公司在2024年相继完成A2至A4轮融资 累计金额近3亿元人民币 A2轮由蚂蚁集团投资 [10] - 公司最早于2023年8月完成数千万元人民币天使轮融资 [10] 公司业务与产品 - 爱诗科技成立于2023年4月 专注于AI视频生成大模型及相关产品的研发应用 [3] - 公司是国内首个发布DiT架构视频生成模型的初创公司 [3] - 2024年1月面向海外市场推出首款产品PixVerse 以模板化视频生成为主要特色 [5] - 2025年6月推出面向国内用户的产品“拍我AI” [5] - 自研视频生成大模型已完成五次重要更新 共发布八个版本 [5] - 最新版本PixVerse V5于8月27日上线 重点优化动态表现、画面清晰度、一致性处理与指令响应能力 [5] - 同时上线Agent创作助手 帮助用户简化创作流程 无需复杂提示词即可制作视频 [5] 经营业绩与用户规模 - 公司产品用户规模已突破1亿 年度经常性收入(ARR)超过4000万美元(约2.85亿元人民币) [5] - 产品月活跃用户(MAU)超过1600万 [5] - 公司自2024年11月商业化至今不到一年时间 收入增长超过10倍 [5] - 是过去一年全球收入和用户增长最快的AI平台之一 [5] 市场认可与行业地位 - PixVerse在9月入选a16z“全球Top 50生成式AI消费级移动应用”榜单第25位 [8] - 根据数据机构AIGCRank数据 PixVerse在9月网站访问量增长超过26.91% [8] - 创始人兼CEO王长虎曾任字节跳动视觉技术负责人 从0到1参与抖音与TikTok等产品的视觉能力建设 [3]
晚点独家丨爱诗科技完成 1 亿元 B+ 轮新融资,ARR 突破 4000 万美元
晚点LatePost· 2025-10-17 15:29
公司动态:爱诗科技 - 爱诗科技完成1亿元人民币B+轮融资,由复星锐正、同创伟业、顺禧基金共同投资,公司成立于2023年4月,累计融资总额超过1亿美元 [5] - 公司旗下产品PixVerse(海外版)和拍我AI总用户数超过1亿,月活跃用户超1600万,年度经常性收入达4000万美元 [5] - 公司创始人王长虎拥有近20年AI研究经历,曾任职于微软亚洲研究院和字节跳动,联合创始人谢旭璋有6年光源资本工作背景 [9] - 产品PixVerse网页端上线后,通过变身特效实现1000万新用户增长,2025年5月V4.5版本上线后用户规模达6000万,8月V5版本上线并推出Agent创作助手,用户规模达到1亿 [9] 行业竞争格局 - 在图片生成视频模型领域,全球前十名中前三名均为中国公司,分别是快手可灵、爱诗PixVerse和MiniMax海螺,OpenAI的Sora模型排名第31位 [10][11] - 在文字生成视频模型榜单中,OpenAI的Sora 2模型排名第11位 [10][11] - 字节跳动旗下的视频生成模型Seedance和Waver在榜单中分别位列第7和第8位,其产品即梦移动端日活目标为超过500万 [12] - 行业领先的大语言模型主要由美国公司如Google、OpenAI、Anthropic提供,但在视频、语音等多模态领域,中国公司模型已跻身全球顶尖行列 [11] 产品与技术进展 - OpenAI发布视频生成模型Sora 2及社交应用Sora App,新模型在物理模拟、音画同步与场景连贯性上有显著提升,用户可生成带声音的视频并在类TikTok内容流中分享 [7][8] - Sora App上线后迅速登顶美区App Store免费榜并连续7天位居第一,上线不到两周下载量突破100万,增长速度超过当年ChatGPT [8] - 爱诗科技针对移动端产品进行大量优化,包括人物一致性、画质可选项和生成速度,并通过特效模板如“变身”等带来上千万新增用户 [9][11] - OpenAI宣布Sora App和网页端用户可生成最长15秒视频,Pro用户可在网页端生成最长25秒视频,此前标准版为10秒,Pro版为15秒 [13] 市场趋势与潜力 - 视频生成移动App赛道市场容量极大,现有工具和产品短期内无法完全覆盖所有用户,抖音和TikTok月活超过20亿,每个短视频用户都是潜在AI视频创作者 [9] - 快手可灵核心目标聚焦专业创作者而非普通用户,自启动商业化以来截至今年2月累计营收已突破1亿元 [12] - 多模态领域被认为具有巨大的消费和娱乐潜力,尽管不是AGI演进的最主轴,但该领域的竞争烈度正在加剧 [4][13] - 行业公司在技术突破和应用体验两个维度并行推进,Google Veo3、快手可灵等侧重长时一致性和专业工作流,而字节即梦、爱诗等加强产品体验和新奇玩法 [12]
当Sora2遇上国产 Vidu Q2,国产参考生真的更香了!一手亲测
量子位· 2025-10-10 19:24
文章核心观点 - AI视频生成领域的竞争已从单纯技术效果转向满足实际应用需求,关键在于技术能否成为可靠的生产力工具[39][40][41] - Vidu Q2参考生视频与Sora 2在多个维度上表现接近,但各自优势不同,Vidu在操作灵活性和一致性方面表现突出,Sora 2在音视频同步输出方面有优势[37][38][9] - 行业未来的竞争焦点是构建包含创意、生成、编辑、分发与商业化的完整生态,而不仅是视频生成效果[42][43] Vidu Q2参考生视频功能特点 - 功能支持上传多达7张参考图,并让图片联动生成视频,提供专业模式及多种参数自定义选项,如时长(2-8秒)、清晰度(1080p)、宽高比和生成数量(1-4个)[7][8][9] - 该功能于去年9月全球首次提出,Vidu Q2是其参考生视频的第5个迭代版本,预计本月底将有重大更新[4][6][46] 技术能力对比:一致性 - 在一致性测试中,Vidu Q2生成的人物和道具(如包包)全程无异常变化,道具颜色与原图高度相符[12][13][14] - 同样的提示词下,Sora 2生成的内容在基本一致性上存在不足,道具(包包)颜色和形态(如包带数量)发生变化[16] 技术能力对比:遵循物理规律 - 在遵循物理规律的复杂场景测试(如镜面反射舞蹈动作)中,Vidu Q2整体表现良好,仅存在少量细节错误[21][22][23] - Sora 2在处理包含写实人物的图像时存在限制,替换为动漫人物后仍无法生成,改用文字提示生成的结果在人物数量和音乐搭配上完成度较高,但出现无关人员(摄影师)[25][26] 技术能力对比:运镜技巧 - 在运镜测试中,Vidu Q2的镜头语言更符合日常动漫风格,能够实现从近景到远景再到特写的流畅切换和跟随[31][32][33] - Sora 2通过不停切镜来渲染紧张氛围,与Vidu Q2的运镜方式各有优势[34][35] 行业发展趋势与竞争壁垒 - AI视频技术正朝着工业化生产方向发展,一致性等功能是实现AI短剧、数字人广告等商业应用的基础,具有战略价值[41][42] - 行业竞争壁垒在于构建完整生态,Vidu已基于产品矩阵构建了主体库共享生态、商业化生态和创作者生态[43] - 技术的快速迭代正推动技术成熟和成本降低,这场竞赛被视为AI视频生产力革命的开始[44][45]
谈「AI抖音」尚早,Sora 2们会先改变影视行业
钛媒体APP· 2025-10-04 09:12
Sora 2模型能力提升 - Sora 2视频模型带来对现实世界更精准的呈现、更强的可控性、能创造复杂音频并轻松将现实世界的人和物插入AI生成视频中[1] - Sora 2生成的内容更有真实感且能连续生成复杂镜头 其样片展示了维京战士乘战舰登陆冰面等复杂场景[8][15] - 模型能力提升推动整个视频大模型行业技术更新 使AI更好地服务于有创作冲动的人[2] 视频大模型商业化进展 - 商业化落地更多集中在B端和P端 快手可灵AI月度付费流水持续突破1亿元人民币[9] - 视频大模型厂商获得资本押注 Vidu完成由博华资本领投的数亿人民币A轮融资 爱诗科技拿到阿里巴巴领投的6000万美元B轮融资[10] - AI短剧商业化变现加速 《巨蛇怪谈》累计超500万次播放 珀乐互动联合Vidu创作的AI漫剧《明日周一》收获超1亿观看[2][11] AI视频创作效率提升 - AI“炼丹”效率显著提升 《明日周一》制作过程中炼丹效率达到1:1.3~1:1.5 团队期待提升至1:1.1或1:1.2[12] - 视频大模型基础能力进步使生成效果更自然 从难以生成自然吃面条画面到可生成汁水四溅的切橙子视频[15] - 参考生视频等功能上线优化创作流程 Vidu Q1支持用户上传七个主题 直接一键根据参考图直出视频 无需经过生图再生成视频环节[16] 影视行业工作流变革 - AI应用改变传统影视创作团队结构 《巨蛇怪谈》创作团队仅需导演、编剧和AI技术人员三人 传统剧组需要制片、摄影、灯光、美术等多分工[2][5] - AI技术减少中间环节和原画工作量 《明日周一》后半部分比原计划少画三分之一原画 分镜上色后直接生成视频跳过具体画面绘制环节[21] - 影视创作界面出现创新 可灵发布灵动画布功能支持一站式AI视频全链路创作和团队协作 Luma AI的Ray3被应用在Adobe的Firefly中[19][20] 行业竞争格局与产品演进 - 2024年国内出现20多款视频大模型产品 阿里、腾讯、字节及海外Google、Meta、Runway等巨头和创业公司加入战局[7] - 产品从工具属性向平台演进 Sora App被看作“AI抖音”雏形但本质仍是工具 与Higgsfield同类 利用AI提供高级滤镜激发跟风模仿[1] - Agent能力应用降低创作门槛 爱诗科技推出模版化Agent帮助用户撰写提示词 AIpai和FilmAction等产品支持从脚本到视频的一站式生成[23][24] 技术迭代与未来展望 - 2025年成为AI视频技术重要节点 可灵2.1、Google的Veo 3、字节的Seedance 1.0 pro等模型在生成效果上各有优势[8] - 技术需继续走向成熟 使AI生成人物有丰富表情并做出特定调度 同时需解决视频大模型版权问题[27][28] - 未来工具将同时适用于C端、P端和B端用户 带来工具层面普惠 但不会实现创作冲动大众化[29]
AI视频生成“暗战”起风
华尔街见闻· 2025-09-29 08:01
行业商业化进展 - AI视频生成赛道已实现用户付费,而大语言模型的同类模式尚未跑通[1] - 2024年6月,Runway年化营收超过9000万美元(约6.4亿元人民币)[1] - 2025年第二季度,快手旗下AI视频生成应用"可灵"创收超过2.5亿元人民币[1] - 生数科技的Vidu上线8个月年化经常性收入(ARR)突破2000万美元(约1.4亿元人民币)[9] - 爱诗科技的拍我订阅收入已经覆盖成本[9] 主要市场参与者 - 国内市场参与者包括字节、快手、百度等互联网大厂以及生数科技、爱诗科技等初创公司[4] - 生数科技的"Vidu"和爱诗科技的"拍我"用户数均已突破千万[2] - 群核科技计划年内发布针对C端消费者的AI视频生成产品,并拥有庞大的室内空间数据集优势[2][10] 技术能力突破 - 2024年2月,OpenAI的Sora 1.0支持生成长达60秒视频,实现突破性进展[3] - 当前国内AI视频生成模型一次生成时长基本在5秒-10秒,但可通过镜头组合形成连贯长视频[4] - 百度蒸汽机升级后支持生成无限长度AI视频,突破了5-10秒的局限[8] - 长视频生成技术引入自回归扩散模型,结合自回归长序列能力和扩散一致性强优势[8] 具体应用场景 - 影视行业是AI视频生成技术的第一批尝鲜者[5] - 50集动漫短剧《明日周一》80%内容由生数科技Vidu生成,10人团队45天完成制作,效率较传统一周制一集提升至少7倍[6] - 快手"可灵"客户群体涵盖大众创作者、电商及广告从业者和影视制作工作室[7] - 市场想象空间延伸至机器人训练等场景,可为机器人提供虚拟场景进行训练[11] - 快手计划扩大"可灵"在游戏制作、专业电影以及视觉制作中的应用[12] 产品定价策略 - 标准版定价差异较大:可灵66元、Vidu59元、拍我79元、即梦79元[9] - Vidu和即梦"加量不加价",分别可生成200个/月、216个/月视频,而可灵、拍我只能生成数十个[9] - 行业出现价格战,百度蒸汽机定价低至行业70%,可灵2.5 Turbo模型比2.1模型同档位便宜近30%[10] 技术挑战与优化 - AI视频生成模型存在空间一致性、内容拼接崩坏问题,实测中出现脸部表情崩坏、物体凭空消失等现象[13] - 核心难点在于模型对长时序运动轨迹与多尺度语义连贯性的精准建模[13] - 问题根源在于当前算法基于2D图像序列学习,未能真正理解3D空间关系和物理世界逻辑[14] - 生数科技通过自研U-ViT架构、构建大规模视频数据集、引入动态遮罩与一致性补偿算法进行优化[15] - 群核科技推进3D视频生成工作流研发,以降低穿模和畸变[15] 数据资源与隐私 - 高质量数据集是AI视频生成模型公司渴求的训练素材[16] - Meta因被指控下载2396部成人电影训练AI模型而面临诉讼[17] - 国内视频平台如快手、抖音在用户数据使用方面拥有更多弹性空间和优势[18] - 快手的隐私政策允许其为广告目的与第三方合作伙伴读取用户部分信息与数据[18]
阿里巴巴投出AI视频生成赛道最大单笔融资
新浪财经· 2025-09-16 16:10
融资情况 - 爱诗科技完成B轮融资 总金额超过6000万美元[1] - 由阿里巴巴领投 达晨财智、深创投、北京市AI基金、湖南电广传媒、巨人网络和Antler跟投[1] 行业地位 - 创下国内视频生成领域单次最大融资记录[1] 投资方构成 - 本轮融资参与方包括战略投资方阿里巴巴及多家财务投资机构[1]
科股早知道:AI算力需求井喷,算力产业链上市企业业绩频频报喜
搜狐财经· 2025-08-25 08:45
AI算力产业链 - AI算力需求井喷带动产业链上市公司2025年上半年业绩高增长 多家公司业绩增长得益于基础算力设施持续建设和人工智能算力投资稳步增长 [1] - 2028年中国智算中心市场规模预计达到2886亿元 市场增长动力由训练切换至推理 [1] - 2025年中国智能算力规模预计达到1037.3EFLOPS 2028年预计达到2781.9EFLOPS [1] - 国产大模型加速国产算力建设 AIDC运营商/AI服务器/交换机/光模块/高速铜缆/温控等环节迎来放量机会 [1] AI视频生成行业 - 可灵AI发布基于2.1模型的全新首尾帧功能 效果较1.6模型提升235% 在视频转场/视觉冲击力/复杂运镜及创意营销等维度表现较好 [2] - 自2024年2月OpenAI发布Sora以来 快手/字节跳动/腾讯/谷歌等企业相继推出AI视频生成模型 [2] - 生成式AI已初步在影视行业落地 包括动画短片和特效场景 具备复杂场景生成能力并实现分镜/物理规律/角色一致性 [2] - 生成式AI在剧本生成/角色场景建模/动画生成/后期配音/剪辑调色等环节均有应用 [2] - 2024年AI视频生成全球规模为6.15亿美元 预计2032年达到25.63亿美元 2025-2032年复合增速20% [2]
速递|Moonvalley发布首个公开数据训练的AI视频模型Marey:如何实现360度镜头控制与物理模拟
Z Potentials· 2025-07-09 13:56
公司技术 - Moonvalley推出"3D感知"混合模型Marey 通过结合文本提示与手动控制为电影制作人提供更强操控性 区别于标准文本转视频模型[1] - Marey基于公开授权数据训练 避免AI生成内容涉及版权材料的法律风险 针对规避诉讼的电影制作人群体[1] - 模型支持5秒片段生成 符合行业标准 提供14 99美元/100积分至149 99美元/1000积分的订阅服务[1] 产品功能 - 实现物理世界模拟能力 如遵守运动定律 可替换视频主体(野牛→凯迪拉克)并保持环境互动(草叶尘土响应)[3][4] - 支持自由镜头运动 通过鼠标拖拽实现平移滑动变焦 接近360度视角调整 模拟手持/轨道拍摄效果[5] - 具备背景替换功能 保留主体同时转换场景(郊区道路→乡村公路) 未来将新增光照调节/深度轨迹等控制[5] 应用案例 - 独立制片人Ángel Manuel Soto使用Marey降低20%-40%制作成本 解决传统设备租赁的高资金门槛[2] - 应用于影视全流程 包括拍摄前场景测试与后期镜头角度调整 控制物体/角色/动作/构图等要素[2] - 曾用于HBO纪录片《Menudo: Forever Young》制作 通过收购Asteria(XTR)工作室强化内容生产能力[2] 行业定位 - 直接对标Runway Gen-3/Luma Dream Machine等AI视频生成器 强调差异化控制能力[5] - 技术对标Google Veo 3和OpenAI Sora 共享物理世界理解能力 但更早开放商业化应用[3] - 创始团队含DeepMind前研究人员 具备谷歌视频模型开发经验 技术背景深厚[1]