AI视频生成

搜索文档
靠视频大模型赚钱,还是个梦
创业邦· 2025-07-17 18:05
视频生成赛道竞争格局 - 国内AI视频生成赛道竞争激烈,快手可灵2.0、字节即梦3.0、阿里万相2.1、腾讯HunyuanCustom、生数科技Vidu2.0、MiniMax旗下Hailuo 02等模型先后登场,技术指标显著提升[3] - 快手可灵AI在2025年第一季度收入超过1.5亿元,带动快手港股涨幅超30%[4] - 字节跳动Seed负责人将2025年定义为图像生成商业化元年,Pixverse月订阅收入达千万元级别[4] 主要厂商市场表现 - 快手可灵AI全球用户达2200万,在Poe平台使用份额超30%,超越Runway和Veo-2[7] - 字节即梦App在苹果商店下载量一度登顶,超越豆包和红果短剧[13][14] - 谷歌Veo 3实现音画同步突破,重新确立技术领先地位[11] 技术发展现状 - 视频生成模型普遍面临"一致性"和"运动性"难题,输出效果不稳定[5][22] - 当前模型最长只能生成5-10秒片段,1分钟视频生成仍不可行[26] - 技术瓶颈主要来自架构限制、算力不足和高质量训练数据稀缺[26][28][29] 商业化探索 - 主流商业模式为免费+会员制,即梦包月69元/可灵66元,积分机制不同[17] - AI视频制作成本显著低于传统方式(300美元/分钟 vs 200万美元/分钟)但试错成本高[19][23] - 专业创作者是核心付费群体,集中在影视、短剧、广告、游戏领域[18] 厂商战略差异 - 字节即梦侧重用户规模扩张,月活达893万;快手可灵专注专业用户渗透,月活180万[17] - 快手通过创作大赛发掘人才,投资S级短剧项目;字节依托抖音生态和火山引擎技术支持[30] - 厂商竞争重点从技术突破转向用户体验优化和多模态能力拓展[29] 行业挑战 - AI视频在短剧领域成本优势不明显,1分钟短剧仍需数千元试错成本[23][24] - 动态镜头生成能力不足,当前AI视频多为"动态PPT"效果[23] - 投资方态度谨慎,多采取小规模试水策略[24]
Z Event|字节、快手、爱诗、生数的同学下班一起聊AI?北京线下AI视频生成局报名中
Z Potentials· 2025-07-15 11:14
活动信息 - 活动时间定于2025年7月18日周五晚7点 [1] - 活动地点在北京 具体地点报名后通知 [1] - 活动人数限制为6-7人 目标人群包括大厂 创业公司产品/技术 创业者 [1] - 活动主题为AI视频生成与场景应用 [1] 实习生招募 - 公司正在招募新一期实习生 [3] 创业交流活动 - 公司寻找有创造力的00后创业者参与小型聚餐 [5] - 活动旨在交流想法 分享经验 拓展人脉 [5] - 报名截止时间为活动前一日晚8点 名额有限 先到先得 [5] - 公司将根据参与者背景和诉求进行合理组合 确保每个人有所收获 [5] 公司介绍 - 公司名称为Z Potentials [6]
Z Event|字节、快手、爱诗、生数的同学下班一起聊AI?北京线下AI视频生成局报名中
Z Potentials· 2025-07-14 14:22
活动信息 - 活动时间定于2025年7月18日周五晚7点 [1] - 活动地点在北京 具体地点将在报名后通知 [1] - 活动人数限制为6-7人 [1] - 目标人群包括大厂员工 创业公司产品/技术人员以及创业者 [1] - 活动主题聚焦AI视频生成与场景应用 [1] 招募信息 - 公司正在招募新一期实习生 [3] - 公司寻找有创造力的00后创业者 [5] 活动特色 - 活动形式为小而美的聚餐 旨在交流想法和分享经验 [5] - 活动提供拓展人脉的机会 [5] - 报名采取先到先得原则 截止时间为活动前一日晚8点 [5] - 公司将根据参与者背景和诉求进行合理组合 确保活动效果 [5] 公司信息 - 公司名称为Z Potentials [6]
这是我花9毛钱拍的《Meta老板砸钱把我从苹果挖走》
量子位· 2025-07-14 13:23
技术突破 - 国产AI视频生成技术实现重大升级,通过4张参考图+9毛钱成本即可生成定制化视频,颠覆传统图生视频仅支持首尾帧+Prompt的局限[1][4][6] - 新功能实现"素材即剧组"模式,用户可自由决定视频中所有人物、道具、背景元素,支持7个主体同时生成且保持100%一致性[4][27][33] - 技术直接跳过传统分镜制作环节,流程简化为"素材准备→视频生成→剪辑",进入零分镜时代[12][13][20] 产品优势 - 生成质量达1080P,支持跨作品角色联动(如《老友记》与《生活大爆炸》角色同框)及真人/动漫素材混合创作[28][30][36] - 专业模式自动优化Prompt理解,支持素材一键存入主体库供重复调用,修改成本极低[19][22][24] - 成本仅为传统版权素材1/30,5秒视频最低0.9元,1000元预算可生成48分钟内容[36][37] 行业影响 - 首次实现多主体超高一致性生成,解决行业长期存在的角色畸变问题,技术指标领先同业[26][27][33] - 将影视制作流程从7个环节压缩至3个,大幅降低广告/内容创作门槛[8][10][13] - 开启"快好省"的AI视频生产力时代,成本降幅达30倍,推动商业化应用普及[36][37]
周杰伦发的1400万人点赞的AI视频,是怎么做出来的?
数字生命卡兹克· 2025-07-14 01:21
周杰伦AI视频现象 - 周杰伦抖音首条视频发布1天内突破千万点赞,目前点赞量超1400万[2] - 视频采用AI技术生成,通过首尾帧功能将人生重要节点串联,形成史诗般叙事效果[3][8] - 视频背景音乐《三年二班》引发强烈怀旧情绪,产生"爷青回"效应[6][7] AI视频生成技术 - 首尾帧生成功能原理:上传首尾两张图片,AI自动生成中间过渡画面组合成流畅视频[9] - 主流视频生成工具包括即梦、可灵、Veo3、Pixverse、Vidu等大模型[8] - 技术应用案例:周杰伦童年照片生成微笑跑向钢琴的连贯动作[13][17] - 视频制作流程:分段生成后导入剪辑软件微调,添加背景音乐完成[22] AI视频应用场景 - 影视剧情节改编:为《甄嬛传》果郡王桥段创造新结局[29][31] - 经典场景重现:科比空难事件平行宇宙设定[32][33] - 怀旧内容创作:周杰伦电影作品混剪致敬青春[41][42] AI技术价值 - 相比传统剪辑技术,AI能实现更丝滑自然的时空转换效果[36] - 创造沉浸式体验,让观众感觉"站在当下"触碰过去[39] - 技术赋能情感连接,实现与过去温柔重逢的可能性[49][50]
科技周报|智元、宇树中标中国移动旗下公司1.2亿元人形机器人采购订单;美团加码“0元购”,沪上阿姨忙到闭店
第一财经· 2025-07-13 12:03
人形机器人行业 - 智元机器人和宇树科技中标中国移动旗下公司1.2亿元人形机器人采购订单,其中智元机器人中标7800万元全尺寸人形双足机器人采购包,宇树科技中标4605万元小尺寸人形双足机器人、算力背包、五指灵巧手采购包 [1] - 该订单是国内已披露的最大金额人形机器人订单,中国移动拥有数亿用户资源,有望推动人形机器人进入更广泛的应用场景 [1] - 智元机器人通过协议转让和部分要约收购方式获得上市公司上纬新材至少63.62%股份,成为控股股东,此举可加速其登陆资本市场进程 [4] 互联网平台竞争 - 摩根士丹利将阿里巴巴美股目标价从180美元下调至150美元,主要因预计其外卖和闪购业务投入达100亿元导致短期盈利承压 [2] - 阿里巴巴、美团、京东在即时零售领域展开激烈竞争,外卖业务补贴大战预计持续至年末 [2] - 美团加码"0元购"策略导致部分奶茶店爆单,平台补贴策略出现分化,淘宝侧重常态化作战,京东聚焦高客单价商品补贴 [3] 半导体行业 - 国产DRAM厂商长鑫科技启动上市辅导,辅导机构为中金公司和中信建投 [5] - 长鑫科技2023年Q1市场份额为6%,预计Q4将提升至7.5%,但面临先进DRAM颗粒技术开发挑战 [5] - TCL科技上半年净利润预增81%-101%至18-20亿元,其中半导体显示业务净利润超46亿元,同比增长超70% [6][7] 显示面板行业 - TCL华星显示面板业务增长主要来自:大尺寸电视面板高端化、IT面板收入增长、OLED业务高端化,以及收购LGD广州8.5代线带来的利润增厚 [6][7] - TCL科技新能源光伏业务TCL中环上半年亏损12-13.5亿元 [7] AI视频生成技术 - 拍我AI(PixVerse)上线多关键帧生成功能,支持上传7张图片生成30秒连贯视频,提升创作者对AI视频叙事的控制力 [8] - 多关键帧技术通过语义解析和动作路径优化实现复杂物理交互,推动AI视频生成从技术验证向产业落地发展 [8]
Z Event|字节、快手、爱诗、生数的同学下班一起聊AI?北京线下AI视频生成局报名中
Z Potentials· 2025-07-13 11:31
活动信息 - 活动时间为2025年7月18日周一晚7点 [1] - 活动地点在北京 具体地点报名后通知 [1] - 活动人数限制为6-7人 [1] - 目标人群为大厂 创业公司产品/技术 创业者 [1] - 活动主题为AI视频生成与场景应用 [1] 招募信息 - 公司正在招募新一期实习生 [3] - 公司寻找有创造力的00后创业者 [5] 活动详情 - 活动形式为小而美的聚餐 [5] - 活动目的是交流想法 分享经验 拓展人脉 [5] - 报名截止时间为活动前一日晚8点 名额有限先到先得 [5] - 公司会根据参与者背景和诉求进行合理组合 [5] - 活动旨在让每位参与者都能有所收获 [5]
实测Vidu Q1参考生功能,看到诸葛亮丘吉尔拿破仑在长城拍照留念
机器之心· 2025-07-11 16:27
核心观点 - 生数科技旗下AI视频模型Vidu Q1推出参考生功能,极大简化传统内容生产流程,实现「一个人就是一个剧组」的效果[2][3] - Vidu Q1参考生功能支持零分镜生成,只需上传人物、道具、场景等参考图即可直接融合为视频素材,操作仅需三步[5][17] - 该功能支持1080P视频直出,清晰度高,适用于多种场景如科幻叙事、童话动漫、人物特写等[17] - 当前版本最多支持7个主体输入,可同时处理多张图片并生成复杂互动场景[22][23] - 价格亲民,制作一条5秒1080p视频仅需20积分,标准版套餐48元/月含800积分[31] 功能特点 - **操作简便**:仅需上传照片、写提示词、成片三个步骤即可生成视频[3][5] - **多元素融合**:支持将人物、道具、场景等参考图直接融合为视频,无需分镜设计[5][23] - **高清晰度**:支持1080P视频直出,画质清晰,细节表现力强[17] - **多主体支持**:最多可同时处理7张图片,生成复杂互动场景[22][23] 应用案例 - **历史人物互动**:诸葛亮、丘吉尔、拿破仑在会议室、长城、铁王座等场景中自然互动,视频转场流畅[3][23][29] - **创意场景**:喵星人自拍时狮子靠近、蝙蝠侠与霸王龙对打等脑洞大开的视频生成[11] - **风格融合**:简笔画角色融入宫崎骏动画场景,风格适配度高[14][16] - **道具调整**:自动调整红缨枪大小以适配角色身材,优化画面和谐度[21] 用户反馈 - 社交平台涌现大量创意作品,如硅谷车库中跳舞的雕像、森林自拍的喵星人等[6][7][8][11] - 艺术家和程序员利用该功能实现跨IP角色同框,如1989版蝙蝠侠与1993版霸王龙对打[11] 实测表现 - **宫崎骏风格测试**:简笔画角色成功融入《龙猫》场景,风格一致且生动[14][16] - **多主体挑战**:7张图片输入下生成历史人物长城合照,互动自然但存在轻微图层融合瑕疵[23][26][30] - **道具与场景适配**:红缨枪大小自动调整,铁王座场景中人物互动自然但有遮挡问题[21][28] 价格与性价比 - 5秒1080p视频成本约20积分,标准版套餐48元/月含800积分,单价低廉[31]
1080p飞升4k,浙大开源原生超高清视频生成方案,突破AI视频生成清晰度上限
量子位· 2025-07-01 11:51
视频生成技术瓶颈 - 现有开源视频数据集分辨率普遍低于1080P(1920×1080),且视频说明简单粗糙,制约大模型学习效果 [1] - 主流视频生成模型在720P画质挣扎时面临两大核心瓶颈:分辨率陷阱(低清训练导致4K生成严重失真)和语义鸿沟(简单文本无法控制影视级参数) [3][4] - 电影级4K/8K内容生成亟需超高清数据与结构化语义描述支持 [5] UltraVideo数据集创新 - 全球首个开源4K/8K超高清视频数据集,含22.4%的8K内容,覆盖100+主题,每个视频配备9个结构化字幕及平均824词的总结性字幕 [2][9] - 通过四阶严苛筛选实现质量跃迁:人工精选5000部4K/8K原片+二次审核、统计信息过滤、模型二次过滤(16种缺陷检测)、结构化语义描述框架 [6][7] - 最终构建42K短视频(3-10秒)和17K长视频(10秒+),其中8K视频占比22.4% [9] 技术突破与实验成果 - UltraWan-4K模型实现三大突破:原生4K(3840×2160)直接输出、结构化语义精准控制镜头语言、LoRA轻量化训练单卡可部署 [8][19] - 仅用42K高质量数据微调即显著提升生成质量,1K LoRA方案在多项指标超越全参数训练(如物体分类准确率82.29% vs 66.66%) [13][14][17] - 4K模型在图像质量(71.61%)、时空一致性(100%空间关系)等关键指标表现优异,但受限于33帧率导致部分动态指标下降 [17][19] 行业影响与未来方向 - 首次证明极致质量小样本可突破分辨率天花板,填补高分辨率视频生成研究空白 [21] - 数据集支持UHD视频超分辨率、帧插值、编解码器等底层任务,以及视频编辑、音乐生成等高级应用 [21] - 已全面开源数据集和模型权重,计划探索长视频生成任务 [22][23]