AI视频生成
搜索文档
Z Event|字节、快手、爱诗、生数的同学下班一起聊AI?北京线下AI视频生成局报名中
Z Potentials· 2025-07-14 14:22
活动信息 - 活动时间定于2025年7月18日周五晚7点 [1] - 活动地点在北京 具体地点将在报名后通知 [1] - 活动人数限制为6-7人 [1] - 目标人群包括大厂员工 创业公司产品/技术人员以及创业者 [1] - 活动主题聚焦AI视频生成与场景应用 [1] 招募信息 - 公司正在招募新一期实习生 [3] - 公司寻找有创造力的00后创业者 [5] 活动特色 - 活动形式为小而美的聚餐 旨在交流想法和分享经验 [5] - 活动提供拓展人脉的机会 [5] - 报名采取先到先得原则 截止时间为活动前一日晚8点 [5] - 公司将根据参与者背景和诉求进行合理组合 确保活动效果 [5] 公司信息 - 公司名称为Z Potentials [6]
这是我花9毛钱拍的《Meta老板砸钱把我从苹果挖走》
量子位· 2025-07-14 13:23
技术突破 - 国产AI视频生成技术实现重大升级,通过4张参考图+9毛钱成本即可生成定制化视频,颠覆传统图生视频仅支持首尾帧+Prompt的局限[1][4][6] - 新功能实现"素材即剧组"模式,用户可自由决定视频中所有人物、道具、背景元素,支持7个主体同时生成且保持100%一致性[4][27][33] - 技术直接跳过传统分镜制作环节,流程简化为"素材准备→视频生成→剪辑",进入零分镜时代[12][13][20] 产品优势 - 生成质量达1080P,支持跨作品角色联动(如《老友记》与《生活大爆炸》角色同框)及真人/动漫素材混合创作[28][30][36] - 专业模式自动优化Prompt理解,支持素材一键存入主体库供重复调用,修改成本极低[19][22][24] - 成本仅为传统版权素材1/30,5秒视频最低0.9元,1000元预算可生成48分钟内容[36][37] 行业影响 - 首次实现多主体超高一致性生成,解决行业长期存在的角色畸变问题,技术指标领先同业[26][27][33] - 将影视制作流程从7个环节压缩至3个,大幅降低广告/内容创作门槛[8][10][13] - 开启"快好省"的AI视频生产力时代,成本降幅达30倍,推动商业化应用普及[36][37]
周杰伦发的1400万人点赞的AI视频,是怎么做出来的?
数字生命卡兹克· 2025-07-14 01:21
周杰伦AI视频现象 - 周杰伦抖音首条视频发布1天内突破千万点赞,目前点赞量超1400万[2] - 视频采用AI技术生成,通过首尾帧功能将人生重要节点串联,形成史诗般叙事效果[3][8] - 视频背景音乐《三年二班》引发强烈怀旧情绪,产生"爷青回"效应[6][7] AI视频生成技术 - 首尾帧生成功能原理:上传首尾两张图片,AI自动生成中间过渡画面组合成流畅视频[9] - 主流视频生成工具包括即梦、可灵、Veo3、Pixverse、Vidu等大模型[8] - 技术应用案例:周杰伦童年照片生成微笑跑向钢琴的连贯动作[13][17] - 视频制作流程:分段生成后导入剪辑软件微调,添加背景音乐完成[22] AI视频应用场景 - 影视剧情节改编:为《甄嬛传》果郡王桥段创造新结局[29][31] - 经典场景重现:科比空难事件平行宇宙设定[32][33] - 怀旧内容创作:周杰伦电影作品混剪致敬青春[41][42] AI技术价值 - 相比传统剪辑技术,AI能实现更丝滑自然的时空转换效果[36] - 创造沉浸式体验,让观众感觉"站在当下"触碰过去[39] - 技术赋能情感连接,实现与过去温柔重逢的可能性[49][50]
科技周报|智元、宇树中标中国移动旗下公司1.2亿元人形机器人采购订单;美团加码“0元购”,沪上阿姨忙到闭店
第一财经· 2025-07-13 12:03
人形机器人行业 - 智元机器人和宇树科技中标中国移动旗下公司1.2亿元人形机器人采购订单,其中智元机器人中标7800万元全尺寸人形双足机器人采购包,宇树科技中标4605万元小尺寸人形双足机器人、算力背包、五指灵巧手采购包 [1] - 该订单是国内已披露的最大金额人形机器人订单,中国移动拥有数亿用户资源,有望推动人形机器人进入更广泛的应用场景 [1] - 智元机器人通过协议转让和部分要约收购方式获得上市公司上纬新材至少63.62%股份,成为控股股东,此举可加速其登陆资本市场进程 [4] 互联网平台竞争 - 摩根士丹利将阿里巴巴美股目标价从180美元下调至150美元,主要因预计其外卖和闪购业务投入达100亿元导致短期盈利承压 [2] - 阿里巴巴、美团、京东在即时零售领域展开激烈竞争,外卖业务补贴大战预计持续至年末 [2] - 美团加码"0元购"策略导致部分奶茶店爆单,平台补贴策略出现分化,淘宝侧重常态化作战,京东聚焦高客单价商品补贴 [3] 半导体行业 - 国产DRAM厂商长鑫科技启动上市辅导,辅导机构为中金公司和中信建投 [5] - 长鑫科技2023年Q1市场份额为6%,预计Q4将提升至7.5%,但面临先进DRAM颗粒技术开发挑战 [5] - TCL科技上半年净利润预增81%-101%至18-20亿元,其中半导体显示业务净利润超46亿元,同比增长超70% [6][7] 显示面板行业 - TCL华星显示面板业务增长主要来自:大尺寸电视面板高端化、IT面板收入增长、OLED业务高端化,以及收购LGD广州8.5代线带来的利润增厚 [6][7] - TCL科技新能源光伏业务TCL中环上半年亏损12-13.5亿元 [7] AI视频生成技术 - 拍我AI(PixVerse)上线多关键帧生成功能,支持上传7张图片生成30秒连贯视频,提升创作者对AI视频叙事的控制力 [8] - 多关键帧技术通过语义解析和动作路径优化实现复杂物理交互,推动AI视频生成从技术验证向产业落地发展 [8]
Z Event|字节、快手、爱诗、生数的同学下班一起聊AI?北京线下AI视频生成局报名中
Z Potentials· 2025-07-13 11:31
活动信息 - 活动时间为2025年7月18日周一晚7点 [1] - 活动地点在北京 具体地点报名后通知 [1] - 活动人数限制为6-7人 [1] - 目标人群为大厂 创业公司产品/技术 创业者 [1] - 活动主题为AI视频生成与场景应用 [1] 招募信息 - 公司正在招募新一期实习生 [3] - 公司寻找有创造力的00后创业者 [5] 活动详情 - 活动形式为小而美的聚餐 [5] - 活动目的是交流想法 分享经验 拓展人脉 [5] - 报名截止时间为活动前一日晚8点 名额有限先到先得 [5] - 公司会根据参与者背景和诉求进行合理组合 [5] - 活动旨在让每位参与者都能有所收获 [5]
实测Vidu Q1参考生功能,看到诸葛亮丘吉尔拿破仑在长城拍照留念
机器之心· 2025-07-11 16:27
核心观点 - 生数科技旗下AI视频模型Vidu Q1推出参考生功能,极大简化传统内容生产流程,实现「一个人就是一个剧组」的效果[2][3] - Vidu Q1参考生功能支持零分镜生成,只需上传人物、道具、场景等参考图即可直接融合为视频素材,操作仅需三步[5][17] - 该功能支持1080P视频直出,清晰度高,适用于多种场景如科幻叙事、童话动漫、人物特写等[17] - 当前版本最多支持7个主体输入,可同时处理多张图片并生成复杂互动场景[22][23] - 价格亲民,制作一条5秒1080p视频仅需20积分,标准版套餐48元/月含800积分[31] 功能特点 - **操作简便**:仅需上传照片、写提示词、成片三个步骤即可生成视频[3][5] - **多元素融合**:支持将人物、道具、场景等参考图直接融合为视频,无需分镜设计[5][23] - **高清晰度**:支持1080P视频直出,画质清晰,细节表现力强[17] - **多主体支持**:最多可同时处理7张图片,生成复杂互动场景[22][23] 应用案例 - **历史人物互动**:诸葛亮、丘吉尔、拿破仑在会议室、长城、铁王座等场景中自然互动,视频转场流畅[3][23][29] - **创意场景**:喵星人自拍时狮子靠近、蝙蝠侠与霸王龙对打等脑洞大开的视频生成[11] - **风格融合**:简笔画角色融入宫崎骏动画场景,风格适配度高[14][16] - **道具调整**:自动调整红缨枪大小以适配角色身材,优化画面和谐度[21] 用户反馈 - 社交平台涌现大量创意作品,如硅谷车库中跳舞的雕像、森林自拍的喵星人等[6][7][8][11] - 艺术家和程序员利用该功能实现跨IP角色同框,如1989版蝙蝠侠与1993版霸王龙对打[11] 实测表现 - **宫崎骏风格测试**:简笔画角色成功融入《龙猫》场景,风格一致且生动[14][16] - **多主体挑战**:7张图片输入下生成历史人物长城合照,互动自然但存在轻微图层融合瑕疵[23][26][30] - **道具与场景适配**:红缨枪大小自动调整,铁王座场景中人物互动自然但有遮挡问题[21][28] 价格与性价比 - 5秒1080p视频成本约20积分,标准版套餐48元/月含800积分,单价低廉[31]
1080p飞升4k,浙大开源原生超高清视频生成方案,突破AI视频生成清晰度上限
量子位· 2025-07-01 11:51
视频生成技术瓶颈 - 现有开源视频数据集分辨率普遍低于1080P(1920×1080),且视频说明简单粗糙,制约大模型学习效果 [1] - 主流视频生成模型在720P画质挣扎时面临两大核心瓶颈:分辨率陷阱(低清训练导致4K生成严重失真)和语义鸿沟(简单文本无法控制影视级参数) [3][4] - 电影级4K/8K内容生成亟需超高清数据与结构化语义描述支持 [5] UltraVideo数据集创新 - 全球首个开源4K/8K超高清视频数据集,含22.4%的8K内容,覆盖100+主题,每个视频配备9个结构化字幕及平均824词的总结性字幕 [2][9] - 通过四阶严苛筛选实现质量跃迁:人工精选5000部4K/8K原片+二次审核、统计信息过滤、模型二次过滤(16种缺陷检测)、结构化语义描述框架 [6][7] - 最终构建42K短视频(3-10秒)和17K长视频(10秒+),其中8K视频占比22.4% [9] 技术突破与实验成果 - UltraWan-4K模型实现三大突破:原生4K(3840×2160)直接输出、结构化语义精准控制镜头语言、LoRA轻量化训练单卡可部署 [8][19] - 仅用42K高质量数据微调即显著提升生成质量,1K LoRA方案在多项指标超越全参数训练(如物体分类准确率82.29% vs 66.66%) [13][14][17] - 4K模型在图像质量(71.61%)、时空一致性(100%空间关系)等关键指标表现优异,但受限于33帧率导致部分动态指标下降 [17][19] 行业影响与未来方向 - 首次证明极致质量小样本可突破分辨率天花板,填补高分辨率视频生成研究空白 [21] - 数据集支持UHD视频超分辨率、帧插值、编解码器等底层任务,以及视频编辑、音乐生成等高级应用 [21] - 已全面开源数据集和模型权重,计划探索长视频生成任务 [22][23]
AI视频大战升级:Sora“神话”被打破?国产模型加速商业化落地
华夏时报· 2025-06-28 20:01
全球首部AI单元故事集《新世界加载中》 - 由快手可灵AI与星芒短剧联合出品、异类Outliers团队制作的全球首部AI单元故事集《新世界加载中》于6月26日上线,涵盖东方美学、赛博朋克等多种画风切换[1] - 该剧为业内已知题材涉猎最广、叙事体量最大的AIGC剧集作品,首映礼播放了3部单元剧集[2] - 完全由AI生成但非"一键生成",创作流程需建立阶段性更新的AI制作体系,涉及脚本、美术、动画到算力算法测试等环节[3] AIGC在短剧行业的应用优势 - 短剧因篇幅短、市场快速增长及AI可降低科幻题材特效成本,成为AIGC最先落地的影视内容[1] - AI技术使短剧生产成本降至传统方式的1/2以下,科幻类大场景成本降低比例更显著[4] - 掌阅科技AI短剧《遮天》用1/10时间达到传统方式60-70分水平,尤其在怪兽建模和打斗场景渲染上表现突出[3] 国内AI视频大模型竞争格局 - 快手可灵AI累计迭代超20次,全球用户突破2200万,2.1系列模型拓展专业影视生产场景,2025年Q1营收超1.5亿元[5][6] - 可灵AI年化收入运行率在正式上线第10个月突破1亿美元,月度付费金额连续两月破1亿元[6] - 即梦AI(字节跳动旗下)5月MAU达3065万环比增长39.86%,曾登顶App Store免费榜[5] - 可灵AI 2.1标准版性价比达0.7元/秒,低于友商1元/秒以上的主流1080p模型价格[6] 行业商业化探索现状 - 短剧为国内增速最快的内容类型,AI应用空间巨大但行业仍处早期阶段,商业化数字主要用于验证市场需求[4][6] - 掌阅科技通过《遮天》验证AI在商业化项目中的可行性,而非单纯技术验证[3] - 企业加速布局AI视频模型,可灵AI、即梦AI、Sora、Runway等持续升级抢占高地[5]
AI应用系列报告:AI视频生成:商业化加速,国产厂商表现亮眼
国元证券· 2025-06-27 13:13
报告行业投资评级 - 推荐,维持 [2] 报告的核心观点 - AI视频生成技术从GAN-Transformer-Diffusion Model-DiT演进,推动行业进入可商用阶段,预计2032年全球规模突破184亿人民币,2025至2032年复合增速20% [4] - 行业受价格和模型能力驱动,国产厂商如可灵等表现突出,看好行业发展,建议关注快手和美图公司 [4] 根据相关目录分别进行总结 技术路径:从GAN - Transformer - Diffusion Model - DiT - 20世纪90年代以来,AI视频生成从静态图像序列拼接成视频流开始,历经GAN、Transformer、Diffusion Model到DiT的技术演进,生成内容丰富度和可控性提升 [4][7] - GAN于2014年提出,2016年用于视频生成,存在多样性有限等问题;Transformer于2017年提出,应用于视频生成领域,成本高、速度慢;Diffusion Model由前向和反向过程组成,2020年后在视觉生成领域占主导 [8][15][22] - 2022年DiT架构提出,2024年OpenAI的Sora验证了Diffusion和Transformer结合的有效性,成为核心路线 [8][23] - 快手、可灵、Seedance、腾讯混元等采用DiT架构并进行优化,行业围绕提升效率等目标持续迭代 [30][31] AI视频生成行业:逐步进入可商用阶段,应用及商业化加速 驱动因素:价格和性能共同驱动行业成长 - 全球视频内容流量占比持续攀升,预计2032年AI视频生成全球规模达25.63亿美金,2025 - 2032年复合增速20%,市场营销及广告需求最大,社交媒体应用增长最快 [40] - 价格上,主流模型API单秒价格0.2 - 1元/秒,对比传统视频制作成本有极大替代优势;模型能力上,时长、速度、质量、丰富度等方面不断提升 [4][46][47] 行业应用:B端应用场景多元化,C端内容持续破圈 - 2B应用包括影视内容创作、商业广告等,如电商服装行业和影视短片制作,可解决成本高和周期长的痛点;2C方面,创意玩法拉近与用户距离,内容破圈 [54] 产品及竞争格局:可灵等国产厂商表现突出 - 模型表现上,Seedance1.0、Veo2/3、Kling2.0等居前,国内模型达全球领先水平;商业化上,Runway和可灵表现突出 [58] - 使用量份额上,Kling突出;web端访问量和APP端MAU方面,Sora、Kling等排名靠前 [63] 投资建议及相关标的 快手——可灵产品表现亮眼,商业化加速 - 可灵于2024年6月发布,采用DiT架构并优化,累计迭代超20次,全球用户超2200万,5月访问量达1625万次,美国、中国等为访问量前五国家 [68] - 产品有多种形态和进阶功能,支持视频延长和多图参考,创意特效助力社媒传播;商业化上,营收增速和水平居前列 [74] - 预计2025 - 2027年经调整净利润200.77/246.20/287.21亿元,维持“买入”评级 [70] 美图公司(未覆盖)——AI赋能,与阿里深化合作 - 公司通过自研和采购获取AI模型能力赋能业务,C端产品用户规模领先,AI视频工具Wink月活突破3000万,生产力场景月活用户数增长25.6% [75] - 2024年底全球月活用户数2.66亿,海外用户增长;与阿里签署2.5亿美元可转债协议,将在电商和模型开发领域合作 [75] - 预计2025 - 2027年营业收入42.43/51.69/61.56亿元,归母净利润8.10/10.92/14.58亿元 [76][77]