Workflow
AI Video Generation
icon
搜索文档
10个视频9个看走眼:连真视频都打Sora水印碰瓷,这世界还能信啥?
机器之心· 2025-10-23 13:09
AI生成视频的普遍性与识别挑战 - 互联网上充斥着大量真假难辨的AI生成视频,例如伪造的“中俄混血女明星回应”视频,其背景签名板和媒体logo均为虚假内容[1] - AI视频的识别难度日益增加,部分视频如寿喜火锅、烤面包等因细节把控精准而极难辨认,用户在无参照物的情况下大多不会质疑其真实性[4] - 存在故意给真实视频添加AI水印以混淆视听的现象,例如通过“Sora Maker”网站可为任何真实视频打上Sora水印,加剧了信息辨别的困难[11][13] AI视频识别技术的局限性 - 传统的鉴别方法如观察人物眼睛闪烁、口型不匹配或背景扭曲等已因技术迭代而基本失效[14] - 通过视频时长进行判断的方法也不再可靠,因AI模型已具备首尾帧续写功能,理论上可生成无限时长的视频[14] - 现有AI检测工具的准确率参差不齐,例如CatchMe工具在测试中对AI视频的生成概率检测结果为0%,准确率不高[21] 现有的AI内容检测工具 - AI or Not工具宣称在公开数据集上的检测准确率达到98.9%,可对图像、文本、音乐、声音和视频进行多模态检测,但视频检测需付费[16][17][18][22] - Deepware Scanner是一款专注于检测深度伪造视频的免费工具,但使用时常出现“无法扫描”的情况[24][25] - Google SynthID Detector并非通用鉴定器,其功能仅限于识别内容是否带有谷歌AI模型的SynthID水印[28][29] 行业监管与应对措施 - 中国国家网信办等四部门已于2025年9月1日开始施行《人工智能生成合成内容标识办法》,强制要求AI合成内容打上“电子水印”[9] - OpenAI在推出Sora2时也采取了为生成视频打水印的方式,以应对假信息泛滥和社会信任危机风险[7][10]
字节大佬创业,40天狂揽5.2亿融资!产品超1亿人在玩
搜狐财经· 2025-10-17 23:25
融资情况 - 爱诗科技于近期完成1亿元人民币B+轮融资 投资方包括复星锐正、同创伟业、顺禧基金等 [3] - 此前在9月10日公司完成B轮融资 金额超过6000万美元(约4.27亿元人民币)由阿里巴巴领投 创下国内视频生成领域单次最大融资额 [3] - 公司在2024年相继完成A2至A4轮融资 累计金额近3亿元人民币 A2轮由蚂蚁集团投资 [10] - 公司最早于2023年8月完成数千万元人民币天使轮融资 [10] 公司业务与产品 - 爱诗科技成立于2023年4月 专注于AI视频生成大模型及相关产品的研发应用 [3] - 公司是国内首个发布DiT架构视频生成模型的初创公司 [3] - 2024年1月面向海外市场推出首款产品PixVerse 以模板化视频生成为主要特色 [5] - 2025年6月推出面向国内用户的产品“拍我AI” [5] - 自研视频生成大模型已完成五次重要更新 共发布八个版本 [5] - 最新版本PixVerse V5于8月27日上线 重点优化动态表现、画面清晰度、一致性处理与指令响应能力 [5] - 同时上线Agent创作助手 帮助用户简化创作流程 无需复杂提示词即可制作视频 [5] 经营业绩与用户规模 - 公司产品用户规模已突破1亿 年度经常性收入(ARR)超过4000万美元(约2.85亿元人民币) [5] - 产品月活跃用户(MAU)超过1600万 [5] - 公司自2024年11月商业化至今不到一年时间 收入增长超过10倍 [5] - 是过去一年全球收入和用户增长最快的AI平台之一 [5] 市场认可与行业地位 - PixVerse在9月入选a16z“全球Top 50生成式AI消费级移动应用”榜单第25位 [8] - 根据数据机构AIGCRank数据 PixVerse在9月网站访问量增长超过26.91% [8] - 创始人兼CEO王长虎曾任字节跳动视觉技术负责人 从0到1参与抖音与TikTok等产品的视觉能力建设 [3]
当Sora2遇上国产 Vidu Q2,国产参考生真的更香了!一手亲测
量子位· 2025-10-10 19:24
文章核心观点 - AI视频生成领域的竞争已从单纯技术效果转向满足实际应用需求,关键在于技术能否成为可靠的生产力工具[39][40][41] - Vidu Q2参考生视频与Sora 2在多个维度上表现接近,但各自优势不同,Vidu在操作灵活性和一致性方面表现突出,Sora 2在音视频同步输出方面有优势[37][38][9] - 行业未来的竞争焦点是构建包含创意、生成、编辑、分发与商业化的完整生态,而不仅是视频生成效果[42][43] Vidu Q2参考生视频功能特点 - 功能支持上传多达7张参考图,并让图片联动生成视频,提供专业模式及多种参数自定义选项,如时长(2-8秒)、清晰度(1080p)、宽高比和生成数量(1-4个)[7][8][9] - 该功能于去年9月全球首次提出,Vidu Q2是其参考生视频的第5个迭代版本,预计本月底将有重大更新[4][6][46] 技术能力对比:一致性 - 在一致性测试中,Vidu Q2生成的人物和道具(如包包)全程无异常变化,道具颜色与原图高度相符[12][13][14] - 同样的提示词下,Sora 2生成的内容在基本一致性上存在不足,道具(包包)颜色和形态(如包带数量)发生变化[16] 技术能力对比:遵循物理规律 - 在遵循物理规律的复杂场景测试(如镜面反射舞蹈动作)中,Vidu Q2整体表现良好,仅存在少量细节错误[21][22][23] - Sora 2在处理包含写实人物的图像时存在限制,替换为动漫人物后仍无法生成,改用文字提示生成的结果在人物数量和音乐搭配上完成度较高,但出现无关人员(摄影师)[25][26] 技术能力对比:运镜技巧 - 在运镜测试中,Vidu Q2的镜头语言更符合日常动漫风格,能够实现从近景到远景再到特写的流畅切换和跟随[31][32][33] - Sora 2通过不停切镜来渲染紧张氛围,与Vidu Q2的运镜方式各有优势[34][35] 行业发展趋势与竞争壁垒 - AI视频技术正朝着工业化生产方向发展,一致性等功能是实现AI短剧、数字人广告等商业应用的基础,具有战略价值[41][42] - 行业竞争壁垒在于构建完整生态,Vidu已基于产品矩阵构建了主体库共享生态、商业化生态和创作者生态[43] - 技术的快速迭代正推动技术成熟和成本降低,这场竞赛被视为AI视频生产力革命的开始[44][45]
火爆如斯!即便存在使用限制,Sora APP首周下载量超过了ChatGPT
华尔街见闻· 2025-10-09 11:47
核心观点 - OpenAI视频生成应用Sora在iOS平台首周下载量达62.7万次,超越ChatGPT首周的60.6万次下载量,表现强劲 [1] - 尽管采用邀请制访问模式,Sora仍在发布后三天内登顶美国App Store总榜第一,超越Claude和Copilot等主要AI应用 [1][2] 市场表现与下载数据 - Sora在9月30日上线后,于10月1日达到单日iOS下载峰值107,800次,此后日下载量维持在84,400至98,500次区间 [2] - 即使扣除加拿大市场贡献的约45,000次下载,Sora在美国市场的首周表现仍达到ChatGPT首周成绩的96% [2] - 该应用上线首日即跃居美国App Store总榜第三位,并于10月3日成功登顶 [2] 发布策略与用户反响 - Sora采用邀请制发布策略,与ChatGPT的公开发布形成对比,但其在有限用户群体中实现了高下载转化率 [2] - 基于Sora 2视频模型生成的逼真深度伪造内容在社交媒体平台广泛传播,推动了用户关注和下载 [2] 社会影响与争议 - 用户利用该技术制作已故人物的AI生成内容,引发争议并促使相关家属公开要求停止此类行为 [3]
Sora2,AI视频生成的ChatGPT时刻
2025-10-09 10:00
行业与公司 * 行业涉及AI视频生成与多模态大模型领域,以及AI应用层(社交、电商、广告营销、游戏等)[1][2][7] * 主要讨论的公司是OpenAI及其新产品Sora 2(模型与应用)[1][2][5] * 同时提及字节跳动(OmniHuman 1 5)和可灵(2 5 TURBO)在AI视频生成领域的进展[8] * 文档还列举了多个可能受益的A股及海外上市公司,包括中文在线、华策影视、万兴科技、昆仑万维、阅文集团、光线传媒、上海电影、捷成股份、焦点科技、值得买、易点天下、蓝色光标、凯英网络、巨人网络等[22][23][24][25] 核心观点与论据 **Sora 2的技术突破与产品功能** * 模型性能实现三大核心突破:音视频同步生成(同步误差小于120毫秒)、物理真实性与可控性(物理动作场景符合率从41%提升至88%)、创新客串功能(基于神经辐射场技术,包含超过200个面部控制点)[3][4] * 核心功能模块包括文生视频(生成过程需30~90秒)、图生视频、混音和客串[5] * 产品定位为“AI版Ins朋友圈”或“TikTok”,核心聚焦熟人关系及低成本remix共创,通过极简交互(上下滑浏览、左右滑共创)和客串功能解决AI加社交的结合问题[12] **Sora 2的战略意义与行业影响** * 标志着AI应用层创新周期的开启,上线后获得美区App Store免费榜第一名,超越ChatGPT和谷歌的Gemini[1][9] * 是OpenAI构建整体AI操作系统的重要起点,通过插件机制、多模态API等功能,逐步向AI原生操作系统靠近,有望带来生态系统大爆发[1][11][26] * 其意义在于OpenAI为产品打造模型,而非为模型寻找产品的新思路,是真正意义上的AI原生应用[18] * 通过邀请码机制形成社交裂变,早期数据显示其活跃用户中的创作者比例高达30%,有望吸引全球开发者与普通用户共创内容[6][15] **AI产业发展趋势** * 趋势包括:多模态模型能力持续增强(如谷歌V U3也能实现文生视频音画同步)、AI重塑创作者和内容生态、用例渗透率不断提升并向平台化转化[7][21] * 未来大模型厂商可能演变为工具类产品厂商、平台生态厂商或社交应用厂商[21] * AI视频生成正从辅助创作向自主生成阶段切换,模型在时序连贯性、角色稳定性等方面不断突破[8] **其他重要AI应用进展** * ChatGPT推出即时结账功能,用户可直接在聊天页面完成商品购买,无需跳转外链,对电商分发逻辑产生重大影响[19][20] * 在游戏行业,AI技术用于创作,凯英网络参投公司预计2025年内推出基于AI真人陪伴的社交应用EVE[25] 其他重要内容 **商业化与成本模型** * AI应用走向平台端可降低获客成本,形成规模效应和网络效应,但AI模型训练和推理成本会随用户使用量线性上升[16] * 目前成功的AI应用集中在高付费意愿、高附加值领域(如广告营销、金融法律、教育)[16] * Sora作为UGC IP创作平台,盈利空间与IP价值及社交价值紧密挂钩,商业化需关注算力利用度、用户网络效应、用户付费能力及商业闭环能力[17] **市场前景与催化因素** * 下游侧(视频影视、电商、广告营销、游戏)整体位置相对较低,但未来发展潜力较大[27] * 近期催化因素包括OpenAI开发者大会、10月至11月各大海外公司财报发布、中美关税谈判等[21]
Disney: AI Video Generation Will Supercharge IP-Rich Entertainment Giants
Seeking Alpha· 2025-10-09 00:02
作者背景 - 作者为全职价值投资者,擅长使用经典价值比率构建投资组合 [1] - 作者过往专业背景包括在家族办公室从事私人信贷和商业地产夹层融资 [1] - 作者能流利使用中文进行商务及法庭场景交流,并曾担任法庭口译员 [1] - 作者成年后大部分工作时间在中国及亚洲地区度过,曾与顶级商业地产开发商合作,包括The Witkoff Group、Kushner Companies、Durst Organization和Fortress Investment Group [1] 持仓披露 - 作者通过持股、期权或其他衍生品方式,对迪士尼和谷歌公司的股票持有有益的多头头寸 [2] - 文章内容代表作者个人观点,且作者未因撰写该文章获得除Seeking Alpha平台以外的任何补偿 [2] - 作者与文章提及的任何公司均无业务关系 [2]
AI视频生成“暗战”起风
华尔街见闻· 2025-09-29 08:01
行业商业化进展 - AI视频生成赛道已实现用户付费,而大语言模型的同类模式尚未跑通[1] - 2024年6月,Runway年化营收超过9000万美元(约6.4亿元人民币)[1] - 2025年第二季度,快手旗下AI视频生成应用"可灵"创收超过2.5亿元人民币[1] - 生数科技的Vidu上线8个月年化经常性收入(ARR)突破2000万美元(约1.4亿元人民币)[9] - 爱诗科技的拍我订阅收入已经覆盖成本[9] 主要市场参与者 - 国内市场参与者包括字节、快手、百度等互联网大厂以及生数科技、爱诗科技等初创公司[4] - 生数科技的"Vidu"和爱诗科技的"拍我"用户数均已突破千万[2] - 群核科技计划年内发布针对C端消费者的AI视频生成产品,并拥有庞大的室内空间数据集优势[2][10] 技术能力突破 - 2024年2月,OpenAI的Sora 1.0支持生成长达60秒视频,实现突破性进展[3] - 当前国内AI视频生成模型一次生成时长基本在5秒-10秒,但可通过镜头组合形成连贯长视频[4] - 百度蒸汽机升级后支持生成无限长度AI视频,突破了5-10秒的局限[8] - 长视频生成技术引入自回归扩散模型,结合自回归长序列能力和扩散一致性强优势[8] 具体应用场景 - 影视行业是AI视频生成技术的第一批尝鲜者[5] - 50集动漫短剧《明日周一》80%内容由生数科技Vidu生成,10人团队45天完成制作,效率较传统一周制一集提升至少7倍[6] - 快手"可灵"客户群体涵盖大众创作者、电商及广告从业者和影视制作工作室[7] - 市场想象空间延伸至机器人训练等场景,可为机器人提供虚拟场景进行训练[11] - 快手计划扩大"可灵"在游戏制作、专业电影以及视觉制作中的应用[12] 产品定价策略 - 标准版定价差异较大:可灵66元、Vidu59元、拍我79元、即梦79元[9] - Vidu和即梦"加量不加价",分别可生成200个/月、216个/月视频,而可灵、拍我只能生成数十个[9] - 行业出现价格战,百度蒸汽机定价低至行业70%,可灵2.5 Turbo模型比2.1模型同档位便宜近30%[10] 技术挑战与优化 - AI视频生成模型存在空间一致性、内容拼接崩坏问题,实测中出现脸部表情崩坏、物体凭空消失等现象[13] - 核心难点在于模型对长时序运动轨迹与多尺度语义连贯性的精准建模[13] - 问题根源在于当前算法基于2D图像序列学习,未能真正理解3D空间关系和物理世界逻辑[14] - 生数科技通过自研U-ViT架构、构建大规模视频数据集、引入动态遮罩与一致性补偿算法进行优化[15] - 群核科技推进3D视频生成工作流研发,以降低穿模和畸变[15] 数据资源与隐私 - 高质量数据集是AI视频生成模型公司渴求的训练素材[16] - Meta因被指控下载2396部成人电影训练AI模型而面临诉讼[17] - 国内视频平台如快手、抖音在用户数据使用方面拥有更多弹性空间和优势[18] - 快手的隐私政策允许其为广告目的与第三方合作伙伴读取用户部分信息与数据[18]
阿里巴巴投出AI视频生成赛道最大单笔融资
新浪财经· 2025-09-16 16:10
融资情况 - 爱诗科技完成B轮融资 总金额超过6000万美元[1] - 由阿里巴巴领投 达晨财智、深创投、北京市AI基金、湖南电广传媒、巨人网络和Antler跟投[1] 行业地位 - 创下国内视频生成领域单次最大融资记录[1] 投资方构成 - 本轮融资参与方包括战略投资方阿里巴巴及多家财务投资机构[1]
好莱坞特效师花300多块钱,用AI做了一部科幻短片
第一财经· 2025-08-21 20:57
AI视频生成技术发展 - AI视频生成技术取得显著进展 视觉效果可媲美实拍 如科幻短片《归途》中异形生物追击和巨型蜘蛛爬楼场景栩栩如生[1] - 技术实现重大突破 视频生成告别"默片"时代 实现多角色语音和环境音效一体化生成 百度蒸汽机模型实现多人有声视频一体化生成[4][5] - 当前技术存在明显局限 AI生成人类"AI味儿"浓 演技生硬 声画口型不同步 视频时长仅达5-10秒[4][5] AI视频生成成本效益 - 成本优势极其显著 传统实拍或CG制作需几百万元成本 复杂镜头单个成本达几十万至上百万元 而AI生成同等内容成本仅约330.6元人民币[3][4] - 成本结构呈现指数级增长特征 视频时长从10秒延长到20秒甚至100秒 成本可能增加100倍[6] - 百度采取价格竞争策略 打出"对标行业七折"价格标签冲击市场[6] 视频生成市场竞争格局 - 市场竞争激烈 参与者包括科技巨头和创业公司 快手可灵AI营业收入超过2.5亿元 字节、阿里、腾讯等巨头以及MiniMax、生数科技、爱诗科技等创业公司均布局该赛道[5] - 技术迭代快速 谷歌Veo3模型能生成环境音和人物对话 百度蒸汽机模型实现多人有声视频一体化生成[4][5] - 行业处于起始阶段 各厂商通过竞争互相启发技术上限[6] 商业化应用驱动因素 - 市场需求变化推动技术发展 2024年底短剧投流市场爆发 传统剪辑和AI生图无法满足创意需求 广告主直接提出科幻场景生成需求[4] - 百度转变战略布局 从最初不碰Sora类生成到因商业体系具体需求启动自研 项目代号"MuseSteamer"[4] - 当前主要用户包括内部业务部门、专业领域创作者和企业客户 上线50天最大用户来自百度内部包括搜索业务和移动生态创作者[5]
速递|Moonvalley发布首个公开数据训练的AI视频模型Marey:如何实现360度镜头控制与物理模拟
Z Potentials· 2025-07-09 13:56
公司技术 - Moonvalley推出"3D感知"混合模型Marey 通过结合文本提示与手动控制为电影制作人提供更强操控性 区别于标准文本转视频模型[1] - Marey基于公开授权数据训练 避免AI生成内容涉及版权材料的法律风险 针对规避诉讼的电影制作人群体[1] - 模型支持5秒片段生成 符合行业标准 提供14 99美元/100积分至149 99美元/1000积分的订阅服务[1] 产品功能 - 实现物理世界模拟能力 如遵守运动定律 可替换视频主体(野牛→凯迪拉克)并保持环境互动(草叶尘土响应)[3][4] - 支持自由镜头运动 通过鼠标拖拽实现平移滑动变焦 接近360度视角调整 模拟手持/轨道拍摄效果[5] - 具备背景替换功能 保留主体同时转换场景(郊区道路→乡村公路) 未来将新增光照调节/深度轨迹等控制[5] 应用案例 - 独立制片人Ángel Manuel Soto使用Marey降低20%-40%制作成本 解决传统设备租赁的高资金门槛[2] - 应用于影视全流程 包括拍摄前场景测试与后期镜头角度调整 控制物体/角色/动作/构图等要素[2] - 曾用于HBO纪录片《Menudo: Forever Young》制作 通过收购Asteria(XTR)工作室强化内容生产能力[2] 行业定位 - 直接对标Runway Gen-3/Luma Dream Machine等AI视频生成器 强调差异化控制能力[5] - 技术对标Google Veo 3和OpenAI Sora 共享物理世界理解能力 但更早开放商业化应用[3] - 创始团队含DeepMind前研究人员 具备谷歌视频模型开发经验 技术背景深厚[1]