Workflow
AI视频生成
icon
搜索文档
爱诗科技联合举办 CVPR 2025第二届高效端侧生成技术研讨会(EDGE)
财富在线· 2025-06-17 16:15
行业动态 - CVPR 2025第二届高效端侧生成技术研讨会(EDGE)在美国田纳西州纳什维尔市成功举办 [2] - 研讨会期间《AdaVid:Adaptive Video-Language Pretraining》和《Scaling On-Device GPU Inference for Large Generative Models》两篇论文获得最高荣誉 [2] 技术突破 - 《AdaVid》论文提出面向多场景迁移的自适应视频-语言预训练框架 [2] - 《Scaling On-Device GPU Inference for Large Generative Models》论文探讨生成式大模型端侧GPU推理的规模化加速方案 [2] 公司参与 - 爱诗科技旗下AI视频生成平台PixVerse作为联合举办方参与本次研讨会 [4] - 公司与全球顶尖学者专家进行学术共创和行业赋能合作 [4]
中信证券:预计快手(01024)可灵TAM规模超千亿美元,25-30年收入CAGR约44.7%
智通财经网· 2025-06-09 11:58
商业化进展 - 可灵AI在正式推出后第10个月实现年化经常性收入(ARR)超过1亿美元,商业化速度超越AI编程明星产品Cursor(耗时约12个月)[2] - 2025年4月和5月,可灵月度付费金额均突破1亿元人民币[2] - 当前70%收入来自专业个人用户(P端),30%来自企业客户(B端),70%收入来自海外市场,30%来自国内[3] 市场潜力 - 可灵AI定位为AGI时代视频创作的新型基础设施,目标客户覆盖自媒体、广告、短剧、影视剧等整个内容生产行业[2] - 基于贝哲斯咨询数据,2023年全球视频制作市场规模9519亿元,预计2029年达15743亿元,可灵的可触达市场(TAM)规模超千亿美元[2] - 截至2025年3月,可灵AI全球用户超2200万,为超1万家企业提供API服务[3] 增长驱动与收入预测 - 核心增长驱动包括全球专业内容创作者数量增长(预计年增10%)、可灵MAU渗透率持续提升(预计从2024E的5%升至2030E的30%)、付费率提升(从2024E的1.5%升至2030E的5%)[3] - 预计2025-2030年可灵收入复合年增长率(CAGR)达44.7%[1][3] 估值与财务影响 - 参考同业估值(如Runway在2024年12月ARR 8400万美元对应30-40亿美元估值),中信证券保守给予可灵36-48x PS(基于当前ARR 1亿美元),对应估值增量约36-48亿美元[3] - 可灵的商业化进展为快手带来显著价值增量,维持快手"买入"评级,目标价70港元[1]
赛道Hyper | PixVerse国内版上线:AI视频市场生变?
华尔街见闻· 2025-06-08 10:32
公司动态 - 全球领先的AI视频生成平台PixVerse于6月6日推出国内版产品"拍我AI",同步上线网页端及移动端应用,并开放最新V4.5模型 [1] - 国内版"拍我AI"延续海外技术优势,采用"App+网页端"双端策略:App端内置百余种创意模板,网页端面向专业创作者提供精细参数调节功能 [7] - 母公司北京爱诗科技近期完成近3亿元A2至A4轮融资,由蚂蚁集团、北京市人工智能产业投资基金等机构投资,资金将用于技术研发、算力扩展及人才团队建设 [7] 产品技术 - V4.5模型在生成速度、画面精细度及多主体控制等方面实现提升,包含四大技术突破:专业运镜系统、多模态融合技术、复杂动作优化、本地化适配 [2][3] - 专业运镜系统集成20余种电影镜头模板,支持焦距变化速度(0.1-10倍速)和镜头抖动幅度(0-5级)等参数调节 [2] - 多模态融合技术支持最多8张图片输入,通过SE(3)等变网络实现多图像空间关系解算,生成20秒完整片段 [2] - 复杂动作优化使动作流畅度相比V4.0提升约30%,减少扭曲与伪影 [3] - 新增中文提示词支持、智能音效匹配及7种语言界面,针对移动端进行模型轻量化 [3] - "毒液变身"特效在TikTok等平台累计播放量达数十亿次,多次登顶多国应用商店榜单 [3][4] 市场表现 - PixVerse自2024年1月海外上线以来累计吸引全球超6000万用户,月活跃用户突破1600万 [3] - 2025年初V4.5版本上线后,其App在美国iOS总榜排名一度位列第四 [5] - 全球AI视频生成领域呈现多元化竞争态势:Runway Gen-4以人物一致性见长,Higgsfield AI强调专业运镜,Kling和Sora在长视频生成上占优 [7] - 国内市场形成快手可灵AI、抖音即梦AI及PixVerse的头部竞争格局 [8] 行业影响 - AI视频生成技术在中国市场进一步渗透,正成为数字内容产业的重要工具 [9] - 技术将重塑内容生产、传播与消费的全链条 [9]
全球圈粉6000万,被国内粉丝催着上线,PixVerse「国内版」一手实测来了!
机器之心· 2025-06-07 11:59
产品发布与市场反响 - 爱诗科技推出国内版AI视频生成工具「拍我 AI」,该产品为全球热门应用PixVerse的本地化版本,已登陆各大应用商店并提供网页端深度体验[4] - 产品上线前已引发国内用户强烈期待,后台收到大量催上线私信,反映出市场对高质量AI视频工具的需求[2][12] - 海外版PixVerse已积累6000万全球用户,月活达1600万,曾位列美国应用总榜第四并登顶视频类应用榜首[13][14] 产品功能与技术特点 - 提供上百种模板支持一键生成同款视频,大幅降低创作门槛,适合新手用户快速上手[6] - 专业功能包括首尾帧控制、多主体合成、运镜设计、视频重绘等,支持短片及电影级创作[8][30][39][40] - 首创5秒内视频生成速度,实测各项指标拉满时生成时间仍不超过1分钟,显著优于行业水平[44] - 底层模型迭代迅速,从V2到V4.5平均每两月更新一版,国内外版本均搭载最新V4.5模型[45] 市场表现与行业地位 - PixVerse上线30天即实现百万访问量,2024年4月达成88天1000万次视频生成的里程碑[17] - 通过病毒式传播的创意模板实现破圈,典型案例包括科目三舞蹈、吉卜力风格等流行内容[18][24][27] - 在专业创作者群体中建立口碑,用户评价显示其渲染稳定性、动作逼真度及运镜功能显著优于竞品[15] 公司战略与竞争优势 - 采用「好玩+好用」双轨策略:降低普通用户参与门槛,同时满足专业创作者高阶需求[49][50] - 形成用户生态良性循环:普通用户模仿专业作品,专业创作者汲取大众创意灵感[51] - 作为成立仅两年的中国初创公司,在视频生成赛道已具备与OpenAI、谷歌等巨头竞争的实力[17] 行业影响 - 产品国内上线将加剧AI视频生成赛道竞争,为行业树立功能丰富度与生成速度的新标杆[47] - 已验证的全球市场成功模式(6000万用户基础)有望在国内复制,可能改变视频创作生态格局[52]
爱诗王长虎、谢旭璋:“不会创业” 的创始人,怎么做出用户量第一的 AI 视频产品
晚点LatePost· 2025-06-06 19:05
公司概况 - 爱诗科技由80后王长虎与90后谢旭璋联合创立,团队组合打破"35岁以下更适合大模型创业"的行业偏见 [3][4] - 公司定位为AI视频生成领域,同时开发底层模型与to C应用产品,全球用户超6000万,是竞品可灵的3倍 [4] - 核心产品PixVerse移动端上线6个月月活达1600万,国内版"拍我 AI"于6月6日正式发布 [4][6] 产品与技术 - 差异化路径:聚焦普通人需求,通过模板化设计(如毒液变身、科目三跳舞等)实现零Prompt操作,用户首条视频即可获万至百万点赞 [4][8][9] - 技术迭代:模型V3将生成成功率提升至近100%,V3.5将等待时间压缩至10秒内,累计更新7版模型 [6][9] - 生成效率:V4模型实现5-7秒生成5秒视频,正在探索实时生成技术以模糊创作与消费界限 [16][17] 市场表现 - 病毒式传播案例:毒液变身模板全球播放量超10亿次,咧嘴笑模板推动PixVerse登顶美国iOS下载榜前五 [6][12] - 商业化进展:订阅收入已覆盖绝大部分成本,现金流接近转正 [7] - 全球化布局:视频内容天然跨语言传播,高GDP国家贡献主要收入,暂未精细化运营区域市场 [12] 行业竞争 - 视频生成第一梯队:国内为爱诗、快手可灵、MiniMax海螺,海外Google表现突出,认为Sora实际效果与demo差距显著 [14] - 对抗大厂逻辑:视频行业持续分化(长/短视频、直播等),新内容形态需增量供给,非存量替代 [10] - 技术壁垒:毒液模板半年未被复现,依赖高质量生成模型与持续用户洞察能力 [12] 战略决策 - 关键转折:2023年6月All in视频生成,抓住当时行业非共识机会 [23][24] - 资源分配:Sora发布后坚持原定技术路线,未盲目追加资源追赶,最终验证模型实效优于Sora [26] - 双引擎驱动:前期以模型技术为核心,后期产品与模型协同进化,产品需求反哺技术方向 [20] 行业趋势 - 技术架构:主流仍为DiT,自回归+Diffusion混合架构显现潜力但存在帧间误差挑战 [15][16] - 交互革命:实时生成将改变视频线性叙事,用户可动态改变剧情走向,视频与游戏界限模糊化 [17][18] - 价值认知:视频生成领域整体被低估,较之大语言模型更少舆论关注但实际商业落地更快 [24][25]
Sora免费首秀遇冷,微软能否借其重振AI视频领域雄风?
搜狐财经· 2025-06-05 21:33
微软推出基于Sora的Bing视频创作器 - 微软Bing宣布新增基于OpenAI Sora模型的视频创作器功能 允许用户通过文本提示生成视频 [1] - 这是Sora首次面向大众免费开放使用 微软终于将Sora模型免费开放给公众 [1] - 几乎同时 Manus公司也推出了原生文生视频功能并嵌入到Agent工作流中 [1] Sora模型发展历程与现状 - Sora模型自诞生起备受瞩目 被誉为"AI视频领域的牛顿时刻" [3] - 微软一直对Sora抱有浓厚兴趣 但OpenAI方面迟迟未给予正面回应 [3] - 微软最终在Bing中上线基于Sora的视频创作器功能 但表现不尽如人意 [3] Bing视频创作器产品表现 - 生成视频质量不及同类产品 如羊驼跳舞视频画面主体辨识度低 背景AI感强烈 [3] - 在视频长度 画面比例 生成速度 多模态融合功能等方面存在明显短板 [3] - 产品力和宣传薄弱 免费开放消息未引起预期热潮 被用户吐槽 [3] 市场竞争格局 - 市场上已有Kling Vidu AI 即梦 PixVerse WanX 谷歌Veo等优秀AI视频生成工具 [9] - 这些产品在视频生成效果 用户体验 商业化方面取得显著进展 [9] - Sora虽仍有技术优势 但在市场竞争中已失去先机 [9] 微软与OpenAI关系变化 - Sora免费开放标志着微软与OpenAI复杂博弈的新阶段 [7] - OpenAI推出自有企业版产品后 微软开始对其产生戒备心理 [7] - 双方管理层矛盾升级 微软内部呼吁尽快将Sora整合进自家产品线 [7] Sora面临的问题 - 发布时间不断延期 高昂定价 复杂安全风险等问题让市场期待降温 [3] - 安全性问题迟迟未解决 YouTube曾指责Sora侵犯其数据版权 [7] - 发布策略一改再改 最终整合进Bing但未能挽回用户失望情绪 [7] 行业影响 - 微软免费版Sora加剧了AI视频行业市场竞争 [9] - 国内厂商需要不断提升技术水平应对来自微软等巨头的挑战 [9]
从“牛顿时刻”到“鸡肋时刻”:微软免费Sora的尴尬首秀
虎嗅· 2025-06-05 18:34
微软Bing视频生成器发布 - 微软Bing推出基于OpenAI Sora模型的视频创作器,首次面向用户免费开放[2] - 功能允许通过文本提示生成视频,但存在明显局限:视频长度仅5秒,画面比例仅9:16,最多排队生成3个视频[12] - 生成速度较慢,Fast模式需几分钟,Standard模式需数小时[12] Sora模型发展历程 - Sora曾被OpenAI誉为"AI视频领域的牛顿时刻",但因延期、高价和安全问题导致市场期待消退[8] - 从2024年初发布到年末上线,期间不断释放小道消息展示能力,但频繁跳票错过黄金发展期[28][31] - 最终发布时被OpenAI CEO称为"视频版的GPT-1"[28] 产品性能对比 - Bing视频生成器效果停留在2024年水准,处理复杂提示词准确性不足,与用户期望有差距[26] - 测试案例显示:羊驼跳舞场景中主体辨识度低,背景AI感强;茶杯场景色彩生硬,视觉效果奇怪[14][22] - 与Sora原版对比,后者在动态光效、动作流畅度和画面协调性上明显更优[15][23] 行业竞争格局 - 中国厂商如快手可灵、字节即梦、通义万相等已完成多次迭代,部分产品已跑通商业化[30][39] - 谷歌Veo3在性能上领先但成本高,而Kling等价格适中产品迅速积累2200万用户[44] - 阿里巴巴通义团队采取开源策略,在开源领域获取关注[43] 微软与OpenAI关系 - 双方从紧密合作到"心生嫌隙",贯穿Sora研发周期[32] - 微软2024年招揽Mustafa Suleyman负责AI业务,意图摆脱对OpenAI依赖[33] - 围绕Sora发布策略和资源支持存在博弈,微软最终获得"副产品"而非完整产品[6][7] 市场影响与展望 - 微软免费策略可能引发新一轮行业竞争,但行动被视为被动追赶而非创新[45] - Sora仍具技术优势,结合微软庞大用户生态可能快速扩大影响力[38][39] - 行业共识认为AI下半场比拼产品能力,场景入口将成为关键[40]
Manus AI能生成视频了,实测发现不少翻车名场面,网友:有种2011年的美
36氪· 2025-06-05 17:26
产品功能与可用性 - 公司推出AI视频生成功能,支持图生视频、文生视频等多模态输入,并借助Agent进行流程规划[1][5][22] - 图生视频功能效果相对可靠,角色一致性尚可,5秒视频消耗44积分,生成速度较快[5][6] - 文生视频效果随机性较强,质量不稳定,完全依赖抽卡机制[4][11][13] - 产品缺乏精细编辑能力,用户无法修改镜头细节、调整人物行为或改变过场动作[22][24] 技术表现与局限性 - 视频生成存在明显抽卡概率问题,质量波动较大,部分输出效果类似2011年水平[4][13] - 对复杂场景处理能力有限,如古画人物动态化时出现人物定格、手部虚影等异常[10] - 生成长视频存在技术限制,原计划60秒视频最终只能生成约20秒的多个5秒片段[18] - 抽象概念理解能力尚可,能正确解析情感语义如"怀旧、沉思"等氛围要求[7] 用户体验与成本 - 功能已向Basic、Plus和Pro用户开放抢先体验,普通用户Basic套餐积分基本够用[1][5] - 5秒视频消耗积分约40-50分,生成时间一般为几分钟[6][7] - 部分场景生成效果可接受,如老水手面对大海场景成功实现风吹浪涌效果[16] - 但多数输出未达预期,如未来城市行走场景缺乏表现力,高考主题视频建议打马赛克[18][20] 产品战略与市场定位 - 公司近期更新节奏加快,陆续上线PPT、图片及视频生成功能,产品形态呈现多模态特征[22] - 目前存在明显流量焦虑,通过功能堆叠和密集迭代刷存在感,但尚未构建完整的用户创作体验[24] - 核心问题在于如何真正留住用户,若无法解决此问题则发展时间有限[24]
腾讯开源的HunyuanVideo-Avatar上传一张图+一段音频,虚拟角色“活”过来
搜狐财经· 2025-06-04 10:48
产品技术特点 - 腾讯开源的HunyuanVideo-Avatar是一个视频生成工具,能够通过上传一张图片和一段音频,让图中的人物、动物或虚拟角色动起来并开口说话、唱歌或表演[1] - 该工具的核心逻辑是"数字人导演",能够从静态图中理解场景,并根据音频情感让角色动起来[3] - 产品包含三个关键模块:1)保留原图细节,避免"网红脸"效果,能精准保留衣服褶皱和背景光影[3] 2)能从音频中提取情感特征,生成细腻表情[4] 3)支持多角色独立互动,唇形、表情、手势和眼神交流自然[5] 应用场景 - 电商直播:可生成24小时在线的AI主播,根据促销文案做出夸张表情刺激用户下单[6] - 音乐平台:QQ音乐用于生成歌手AI分身演唱新歌,酷狗用于长音频绘本虚拟人讲故事,全民K歌支持用户生成专属MV[6] - 影视创作:导演可通过场景草图和旁白脚本生成分镜动画[7] 系统配置要求 - 最低配置需要NVIDIA RTX 3090显卡(24GB显存)才能流畅生成720p视频[8] - 推荐配置为NVIDIA A100显卡(80GB显存)可输出电影级画质[8] - 详细配置要求包括:GPU、内存、存储和CUDA版本[9]
Veo3逼真脱口秀火爆全网,视频生成的GPT时刻到了吗?
第一财经· 2025-05-26 14:38
视频生成技术进展 - Veo 3新增原生音频生成功能,可同步生成环境音和人物对话,突破视频生成的"无声时代" [6] - 配合FLOW剪辑工具形成新一代AI影像工作流雏形,实现文字生成动画的一站式体验 [6][8] - 生成质量显著提升,8秒视频成本1.5美元,相比传统影视制作成本降低10-20倍 [9][12] 技术优势与突破 - 真正实现原生多模态生成,简化传统分步工作流程 [8] - 依托YouTube海量视频数据进行训练,数据质量管理严格 [13] - 具备复杂物理现象推断能力,提升画面真实感 [12] 现存技术局限 - 生成一致性难把控,存在丢台词、对话主体混乱等问题 [16] - 中文支持不佳,错误率较高 [16] - 文生视频模式与主流图生工作流不匹配,商业应用受限 [17] 商业化挑战 - 订阅费用高昂,Ultra套餐每月249.99美元 [18] - 商业项目需额外购买积分,1分半视频成本约70美元 [19] - 成片率低导致实际使用成本进一步上升 [19] 行业影响 - 显著降低创作门槛,可能颠覆传统影视制作模式 [12][13] - 个人创作者可产出质量接近专业团队的作品 [13] - 目前仍处早期阶段,指令遵循是基础性挑战 [16]