AIGC视频
搜索文档
奖金20万,首个视频生成一致性全球挑战赛启动!北大牛津等联手推出,昇腾平台复现额外加分
量子位· 2025-10-17 17:45
赛事概述 - 由北京大学、牛津大学、新加坡国立大学、香港科技大学、南开大学等多所高校联合举办CVM视频生成一致性挑战赛,将在AAAI 2026期间亮相 [1] - 赛事旨在攻克AI视频生成领域的一致性问题,推动技术从片段化生成迈向真正的逻辑世界构建 [3] - 华为为赛事提供计算平台与奖金支持,其中主赛道冠军奖金高达20万元人民币 [10] 行业挑战与赛事目标 - 随着AI视频生成技术发展,“一致性”已成为制约其迈向高质量与大规模应用的关键瓶颈 [4] - 当前视频生成模型普遍存在逻辑断裂、时空错乱、角色外观突变等问题,源于对世界知识一致性、镜头一致性、身份ID一致性的掌握不足 [5] - CVM挑战赛致力于解决“最后一公里”问题,建立视频生成领域首个权威、标准化的评测体系,推动AIGC视频从炫技走向可信、可用 [6] 赛道设置与评选标准 - 比赛设立主赛道和创意赛道两大赛道 [10] - 主赛道面向算法研究者,参赛者需提交视频生成模型,挑战世界知识一致性、镜头一致性、元素ID一致性三大维度 [11][12] - 创意赛道面向所有创作者,不限模型、主题、时长,可使用Sora、可灵、Pika、Runway、Vidu、Pixverse等任意工具,视频作品将在抖音、X/Twitter等官方社交媒体展播,综合观看量、点赞、转发与评论进行评选,冠军奖金1万元 [13] 赛事流程与技术要求 - 主赛道参赛者须在初赛提交视频,决赛提交模型权重与代码复现,在华为昇腾平台成功复现可获得150分额外加分 [13] - 报名截止日期为2025年11月15日,主赛道初赛为2025年12月25日,决赛为2026年1月12日 [14]
Instant4D:分钟级单目视频的4D高斯泼溅重建(NeurIPS 2025)
具身智能之心· 2025-10-15 19:03
核心技术:Instant4D 方法概述 - 提出Instant4D现代化全自动流程,可在数分钟内重建任意单目视频,实现30倍加速[5][6] - 引入网格剪枝策略,将高斯函数数量减少92%,同时保留遮挡结构,使其可扩展至长视频序列[6] - 提出简化、各向同性、运动感知的单目设置4DGS实现,在Dycheck数据集上性能比当前最先进方法提高29%[6] 技术流程与优化 - 采用可微SLAM方法MegaSAM获取相机位姿,并通过视频一致优化深度得到密集点云,对4秒512×512视频序列反投影可得约30百万个原始3D点[8] - 通过体素滤波将密集点云稀疏化,仅保留每个已占用体素内点的质心,以减少冗余和解决遮挡问题[8] - 基于四维高斯初始化,可在2分钟内完成场景重建,并利用动静蒙版对静态和动态区域设置不同时间缩放以优化渲染[7][13] 性能表现与效率 - 在Nvidia数据集上实现0.02分钟优化时间、822 FPS(480×270分辨率)和676 FPS(860×480分辨率)的实时渲染速度,以及23.99 PSNR的渲染质量,相比InstantSplat和Casual-FVS实现8倍加速和10倍实时渲染速度提升[17] - 在Dycheck数据集上,Lite版本实现0.03小时优化时间、1.1GB内存占用和23.02平均PSNR,Full版本实现0.12小时优化时间、8GB内存占用和24.52平均PSNR,相比基线实现30倍加速[20] - 各向同性高斯设计固定旋转R=I,使用空间/时间各一标量缩放,提升单目优化稳定性,并根据实验将渲染质量PSNR提升1.25 dB[12]
行业最大融资,字节离职大哥搞AI视频:阿里投资4.3亿 用户破亿
36氪· 2025-09-16 20:25
融资与公司背景 - 爱诗科技完成B轮融资,金额超过6000万美元(约4.26亿元人民币),由阿里巴巴领投,此融资额打破了国内AIGC视频领域的最大单轮融资记录 [1] - 公司创始人王长虎拥有深厚的AI视频背景,曾在中国科技大学攻读计算机视觉相关博士,并在微软亚洲研究院工作8年,后担任字节跳动AI Lab总监,主导抖音和TikTok的视频AI能力从0到1建设 [1] 产品与市场策略 - 公司产品策略采用先海外后国内的路径,于2024年1月推出海外版AI视频生成工具PixVerse,用户可通过输入照片或文字生成高质量视频 [2] - 2025年6月推出国内版产品“拍我 AI”,该赛道竞争激烈,面临字节跳动(剪映、即梦)、快手(可灵)等国内巨头以及Runway、谷歌、OpenAI等国际巨头的竞争 [3] - 阿里巴巴的入股为公司带来生态资源支持,包括算力、AI技术、应用场景合作和资金,有助于其在与巨头的竞争中立足 [3] 商业模式:To C 业务 - To C端主要通过订阅会员服务盈利,例如每月98元的会员费,为用户提供更高视频生成质量、无广告等特权 [4] - 其他To C盈利方式包括付费下载或购买内容包、虚拟礼物与打赏分成、以及视频内插入广告并与创作者按播放量等指标分成 [5] - 公司全球用户规模已突破1亿,其订阅收入据称已能够覆盖成本 [7] 商业模式:To B 业务 - To B端业务于2025年年初展开,服务形式包括API接口和定制化视频生成服务,主要应用场景集中在广告、短剧和游戏等领域 [7] - 具体服务包括为游戏公司提供角色动作设计、场景资产批量生成,为广告客户产出SKU定制广告与真人口播素材等 [7] - To B商业模式还包括SaaS订阅服务、定制化视频制作、行业解决方案、数据智能服务以及数字人IP商业化服务 [6] 行业挑战与竞争格局 - To B模式面临客户认知偏差的挑战,客户核心诉求是“通过内容达成业务指标”(如转化率),而非使用AIGC工具本身 [10][11] - 技术进化存在瓶颈,未来3-5年内难以实现一键生成客户满意的高质量视频,从AI生成初稿到最终交付仍需大量人工干预 [12] - 客户需求非标准化导致匹配成本高、规模化难度大,同时行业存在大厂挤压和价格战等内卷现象,压缩了创业公司的利润空间 [13][14] 全球市场案例与潜力 - 虚拟人方向潜力显著,英国公司Synthesia通过AI虚拟人视频制作服务,在获得Adobe战略投资时其年度经常性收入(ARR)已突破1亿美元 [15] - AI视频生成与创意工具领域,美国公司Runway提供从图像转视频到移动端编辑的全套方案,其2024年12月的预计当月年化收入达到8400万美元 [15] - 视频广告领域展现强大变现能力,腾讯广告2024年全年收入达1214亿元人民币,同比增长20%,其AIGC创意平台提升了广告素材的生产效率和点击率 [15]
赛道Hyper | 百度取道特定场景攻略AGI视频
华尔街见闻· 2025-07-03 08:57
百度进军AI视频生成领域 - 公司推出视频生成MuseSteamer模型及"绘想"平台 瞄准搜索、广告和推荐场景的原生化内容生产痛点 [1] - 与Sora等通用视频生成模型不同 公司选择聚焦特定场景的视频生成 避免长期投入风险 [1][7] - 技术团队解决了中文语境下多模态语义对齐的核心挑战 实现视觉元素与声音信息的自然协同 [1][2] MuseSteamer模型技术特点 - 采用"场景颗粒度拆解"方案 将亿级中文视频数据分为23个高频场景 并细分为"动作-情绪-效果"三级标签 [2] - 在电商场景中 模型能精准理解"这件裙子垂感很好"等描述 并匹配对应的音画表现形式 [2] - 支持一体化生成带音效和人物台词的视频 可生成5秒和10秒两个版本 均达到1080p清晰度 [4] 商业化应用与竞争优势 - 推出Turbo、Lite和Pro三个版本 分别面向中小商家试错成本敏感和专业机构时间成本痛点 [4][6] - 有声版支持粤语、川语等8种方言即时生成 大幅降低区域化营销内容的边际制作成本 [7] - 与百度广告平台深度协同 利用亿级用户互动数据优化模型 形成数据壁垒 [9] 行业竞争格局 - 快手可灵AI在1080p模式下生成5秒视频仅需不到60秒 年化收入运行率突破1亿美元 [7] - 公司采取差异化竞争策略 专注搜索、广告等商业场景而非泛娱乐内容 [7][8] - 模型生成的视频可直接接入百度信息流广告系统 实现"创作-分发-反馈"闭环 [8] 技术落地与行业趋势 - 行业竞争焦点从"能不能生成"转向"生成的内容能不能用" [11] - 公司通过精准捕捉商业场景需求 提供技术落地的可行范式 [11] - 填补传统视频制作流程中的效率洼地 推动AIGC视频工具的商业化应用 [11]