Workflow
Wan 2.1
icon
搜索文档
妙笔生维:线稿驱动的三维场景视频自由编辑
机器之心· 2025-08-19 10:43
三维场景视频编辑技术发展 - 移动摄影设备普及推动三维场景视频编辑需求增长 用户可通过手机或相机快速获取多视角视频 但高效自由编辑这些内容仍是关键挑战 包括添加新物体、去除元素或替换已有部分等能力 在VR、AR和短视频创作中应用前景广泛[2] - 现有经典方法局限在于仅支持预定义三维模型库 限制用户个性化创意表达 且难以处理光影融合和阴影生成等照片级真实感需求 移除物体后的空缺区域填补也缺乏最优解决方案[3] Sketch3DVE技术创新 - 提出基于线稿的三维场景视频编辑方法 用户通过简单线稿即可重塑视频内容 支持个性化添加、移除或替换对象 技术论文发表于SIGGRAPH 2025并入选Video Trailer[3][6] - 支持单张静态图片编辑 用户可先指定虚拟相机路径生成动态视频 再进行任意编辑 突破传统静态图像处理限制[5] - 采用DUSt3R三维重建算法分析场景 输出点云和相机参数 通过深度图对齐和反投影技术实现三维几何一致性 构建基于点云引导的视频生成模型 融合编辑帧、多视角视频和原始视频信息[13][14] 行业技术对比 - 现有视频生成模型分为两类:直接输入相机参数控制视角 或从单图像构建显式三维表示(如NeRF) 但均无法处理含大幅度相机运动的真实视频编辑[8] - 早期视频编辑方法基于Stable Diffusion逐帧处理 新方法利用视频模型提取运动特征 但主要擅长外观编辑 几何结构层面效果较差 难以处理大视角变化场景[9] - 线稿交互方式已广泛应用于内容生成 VIRES和SketchVideo等现有方法面向通用场景 无法保持三维几何一致性 Sketch3DVE填补该技术空白[9][12] 应用效果展示 - 支持首帧线稿标记编辑区域 生成添加/删除/替换物体的高质量结果 新物体具有三维一致性[16] - 可处理含阴影和反射的复杂场景 通过真实视频数据集训练生成合理编辑效果[17] - 支持颜色笔画指定外观 生成自然真实的三维场景编辑 也兼容图像补全方法直接编辑首帧[18][19] - 相比传统模型插入方法 解决了个性化定制不足、渲染失真和物体去除难题 降低专业软件使用门槛[20][22]
三年跃迁中国AI凭什么逆袭美国?
36氪· 2025-06-26 10:29
中国AI技术发展现状 - 中美AI技术差距从2022年显著缩小至2025年不足三个月,中国AI实验室和企业取得巨大进步 [2] - DeepSeek R1模型(2025年5月)与OpenAI o3同获68分评分,阿里巴巴Qwen3 235B A22B评分47分,中美语言模型能力接近 [2] - 中国通过技术创新实现跨越,如DeepSeek R1采用强化学习优化推理能力,参数规模达671B(活跃参数37B),在MMLU-Pro等评测中表现优异 [2] 开放权重战略 - 中国头部实验室采用开放权重策略,与美国闭源形成对比,如阿里巴巴QwQ 32B Preview超越Meta Llama 3.1 405B成为最智能开源模型 [4] - 开放权重降低技术门槛,加速技术扩散并构建生态,如字节跳动Seedream 3.0吸引全球开发者二次开发 [7][8][9] - 阿里巴巴、腾讯、华为等企业2024-2025年陆续推出旗舰开源模型,形成技术共享共识 [9][10] 企业生态协同 - 大科技公司(阿里、腾讯、华为)提供底层模型和平台支持,如阿里ModelScope、华为Pangu系列配套芯片云服务 [16] - AI初创企业专注垂直领域:Moonshot AI专攻长文本处理,MiniMax优化轻量级边缘设备模型 [18] - 跨界玩家(小米、百度、360)将AI融入现有产品,如小米MiMo-7B增强小爱同学,360整合AI至安全软件和办公工具 [19][20] 多模态能力进展 - 中国图像生成模型快速追赶,字节Seedream 3.0(ELO 1111)接近Midjourney V6(ELO 1150),阿里Seedream系列优化中文提示支持 [22] - 视频生成领域中国加速突破,快手Kling 2.0(ELO 1053)和阿里Wan 2.1(ELO 1039)虽落后Google Veo 3(ELO 1247),但本土化应用突出 [25][26] - 大公司整合多模态能力:阿里ModelScope支持图像/视频功能,腾讯Hunyuan提供一站式多模态接口 [28][29] 中美AI竞争与合作 - 基础研究共享仍存空间,如Transformer架构和扩散模型曾依赖全球协作 [33] - 行业标准共建需求显著,中美共同参与联合国教科文组织等国际AI治理框架建设 [34][35] - 商业合作持续存在,中国企业需求英伟达芯片,美国企业寻求中国市场机会 [36]
ICML 2025 | 视频生成模型无损加速两倍,秘诀竟然是「抓住attention的时空稀疏性」
机器之心· 2025-05-07 15:37
AI视频生成技术发展 - AI视频生成技术进入快速爆发阶段,扩散模型展现出接近现实的生成效果,但速度瓶颈成为大规模应用的主要障碍 [1] - 当前主流视频生成模型(如Wan 2.1、HunyuanVideo)在单张H100 GPU上生成5秒720p视频需耗时30分钟以上,其中3D Full Attention模块占推理时间的80%以上 [1][6] Sparse VideoGen解决方案 - 加州伯克利和MIT研究者提出无需重新训练模型的加速方法Sparse VideoGen,通过挖掘注意力机制的空间与时间稀疏性,将推理时间减半 [2][4] - 该方法支持Wan 2.1、HunyuanVideo、CogVideoX等开源模型,适用于T2V和I2V任务,代码已开源并被ICML 2025收录 [4][8] 扩散式视频生成的性能瓶颈 - 基于Transformer的Video Diffusion Transformers(DiTs)在建模长时空依赖方面优势显著,但3D Full Attention带来巨大计算负担 [6] - Attention计算复杂度随分辨率和帧数呈二次增长,远高于普通图像生成模型 [6] Sparse VideoGen核心技术 - 识别Attention Map中的空间稀疏性(Spatial Head)和时间稀疏性(Temporal Head),分别负责局部空间一致性和跨帧时间一致性 [9][10][11][12] - 采用动态自适应稀疏策略,通过在线稀疏模式优化方法(Online Profiling)选择最优稀疏模式,仅需0.1%的Token采样即可实现精准预测 [15][16][17] 算子层优化 - 引入硬件友好的布局转换方法,将帧为主存储改为token为主存储,优化Temporal Head的内存访问模式 [20] - 定制化优化QK-Norm和RoPE模块,QK-Norm平均加速比达7.4倍,RoPE平均加速比达14.5倍 [21] 实验成果 - Sparse VideoGen在H100上使HunyuanVideo推理时间从30分钟降至15分钟,Wan 2.1从30分钟降至20分钟,PSNR稳定在29dB以上 [23] - 该方法展示视频生成模型可通过结构理解+自适应稀疏性实现性能突破,而非单纯扩大模型规模 [24]
传媒行业周报:GPT-4.5发布,DeepSeek“开源周”收官
国盛证券· 2025-03-02 10:55
报告行业投资评级 - 增持(维持) [6] 报告的核心观点 - 本周(2.24 - 2.28)中信一级传媒板块下跌 8.06%,在市场影响下有所回调 [1][10] - 2025 年传媒弹性方向看好 AI 应用及并购重组,AI 应用聚焦新应用映射投资及部分较成熟应用数据跟踪,并购重组重点关注国企方向;稳健方向聚焦出版及游戏 [1] - 《哪吒 2》带动国潮 IP 热度提升,IP 变现产业链值得关注,潮流玩具、影视内容等方向有机会 [1] 根据相关目录分别进行总结 投资聚焦 行情概览 - 本周传媒板块下跌 8.06%,涨跌幅前三板块为钢铁(2.96%)、建材(1.98%)、房地产(1.86%),后三为计算机( - 8.01%)、传媒( - 8.06%)、通信( - 9.62%) [10] - 传媒板块本周涨幅前五为宝通科技(57.6%)、天舟文化(21.6%)等,跌幅前五为光线传媒( - 14.5%)、浙文互联( - 14.9%)等 [13] - 教育&人服板块本周涨幅前五为高途集团(31.5%)、同道猎聘(16.8%)等,跌幅前五为佳发教育( - 12.7%)、国新文化( - 12.8%)等 [14] - 重点港股&中概股上市公司一周走势:泡泡玛特( - 3.6%)、快手( - 13.4%)等 [14] 本周子板块观点 - 资源整合预期关注中视传媒、国新文化等 [2][18] - AI 关注奥飞娱乐、汤姆猫等 [2][18] - 游戏建议关注神州泰岳、恺英网络等 [2][18] - 国企关注慈文传媒、皖新传媒等 [2][18] - 教育关注学大教育、行动教育等 [2][18] - 港股关注腾讯控股、泡泡玛特等 [2][18] 重点事件回顾 AIGC + 游戏 - 2 月 27 日 OpenAI 发布 GPT - 4.5,计算效率比 GPT - 4 提高 10 倍以上,对人类意图理解更深刻,在协助写作和设计方面表现出色 [3][21] - 2 月 28 日 DeepSeek“开源周”收官,期间开源 Fire - Flyer 文件系统等多样化内容 [4][21] - 2 月 26 日阿里开源视频生成模型 Wan2.1,攻克静态图像文字生成,支持在视频中合理生成文字 [5][21] 子板块数据跟踪 游戏 - 近期热门重点游戏包括《问鼎三国 - 策略国战手游》、《剑灵 2》等 [23] - 部分游戏榜单排名有变化,如腾讯《英雄联盟》排名 15(↓5),《金铲铲之战》排名 5(↑3)等 [24] 院线 - 内地电影市场周总票房(2.24 - 2.28)约 4.31 亿元,票房排名前三为《哪吒之魔童闹海》(3.1 亿)、《唐探 1900》(0.42 亿)、《您的声音》(0.23 亿) [24][26] 影视视频 - 2025 年 2 月 24 日至 27 日全平台剧集收视播放量,《难哄》排名第一,全网热度 84.6;综艺《火星情报局第七季》排名第一,全网热度 72.4 [26][27][28]
阿里开源版Sora上线即屠榜,4070就能跑,免费商用
量子位· 2025-02-26 11:51
开源视频生成模型Wan 2.1的技术突破 - 阿里开源14B参数视频生成模型Wan 2.1,在VBench榜单表现超越Sora、Gen-3等竞品 [2] - 模型支持复杂运动细节(如5人同步hip-hop)和静态图像文字生成难题 [3][4] - 采用14B(720P)和1.3B(480P)双版本设计,后者可在消费级显卡(如4090显存8GB+)本地部署 [5][6] 计算效率与硬件适配性 - 4090显卡运行1.3B模型耗时261秒/峰值显存8.19GB,多GPU并行显著加速(如8卡降至112秒) [7] - 14B模型在H800显卡上实现最优效率(T2V任务单卡1838秒,8卡288秒) [7] - 12GB显存的4070显卡可支持1.3B版本运行 [6] 商业化与生态整合 - 全部模型采用Apache 2.0协议,允许免费商用 [8] - 计划集成ComfyUI工具链,降低AI创作者使用门槛 [9] - 提供通义万相平台在线体验(消耗"灵感值")及HuggingFace/魔搭社区本地部署方案 [10][11] 核心技术架构创新 - 主体采用DiT架构,结合T5文本编码器与交叉注意力机制实现多语言支持 [21][22] - 创新3D变分自动编码器设计,通过特征缓存和分块处理使VAE重建速度提升2.5倍 [23][28] - 图像转视频(I2V)技术通过CLIP编码器提取首帧特征,新增投影层优化输入通道 [32][34] 实际应用效果展示 - 突破性支持视频内动态文字生成,文字随材质和载体自然变化 [12][13] - 物理模拟精准(如弓弦抖动、水面过渡)且角色动作连贯(华尔兹转身一致性) [15][16][17] - 用户生成案例显示无需提示词即可实现日漫风格动画(如小狗切菜无畸变) [19]