Workflow
Wan 2.1
icon
搜索文档
三年跃迁中国AI凭什么逆袭美国?
36氪· 2025-06-26 10:29
中国AI技术发展现状 - 中美AI技术差距从2022年显著缩小至2025年不足三个月,中国AI实验室和企业取得巨大进步 [2] - DeepSeek R1模型(2025年5月)与OpenAI o3同获68分评分,阿里巴巴Qwen3 235B A22B评分47分,中美语言模型能力接近 [2] - 中国通过技术创新实现跨越,如DeepSeek R1采用强化学习优化推理能力,参数规模达671B(活跃参数37B),在MMLU-Pro等评测中表现优异 [2] 开放权重战略 - 中国头部实验室采用开放权重策略,与美国闭源形成对比,如阿里巴巴QwQ 32B Preview超越Meta Llama 3.1 405B成为最智能开源模型 [4] - 开放权重降低技术门槛,加速技术扩散并构建生态,如字节跳动Seedream 3.0吸引全球开发者二次开发 [7][8][9] - 阿里巴巴、腾讯、华为等企业2024-2025年陆续推出旗舰开源模型,形成技术共享共识 [9][10] 企业生态协同 - 大科技公司(阿里、腾讯、华为)提供底层模型和平台支持,如阿里ModelScope、华为Pangu系列配套芯片云服务 [16] - AI初创企业专注垂直领域:Moonshot AI专攻长文本处理,MiniMax优化轻量级边缘设备模型 [18] - 跨界玩家(小米、百度、360)将AI融入现有产品,如小米MiMo-7B增强小爱同学,360整合AI至安全软件和办公工具 [19][20] 多模态能力进展 - 中国图像生成模型快速追赶,字节Seedream 3.0(ELO 1111)接近Midjourney V6(ELO 1150),阿里Seedream系列优化中文提示支持 [22] - 视频生成领域中国加速突破,快手Kling 2.0(ELO 1053)和阿里Wan 2.1(ELO 1039)虽落后Google Veo 3(ELO 1247),但本土化应用突出 [25][26] - 大公司整合多模态能力:阿里ModelScope支持图像/视频功能,腾讯Hunyuan提供一站式多模态接口 [28][29] 中美AI竞争与合作 - 基础研究共享仍存空间,如Transformer架构和扩散模型曾依赖全球协作 [33] - 行业标准共建需求显著,中美共同参与联合国教科文组织等国际AI治理框架建设 [34][35] - 商业合作持续存在,中国企业需求英伟达芯片,美国企业寻求中国市场机会 [36]
ICML 2025 | 视频生成模型无损加速两倍,秘诀竟然是「抓住attention的时空稀疏性」
机器之心· 2025-05-07 15:37
AI视频生成技术发展 - AI视频生成技术进入快速爆发阶段,扩散模型展现出接近现实的生成效果,但速度瓶颈成为大规模应用的主要障碍 [1] - 当前主流视频生成模型(如Wan 2.1、HunyuanVideo)在单张H100 GPU上生成5秒720p视频需耗时30分钟以上,其中3D Full Attention模块占推理时间的80%以上 [1][6] Sparse VideoGen解决方案 - 加州伯克利和MIT研究者提出无需重新训练模型的加速方法Sparse VideoGen,通过挖掘注意力机制的空间与时间稀疏性,将推理时间减半 [2][4] - 该方法支持Wan 2.1、HunyuanVideo、CogVideoX等开源模型,适用于T2V和I2V任务,代码已开源并被ICML 2025收录 [4][8] 扩散式视频生成的性能瓶颈 - 基于Transformer的Video Diffusion Transformers(DiTs)在建模长时空依赖方面优势显著,但3D Full Attention带来巨大计算负担 [6] - Attention计算复杂度随分辨率和帧数呈二次增长,远高于普通图像生成模型 [6] Sparse VideoGen核心技术 - 识别Attention Map中的空间稀疏性(Spatial Head)和时间稀疏性(Temporal Head),分别负责局部空间一致性和跨帧时间一致性 [9][10][11][12] - 采用动态自适应稀疏策略,通过在线稀疏模式优化方法(Online Profiling)选择最优稀疏模式,仅需0.1%的Token采样即可实现精准预测 [15][16][17] 算子层优化 - 引入硬件友好的布局转换方法,将帧为主存储改为token为主存储,优化Temporal Head的内存访问模式 [20] - 定制化优化QK-Norm和RoPE模块,QK-Norm平均加速比达7.4倍,RoPE平均加速比达14.5倍 [21] 实验成果 - Sparse VideoGen在H100上使HunyuanVideo推理时间从30分钟降至15分钟,Wan 2.1从30分钟降至20分钟,PSNR稳定在29dB以上 [23] - 该方法展示视频生成模型可通过结构理解+自适应稀疏性实现性能突破,而非单纯扩大模型规模 [24]
月访问用户环比激增113%,被低估的可灵AI终于迎来爆发?
雷峰网· 2025-03-07 14:21
自去年6月发布以来,可灵AI已经迭代升级20余次,最新发布的1.6模型在文本响应度、动态质量、模型画 面质量等方面均有明显的效果提升。在大模型测评网站 artificialanalaysis.ai 的排名中,可灵AI位列前 茅,技术实力处于国际第一梯队。 | CREATOR | NAME | ARENA ELO | # APPEARANCES | | --- | --- | --- | --- | | Google | Veo 2 | 1144 | 5,500 | | Kuaishou | Kling 1.5 (Pro) | 1080 | 78,730 | | S OpenAl | OpenAl Sora | 1076 | 98,442 | | MiniMax | MiniMax T2V-01 | 1064 | 122,840 | | Pika Art | Pika 2.0 | 1064 | 61,240 | | Alibaba | Wan 2.1 14B | 1063 | 5,326 | | 80 Kuaishou | Kling 1.6 (Standard) | 1056 | 34,054 | | -19 ...
阿里开源版Sora上线即屠榜,4070就能跑,免费商用
量子位· 2025-02-26 11:51
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 开源模型,还是得看杭州。 前脚发完QwQ-Max,阿里就在深夜开源了视频生成模型 Wan 2.1 ,14B参数直接 屠榜VBench ,什么Sora、Gen-3通通不是它的对手。 从官方Demo中看,复杂运动细节非常到位, 5个人一起跳hip-hop也能做到动作同步 。 而且在静态图像生成中都还是老大难问题的 文字 ,现在也被万相给攻克了。 当然了,14B的参数量说大不大,但在个人消费级显卡上本地部署还是比较吃力的。 不过14B (支持分辨率720P) 之外,还有一个1.3B的小号版本 (支持分辨率480P) ,在一块 4090上占用显存是8个多GB ,消耗时间4 分21秒。 如此观之,用12GB的 4070,也是能带动的 。 | | | | Computational Efficiency of Wan2.1 | | | | | --- | --- | --- | --- | --- | --- | --- | | | | | (time(s)/ peak memory(G)) | | | | | GPU | Model | Resolution | ...