神秘模型屠榜多日、碾压Seedance 2.0！背后竟是阿里大招：新部门首作实锤，引爆股价拉升

公司产品发布与市场表现 - 阿里巴巴旗下ATH-AI创新事业部自研的AI视频生成模型HappyHorse-1.0，在未公开身份的情况下，于4月初登顶第三方评测平台Artificial Analysis的文本生成视频和图像生成视频（无音频）两项榜单榜首[2][6] - 阿里巴巴于4月10日公开认领该模型，确认其正在内测，即将正式开放，并计划于4月30日上线API访问[2][3] - 该模型登顶引发了公司股价的明显波动，在消息曝光当日开盘后上涨，午后再度拉升[13] 产品技术特点与架构 - HappyHorse-1.0采用独特的音视频联合生成架构，由一个统一的40层Transformer序列同时处理文本、图像、视频帧与音频token，能在单次推理中同步生成视频与音频，实现音画天然同步，无需后期对齐[8][9][12] - 模型核心参数约为150亿，并采用DMD-2蒸馏技术，仅需8步去噪，速度远快于常规扩散模型[12] - 模型支持7种语言的口型同步，包括英语、普通话、粤语、日语、韩语、德语、法语，并内置超分模块，可原生输出1080P视频[12] - 通过MagiCompiler推理加速，在单张H100显卡下，生成256P视频约需2秒，生成1080P视频约需38秒[12] 第三方评测与竞争格局 - 在Artificial Analysis平台的“文本转视频（无音频）”榜单中，HappyHorse-1.0的Elo评分为1,357分，显著领先于第二名字节跳动的Dreamina Seedance 2.0 720p（1,273分）[7] - 在“图像转视频（无音频）”榜单中，HappyHorse-1.0的Elo评分为1,408分，同样领先于第二名Dreamina Seedance 2.0 720p（1,355分）[8] - 文章指出，在纯视觉画质上，该模型在两项榜单中对Seedance 2.0的领先优势，Elo评分相差最多超过100分，最少也不低于50分，远超统计误差范围[13] - 但在包含音频的榜单中，HappyHorse-1.0的领先优势大幅缩小，在文本转视频（含音频）榜单中Elo分为1,234，仅比第二名Seedance 2.0（1,223分）高11分；在图像转视频（含音频）榜单中，其Elo分（1,162分）甚至略低于Seedance 2.0（1,164分），表明其音频生成能力具备竞争力但并非最强项[15][16][17] 行业影响与潜在商业模式 - 有第三方评测团队（CTOL）指出，当前顶尖视频生成模型（如Seedance和谷歌Veo）存在可用性差、定价高昂、内容限制严苛等问题，严重束缚了其应用[19] - 多方消息称，HappyHorse-1.0将采取完整开源策略，包括基础模型权重、蒸馏模型、超分模块及推理代码，且许可协议允许商用与微调[20] - 若实现开源，该模型可能通过提升可用性、降低使用成本和减少限制来改变行业格局，允许开发者在自有设备上永久运行、微调并集成至产品中[20] 公司组织架构调整 - HappyHorse-1.0的研发团队隶属于阿里巴巴于3月16日新成立的Alibaba Token Hub（ATH）事业群下的AI创新事业部，该事业群整合了通义实验室、MaaS业务线、千问事业部、悟空事业部及AI创新事业部五大板块，由CEO吴泳铭直接负责[11] - 模型负责人可能为前快手副总裁、Kling AI技术负责人张迪，他于2025年底加入阿里；或由阿里巴巴副总裁、前谷歌及淘宝搜推算法负责人郑波团队负责[12]