硬刚Sora2，万相2.6轻松定制角色、控制分镜，普通人也能当导演

行业年度回顾与趋势 - 2025年视频生成领域发展突飞猛进，视频内容创作范式正在发生改变 [1] - 行业在B端和C端商业化落地速度惊人：B端大量AI短剧、漫剧上线，制作成本大幅降低；C端社交平台出现爆款特效，大量博主开始常态化使用AI制作剧情短片 [1] - 顶尖模型生成的画面在光影质感与物理规律上已臻化境，但用户体验门槛依然存在，如高不可攀的内测资格或不菲的订阅费用 [1] 公司产品发布与定位 - 阿里于12月16日正式发布新一代万相2.6系列模型，涵盖文生视频、图生视频、参考生视频、图像生成和文生图共5款模型，是目前全球功能覆盖最全面的视频生成模型家族之一 [2][3] - 万相2.6是国内首个具备声画一致性角色定制能力的模型，能通过角色参考固定IP形象，并参考输入视频中的音色，实现从画面到声音的完美复刻 [3] - 该版本进一步提升了画质、音效和指令遵循能力，单次视频生成时长实现了国内最高的15秒（参考生视频为10秒） [3] - 模型已同步上线阿里云百炼和万相官网，企业用户可直接调用API，千问APP也将于近期上线 [3] 核心技术能力突破 - 万相2.6具备“参考生视频”能力，成为全球唯二、国内首个拥有此能力的模型，允许将任意人或物设定为主角，在多镜头切换中保持核心主体、场景和环境氛围的统一 [7] - 模型在结构上集成了多项创新技术，可对输入参考视频进行多模态联合建模与学习，提取主体的时序情绪、姿态、视觉特征及音色、语速等声学特征，实现从视觉到听觉的全感官一致性迁移 [9] - 模型具备“分镜控制”功能，通过高层语义理解将简单提示词转换为多分镜脚本，生成包含多个镜头的连贯叙事视频，确保内容、节奏和氛围的高一致性 [3][9] 产品功能实测与效果 - 实测中，万相2.6能精准提取参考素材中主体的形象特征、声音声线及惯用神态，并可通过提示词将其置入全新剧情 [11] - 在多角色声画同步测试中，模型对科技人物（如奥特曼、哈萨比斯、黄仁勋）的眉眼微表情、肢体语言及习惯性动作还原度极高，英文版能完美复刻其原本的声线与语调 [13][14] - 在细节把控测试中，模型能生成电影级高保真度的特写镜头，完美呈现如眼镜片因热气起雾、皮肤细微纹理和毛孔“呼吸感”等复杂细节，打破了AI生成人物常见的“塑料感” [17][18] - 在长叙事能力测试中，模型展现出了类似专业导演的运镜意识，能通过推拉摇移和景深变化掌控叙事节奏，并高度还原设定的视觉风格与人物情绪 [24] 图像生成能力升级 - 万相2.6在静态图像生成领域完成了版本迭代，在“高美学”与“强可控”上同时迈进 [26][27] - 在文生图方面，新模型实现了对艺术风格的“灵魂捕捉”，对肌理、色彩、笔触等细节刻画更为到位，并能进行平滑自然的风格融合 [27] - 针对人物写实照片，2.6版本综合优化了构图与光影，削弱了“AI塑料感”，人物神态更自然，肤质真实感大幅提升 [29] - 新版本改善了在图片中生成中英文文本的能力，并新增了“图文混排输出”和“多图融合生成”等功能，能依据逻辑创作具有叙事性的绘本或复杂商品组合场景 [31] - 模型提供了商用级的一致性保持能力，以及更精确的镜头远近视角和光影效果控制选项 [33] 应用场景与市场影响 - 万相2.6面向广告设计、短剧制作等专业场景展现出惊人潜力，通过连续提示词能生成完整叙事的短片 [16] - 万相模型家族已支持文生图、图像编辑、文生视频等10多种视觉创作能力，已广泛应用于AI漫剧、广告设计和短视频创作等领域 [35] - 万相2.6的发布标志着AI视频生成告别“抽卡”时代，迈向了精准可控的电影级创作新阶段，将昂贵的影视工业特权折叠进了手机和云端 [36]