Workflow
AI视频生成
icon
搜索文档
硬刚Sora2,万相2.6轻松定制角色、控制分镜,普通人也能当导演
机器之心· 2025-12-17 13:28
行业年度回顾与趋势 - 2025年视频生成领域发展突飞猛进,视频内容创作范式正在发生改变 [1] - 行业在B端和C端商业化落地速度惊人:B端大量AI短剧、漫剧上线,制作成本大幅降低;C端社交平台出现爆款特效,大量博主开始常态化使用AI制作剧情短片 [1] - 顶尖模型生成的画面在光影质感与物理规律上已臻化境,但用户体验门槛依然存在,如高不可攀的内测资格或不菲的订阅费用 [1] 公司产品发布与定位 - 阿里于12月16日正式发布新一代万相2.6系列模型,涵盖文生视频、图生视频、参考生视频、图像生成和文生图共5款模型,是目前全球功能覆盖最全面的视频生成模型家族之一 [2][3] - 万相2.6是**国内首个**具备声画一致性角色定制能力的模型,能通过角色参考固定IP形象,并参考输入视频中的音色,实现从画面到声音的完美复刻 [3] - 该版本进一步提升了画质、音效和指令遵循能力,单次视频生成时长实现了**国内最高的15秒**(参考生视频为10秒) [3] - 模型已同步上线阿里云百炼和万相官网,企业用户可直接调用API,千问APP也将于近期上线 [3] 核心技术能力突破 - 万相2.6具备“参考生视频”能力,成为**全球唯二、国内首个**拥有此能力的模型,允许将任意人或物设定为主角,在多镜头切换中保持核心主体、场景和环境氛围的统一 [7] - 模型在结构上集成了多项创新技术,可对输入参考视频进行多模态联合建模与学习,提取主体的时序情绪、姿态、视觉特征及音色、语速等声学特征,实现从视觉到听觉的全感官一致性迁移 [9] - 模型具备“分镜控制”功能,通过高层语义理解将简单提示词转换为多分镜脚本,生成包含多个镜头的连贯叙事视频,确保内容、节奏和氛围的高一致性 [3][9] 产品功能实测与效果 - 实测中,万相2.6能精准提取参考素材中主体的形象特征、声音声线及惯用神态,并可通过提示词将其置入全新剧情 [11] - 在多角色声画同步测试中,模型对科技人物(如奥特曼、哈萨比斯、黄仁勋)的眉眼微表情、肢体语言及习惯性动作还原度极高,英文版能完美复刻其原本的声线与语调 [13][14] - 在细节把控测试中,模型能生成电影级高保真度的特写镜头,完美呈现如眼镜片因热气起雾、皮肤细微纹理和毛孔“呼吸感”等复杂细节,打破了AI生成人物常见的“塑料感” [17][18] - 在长叙事能力测试中,模型展现出了类似专业导演的运镜意识,能通过推拉摇移和景深变化掌控叙事节奏,并高度还原设定的视觉风格与人物情绪 [24] 图像生成能力升级 - 万相2.6在静态图像生成领域完成了版本迭代,在“高美学”与“强可控”上同时迈进 [26][27] - 在文生图方面,新模型实现了对艺术风格的“灵魂捕捉”,对肌理、色彩、笔触等细节刻画更为到位,并能进行平滑自然的风格融合 [27] - 针对人物写实照片,2.6版本综合优化了构图与光影,削弱了“AI塑料感”,人物神态更自然,肤质真实感大幅提升 [29] - 新版本改善了在图片中生成中英文文本的能力,并新增了“图文混排输出”和“多图融合生成”等功能,能依据逻辑创作具有叙事性的绘本或复杂商品组合场景 [31] - 模型提供了商用级的一致性保持能力,以及更精确的镜头远近视角和光影效果控制选项 [33] 应用场景与市场影响 - 万相2.6面向广告设计、短剧制作等专业场景展现出惊人潜力,通过连续提示词能生成完整叙事的短片 [16] - 万相模型家族已支持文生图、图像编辑、文生视频等10多种视觉创作能力,已广泛应用于AI漫剧、广告设计和短视频创作等领域 [35] - 万相2.6的发布标志着AI视频生成告别“抽卡”时代,迈向了精准可控的电影级创作新阶段,将昂贵的影视工业特权折叠进了手机和云端 [36]
千问App接入视频生成模型万相2.6
每日经济新闻· 2025-12-17 11:30
截至12月17日,千问App公测满一个月,一个月来,这款App迅速迭代,共计更新18个版本。 (文章来源:每日经济新闻) 每经上海12月17日电(记者陈婷)12月16日,阿里千问App同步上线最新视频生成模型万相2.6,并向所 有用户免费开放。基于该模型的核心能力,千问App上线"AI小剧场"功能,在国内首次实现"角色合 拍"玩法,用户可与朋友或名人轻松同框出演AI短片。 据了解,"AI小剧场"玩法即基于该模型的角色扮演新功能,目前,仅美国大模型公司OpenAI旗下的 Sora2大模型有类似功能。 ...
商汤发布Seko2.0:已能连贯创作百集短剧,适配寒武纪
南方都市报· 2025-12-17 09:01
"对用户而言几乎无感,可以通过国产化芯片拿到同样质量的视频产出。"王子彬向南都湾财社记者坦 言,从英伟达生态迁移到国产芯片,研发端确实经历过模型调优、通信及并发等挑战,但最终效果已基 本一致。更关键的是,这一适配带来了成本优势。 业内人士指出,视频生成属于非实时任务,相较于对延迟极度敏感的实时交互场景,更适合国产芯片发 挥其高性价比的优势。王子彬透露,随着模型结构蒸馏技术的应用以及与寒武纪等国产硬件的联合优 化,推理成本下降约50%,意味着AI视频工具的边际成本将持续降低。 AI视频生成正在从"炫技"的阶段,加速进入"算账"的商业落地期。 12月15日,商汤科技发布首个创编一体、多剧集生成智能体——Seko 2.0。与以往单纯强调生成效果不 同,此次更新将核心能力指向了"多剧集的一致性",更披露了在国产化算力适配上的重要进展。 南都湾财社记者从发布会上获悉,商汤日日新Seko系列模型已实现对国产AI芯片寒武纪的适配。商汤 Seko产品负责人王子彬在接受南都湾财社记者采访时透露,通过模型蒸馏、算子优化及国产芯片适配, Seko目前的推理成本下降了约50%。 这一数据的披露,意味着AI视频赛道竞争焦点正在逐步转移 ...
一键生成电影级短片,阿里发布万相2.6视频模型
国际金融报· 2025-12-16 14:59
公司产品发布与技术升级 - 阿里于12月16日发布新一代万相2.6系列模型,该模型面向专业影视制作和图像创作场景进行了全面升级[1] - 万相2.6是国内首个支持角色扮演功能的视频模型,同时支持音画同步、多镜头生成及声音驱动等功能,被官方称为全球功能覆盖最全面的视频生成模型之一[1] - 相比今年9月发布的万相2.5版本,新版本在画质、音效与指令遵循能力上均有显著提升,单次视频生成时长达到目前国内最高的15秒[1] - 万相2.6新增了角色扮演与分镜控制功能,使得模型能够一键生成包含单人、多人或人与物互动的视频内容,并可自动完成多镜头切换等专业影视任务[1] - 该模型已同步上线阿里云百炼平台及万相官网[1] 核心技术特点 - 技术层面,万相2.6通过对参考视频进行多模态联合建模,同步提取时序化视觉特征与声学特征,在生成过程中实现画面与声音的全感官一致性迁移[1] - 在分镜控制方面,模型能基于高层语义理解构建具备完整故事线的多镜头段落,并在镜头切换中保持主体、场景与氛围的统一[1] 应用场景与行业影响 - 该模型进一步降低了专业视频制作的门槛,用户上传一段个人视频并输入风格提示词,万相2.6即可自动完成分镜设计、角色演绎与画面配音,生成电影级短片[2] - 在广告设计、短剧制作等场景中,连续提示词可驱动模型生成叙事连贯、镜头语言专业的视频内容[2] - 目前,万相模型家族已支持文生图、图像编辑、文生视频、角色扮演等十余项视觉创作能力,广泛应用于AI漫剧、广告创意及短视频制作等领域[2]
阿里发布电影级视频模型万相2.6,人人都能当电影主角
格隆汇· 2025-12-16 14:11
(原标题:阿里发布电影级视频模型万相2.6,人人都能当电影主角) 12月16日,阿里发布新一代万相2.6系列模型,该系列模型面向专业影视制作和图像创作场景进行了全 面升级,全新的万相2.6是国内首个支持角色扮演功能的视频模型。该模型同时支持音画同步、多镜头 生成及声音驱动等功能,是全球功能最全的视频生成模型。据记者了解,万相2.6已同步上线阿里云百 炼、万相官网。 今年9月,阿里率先在国内发布音画同步的视频生成模型万相2.5,极大提升视频创作的效率,在权威大 模型评测集LMArena上,万相图生视频位居国内第一。此次发布的万相2.6进一步提升了画质、音效、 指令遵循等能力,单次视频时长实现国内最高的15s,万相2.6还新增了角色扮演和分镜控制功能,不仅 能一键完成单人、多人、人与物合拍的视频,还能自动实现多镜头切换等专业任务,满足专业影视级场 景需求。 万相2.6是国内首个支持角色扮演功能的模型,能参考输入视频中的角色外观和音色、实现角色扮演, 按照提示词生成单人、多人、人与物合拍的视频 据介绍,通义万相在模型结构上集成了多项创新技术,可对输入参考视频进行多模态联合建模与学习, 参考具有时序信息的主体情绪、姿 ...
阿里发布通义万相2.6系列视频生成模型,上线国内首个角色扮演功能 | 钛快讯
钛媒体APP· 2025-12-16 13:22
12月16日消息,阿里发布新一代万相2.6系列模型,该系列模型面向专业影视制作和图像创作场景进行 了全面升级,全新的万相2.6是国内首个支持角色扮演功能的视频模型。该模型同时支持音画同步、多 镜头生成及声音驱动等功能,是目前全球功能最全的视频生成模型。万相2.6已同步上线阿里云百炼、 万相官网。 今年9月,阿里率先在国内发布音画同步的视频生成模型万相2.5,极大提升视频创作的效率,在权威大 模型评测集LMArena上,万相图生视频位居国内第一。 此次发布的万相2.6进一步提升了画质、音效、指令遵循等能力,单次视频时长实现国内最高的15s,万 相2.6新增了角色扮演和分镜控制功能,不仅能一键完成单人、多人、人与物合拍的视频,还能自动实 现多镜头切换等专业任务,满足专业影视级场景需求。 万相2.6是国内首个支持角色扮演功能的模型,能参考输入视频中的角色外观和音色、实现角色扮演, 按照提示词生成单人、多人、人与物合拍的视频 据介绍,通义万相在模型结构上集成了多项创新技术,可对输入参考视频进行多模态联合建模与学习, 参考具有时序信息的主体情绪、姿态和多角度全面视觉特征,同时提取音色、语速等声学特征,在生成 阶段作为参 ...
商汤发布业内首个多剧集生成智能体Seko2.0
证券日报网· 2025-12-15 19:43
本报讯 (记者李乔宇) 12月15日,商汤集团股份有限公司(以下简称"商汤")正式发布Seko2.0。作为AI视频生成行业首个创 编一体、多剧集生成智能体,Seko2.0专为当下炙手可热的短剧、漫剧行业的个人创作者与工作室量身 打造,让"一人剧组"变成可能。 此前,Seko1.0已成功帮助大批创作者摆脱了在多工具间疲于切换、为复杂提示词耗费心力的困扰。 2025年7月Seko1.0上线后,仅用两个月的时间即实现用户量突破10万,不到半年已聚集超20万创作者, 其中30%为短剧创作者、20%为漫剧创作者,成为高浓度的创作者社区。 全新Seko2.0能够在加速创意落地的同时,进一步降低创作门槛。具体来看,新Seko2.0实现全新UI升 级,突出视觉效果呈现,打造沉浸式创意体验;支持多剧集生成功能,实现超长上下文管理,支持100 集以内剧本的连续创作;实现Agent智能调度,不同剧集中,人物场景道具灵活关联,人物妆造可随场 景改变。 从成本来看,AI短剧、漫剧的多剧集创作涉及海量分镜,仅一个5秒视频就需生成接近10万token,若一 键生成10~20个分镜,总token需求量更将高达100万~200万。对此,商汤提 ...
AI视频进入“连续叙事”时代:“一致性”成商业化发展瓶颈
21世纪经济报道· 2025-12-15 17:23
过去一年,AI视频生成技术完成了从"能不能动"到"动得像不像"的关键跃迁;而进入2025年下半年,行业集体面对一个更深层、也更棘手的问 题:内容能否持续? 当Sora、Pika、Runway等模型纷纷展示出令人惊艳的单镜头生成能力后,市场很快意识到,真正的挑战并不在一帧画面的逼真度,而在十集、 二十集剧情推进中——角色是否"还是那个人"?场景是否"仍在同一个世界"?尤其在短剧、漫剧、品牌系列广告等强调连续性的内容形态中, 主体一致性(即角色在多集中保持外貌、服装、表情等特征不变的能力)、资产可复用性与工作流连贯性,已成为决定AI视频能否走出Demo、 走向商业闭环的关键门槛。 在此背景下,工具平台的角色正在发生深刻转变——它们不再只是模型能力的展示窗口,而是内容生产基础设施的构建者。其背后折射出一个 日益清晰的行业共识:AI视频的下一阶段竞争,已从"生成能力"转向"可持续创作能力"。 商汤科技Seko产品负责人王子彬对此有着切身感受:"如果只是做一两个一两分钟的短片,收费效率是很低的。"他指出,要解决这一问题,必 须转向长剧集创作。 在他看来,长内容的核心价值在于实现可衡量的投资回报(ROI),而其基础正是" ...
国产芯片也能跑AI视频实时生成了,商汤Seko 2.0揭秘幕后黑科技
机器之心· 2025-12-15 16:10
机器之心报道 编辑:杨文 自 Sora 2 发布以来,各大科技厂商迎来新一轮视频生成模型「军备竞赛」,纷纷赶在年底前推出更强的迭 代版本。 视频来自 Seko 官网,创作者:噪维 AIGC 谷歌推出 Veo 3.1,通过首尾帧控制和多图参考解决了以往视频生成「抽卡」随机性太强的问题;Runway 拿 出 Gen-4.5,强化了物理模拟和表情动作迁移;快手祭出 Kling 2.6,实现了原生音画同步…… 各家都在炫技,但一个更本质的问题却常被忽略:这些模型距离真正的生产力工具,究竟还有多远? 12 月 15 日,商汤科技产品发布周正式开启,第一天就重磅上线了全新的 Seko 2.0 版本 ,让 AI 短剧创作真 正实现「一人剧组」。 比如只需输入一句简单的提示词,它立马就能策划剧本大纲,生成分镜和视频,整个过程相当麻溜。 视频来自 Seko 官网,创作者 : 小铭 AI 百宝箱 无论是 1 分半钟的 3D 艺术风格的动画短片: 还是唇形同步精准的数字人音乐 MV,Seko 2.0 也都能在最短时间内信手拈来。 视频来自 Seko 官网,创作者 : AI 制片人 Webb 作为行业首个创编一体、多剧集生成智能体 ...
迪士尼向OpenAI投资15亿美元 给旗下IP进行AI视频生成
搜狐财经· 2025-12-12 08:44
合作核心内容 - 华特迪士尼公司与OpenAI达成一项总额约15亿美元的战略投资与合作协议 [1] - 合作核心是OpenAI获得迪士尼旗下庞大知识产权的授权,将其AI视频生成模型Sora向迪士尼的创意内容生态开放 [1] 协议具体条款 - 根据为期三年的独家授权协议,Sora的用户将能够使用超过200个来自迪士尼、漫威、星战、皮克斯等品牌的经典角色进行短视频创作 [3] - 部分精选的AI生成内容未来有望在迪士尼流媒体平台Disney+上播出 [3] - 协议规定,OpenAI需为使用迪士尼IP支付授权费用 [3] - 迪士尼通过此次投资,获得了在未来以当前约5000亿美元估值增持OpenAI股份的权利 [3] - 迪士尼员工也将获得使用ChatGPT等OpenAI工具进行内部产品开发的权限 [3] 合作战略背景与意图 - 合作宣布前一天,迪士尼刚向谷歌发去警告信,指控其AI图像工具"Gemini"大规模生成并传播涉及迪士尼角色的侵权内容 [3] - 分析认为,迪士尼选择与OpenAI联手,意在对其主要竞争对手谷歌形成制衡 [3] 内容安全与战略价值 - 协议包含了严格的内容安全条款,禁止在创作中使用迪士尼角色涉及毒品、酒精、成人内容或与其他公司IP进行不当互动 [4] - OpenAI CEO强调了对年轻用户保护的重要性,并称赞迪士尼是"开放的合作伙伴" [4] - 迪士尼CEO表示,AI技术有助于吸引并留住年轻观众 [4] - Sora让用户在30秒短片中与角色互动的功能对迪士尼尤其有价值 [4]