Workflow
视频生成模型
icon
搜索文档
一个人用AI,也能拍出获奖电影?|看不见的新大陆
搜狐财经· 2026-01-04 00:01
文章核心观点 - 人工智能,特别是视频生成大模型,被视为与蒸汽机、电力、计算机同级别的通用目的技术,将深刻影响所有行业并成为人人可及的基础设施[4][5][9] - 爱诗科技作为一家AI视频大模型创业公司,通过选择“非共识”的视频生成赛道、打造“人人可及”的C端产品、构建“模型-产品-用户”增长飞轮以及追求极致的组织效率,在全球竞争中脱颖而出,其产品“拍我AI”已拥有超1亿用户[6][10][20][22] - 视频生成大模型代表一种全新的生产力范式,正在重构广告、电商、影视等与视频表达相关的行业,使高质量视频内容的创作门槛大幅降低、成本下降[29][31] 行业背景与趋势 - 2022年是AIGC元年,Midjourney和ChatGPT的推出标志着人工智能进入一个让所有普通人深切感受到其强大的新大时代[4] - 通用目的技术(如AI)具备三个特征:影响所有行业、越来越普及和便宜、推广需要时间和组织制度变革[5] - 上一个AI爆发期是约10年前,由深度学习驱动,但主要服务企业且相对小众[4] 公司战略与定位 - 公司创始人王长虎是拥有20年经验的视频AI领域技术老兵,曾任职于微软亚洲研究院和字节跳动人工智能实验室,主导抖音、TikTok的视觉技术架构及视觉大模型从0到1的建设[1][2] - 2023年,在行业普遍看衰视频生成大模型(认为5年内无法落地)时,公司反其道而行,All in视频大模型赛道,做出了全球TOP25的AI APP[6] - 公司的战略定力源于对视频生成将根本性影响B端和C端的认知,以及团队在视频AI领域的深厚积累,这为其赢得了宝贵的领先时间[9][10] - 公司的战略逻辑是:在颠覆性技术早期,共识意味着红海,“非共识但正确”才是创业公司的机会,关键在于赌注需建立在比别人深十倍的认知上[11][12] 产品与市场 - 公司核心产品“拍我AI”是一款视频生成应用,于2024年1月上线,比Sora早一年推出,上线当月访问量便与当时的明星大语言模型处于同一量级[10] - 产品哲学是“让每个人成为生活的导演”,目标是将视频创作从专业门槛变成人人可及的基础设施,近乎偏执地追求“一键生成”的傻瓜式体验[8][14][15] - 2024年10月上线的v3产品全球爆火,用户只需输入文字描述或上传图片即可在几分钟内生成生动视频,极低的使用门槛使其像病毒一样在全球社交网络裂变[15][16] - 产品覆盖超1亿用户,包括C端普通消费者、专业创作者以及B端的广告公司、电商企业、影视团队[6] - 产品模型迭代效率快,每几个月就有新的升级,持续吸引用户[17] 技术竞争力与增长模式 - 公司的视频生成模型在全球榜单中位列第一梯队,例如其“PixVerse V5”模型在相关榜单中排名第一[8] - 公司构建了“模型-产品-用户”三位一体的增长飞轮:顶级模型驱动产品体验,低门槛产品吸引海量用户,海量用户产生的场景化数据反哺模型进化,形成自我加速的闭环[20][21][22] - 公司是全球少有的在模型、产品、用户三个维度都处于第一梯队的公司[22] 组织与运营 - 公司以实现相对于同行10倍的效率为目标,核心依靠精准的技术判断力和扁平化的组织效率[24][25][26] - 精准的技术判断力源于团队在视频AI领域二十年的深耕,使其在复杂的技术路径选择中能减少试错,用更少资源做更大事情[25] - 扁平化的组织文化借鉴自字节跳动,让好的创意或技术思路能以最快速度直达决策并获取资源,减少内耗[26] - 公司注重吸引优秀、有创业意志的人才,以持续更新技术、保持模型前沿、快速找到用户痛点[28] 行业影响与应用前景 - 视频生成大模型正在重构所有与视频表达相关的行业,广告行业已率先应用,例如为电商场景生成产品广告视频[31] - 该技术催生了新行业(如让漫画直接动起来的“漫剧”),并赋能个人创作者,例如已有完全由一人使用“拍我AI”工具创作的电影在青年电影展入围并获奖[29][31] - 视频生成大模型作为一种新的生产力,使更多人能以更快速度、更低成本创造出同等甚至更高质量的内容[31] - AI已成为一种生产力的底层设施,千行百业都将受益[31]
全球功能最全的视频生成模型来了
量子位· 2025-12-17 18:00
公司产品发布 - 阿里发布了新一代通义万相2.6系列模型,该模型一次性覆盖文生视频、图生视频、参考生视频、图像生成和文生图,是目前全球功能最全的视频生成模型 [1] - 该模型在视频创作上推出了Sora2目前还没有的多音频驱动生视频能力,并同步引入了音画同步、多镜头叙事等能力 [2] 视频生成核心能力升级 - **视频参考生成**:支持视频参考,模型能提取其中主体的外观与音色,并结合提示词生成新视频内容,可用于单人表演或双人合拍等场景 [12] - **多镜头叙事**:支持多镜头生成,保持镜头间关键信息一致,可通过简单提示词完成分镜 [12] - **自然声画同步**:在多人对话等复杂场景中,语音与动作匹配更稳定 [12] - **长视频生成**:单条视频最长15秒(参考生视频最长10秒) [12] - **基础能力提升**:在指令理解与执行、画面真实度及整体美学表现等方面均有加强 [12] 视频生成能力实测表现 - **视频参考生成效果**:在主体一致性和提示词理解上做得比较扎实,能实现1:1还原,口型匹配较为准确,动作、表情与台词语义能够对应,但生成结果中的声线并未完全沿用原视频 [11] - **声画同步效果**:在双人剧情对话等复杂场景中,动作与语言能形成完整互动,模型能补全台词并添加与动作匹配的拟声细节,能区分不同角色的情感变化,但在多角色台词绑定上仍有提升空间,偶尔会出现角色说错台词或字幕语音未完全对齐的情况 [13] - **画面质感与美学**:在画面质感和美学呈现方面有提升,能准确呈现如“第一人称赛博城市飞行视角”等复杂提示词,生成具有电影级画面质感、节奏紧凑、科幻感强烈的视频 [13][14] - **多镜头叙事效果**:对多镜头叙事的理解较为到位,镜头中的主要动作和转场均能得到完整呈现,镜头衔接自然,但对于提示词中描述不够充分的抽象动作(如“探头观察”)仍存在理解难度 [15][17][18] 图像生成能力升级 - 图片生成功能在美学理解、人像生成、文字处理、历史文化及知识IP语义理解上带来新升级 [18] - **风格化能力**:能及时掌握并生成新的美学风格,如生成具有高饱和色块拼接、像素风处理的“星露谷风格”插画 [19][20][22] - **人像生成能力**:在人像光影方面的处理更好,能生成具有清晰明暗分区、面部结构立体、肤质细节自然、具有电影感和空间层次感的半身人像 [22][24] - **中英文处理与排版能力**:能生成中英文对照排版的美食宣传海报,在构图排版上判断靠谱,主体突出,文字层级分明,达到成品水准 [25][27] 整体评价与可用性 - 模型在音视频参考、声画同步、风格理解方面表现不错,但在个别场景下仍会出现画面逻辑偏差、多角色台词对不上、复杂动作理解不到位等小问题 [7][28] - 对于日常短视频创作和二创而言,模型已经是可用且好用的水平,用户敢多跑几次而不用每次都碰运气 [7][28][29] - 模型还在多图融合、美学要素迁移、历史知识语义理解上做了提升 [30]
阿里,最新发布!
证券时报· 2025-12-16 17:56
阿里发布新一代视频生成模型万相2.6 - 公司于12月16日发布新一代万相2.6系列模型,该模型面向专业影视制作和图像创作场景进行了全面升级 [1] - 万相2.6是国内首个支持角色扮演功能的视频模型,同时支持音画同步、多镜头生成及声音驱动等功能,是全球功能最全的视频生成模型 [1] - 该模型已同步上线阿里云百炼及万相官网 [1] 模型技术能力与性能提升 - 万相2.6在画质、音效、指令遵循等能力上得到进一步提升 [1] - 模型单次视频生成时长达到国内最高的15秒 [1] - 模型新增了角色扮演和分镜控制功能,能一键完成单人、多人、人与物合拍的视频,并自动实现多镜头切换等专业任务 [1] - 今年9月发布的万相2.5模型在权威大模型评测集LMArena上,其图生视频能力位居国内第一 [1] 应用场景与用户体验 - 角色扮演功能让普通用户能在影视级画面中表现精湛演技,用户上传个人视频并输入风格提示词后,模型可快速完成分镜设计、角色演绎、画面配音等工作 [1] - 该功能可生成镜头叙事完整、具有电影级运镜的短片,仅需几分钟即可帮助用户实现成为电影主角的体验 [1] - 该系列模型旨在满足专业影视级场景的需求 [1]
阿里发布通义万相2.6系列模型 上线国内首个角色扮演功能
证券日报· 2025-12-16 15:09
公司产品发布与升级 - 阿里于12月16日发布新一代万相2.6系列模型,该模型面向专业影视制作和图像创作场景进行了全面升级 [1] - 万相2.6是国内首个支持角色扮演功能的视频模型,同时支持音画同步、多镜头生成及声音驱动等功能,被描述为全球功能最全的视频生成模型 [1] - 该模型已同步上线阿里云百炼平台及万相官网,企业用户可通过阿里云百炼调用模型API,千问APP也将于近期上线该模型并提供更丰富的玩法 [1][2] 产品性能与技术细节 - 万相2.6在画质、音效、指令遵循等能力上较前代有所提升,单次视频时长达到国内最高的15秒 [1] - 模型新增了角色扮演和分镜控制功能,能一键完成单人、多人、人与物合拍的视频,并自动实现多镜头切换等专业任务 [1] - 在分镜控制上,模型通过高层语义理解,能将原始输入构建为具备完整故事线与叙事张力的专业级多镜头段落,并在切换中保持核心主体、场景布局和环境氛围的统一 [2] - 通义万相在模型结构上集成了多项创新技术,可对输入参考视频进行多模态联合建模与学习,提取时序信息的主体情绪、姿态、多角度视觉特征以及音色、语速等声学特征,以实现从画面到声音的全感官一致性保持与迁移 [1] 产品应用与市场地位 - 万相2.6的角色扮演功能让普通用户也能生成影视级画面,例如用户上传个人视频并输入风格提示词后,模型能在几分钟内完成分镜设计、角色演绎、画面配音等工作,生成电影级短片 [2] - 今年9月,阿里在国内率先发布的万相2.5模型(支持音画同步)已在权威大模型评测集LMArena上,使公司的图生视频能力位居国内第一 [1] - 目前,万相模型家族已支持文生图、图像编辑、文生视频、图生视频、人声生视频、动作生成、角色扮演及通用视频编辑等10多种视觉创作能力 [2] - 该系列模型已广泛应用于AI漫剧、广告设计和短视频创作等领域 [2]
阿里发布万相2.6系列模型,上线国内首个角色扮演功能
格隆汇· 2025-12-16 12:50
公司产品发布 - 阿里巴巴发布了新一代万相2.6系列模型 [1] - 该系列模型面向专业影视制作和图像创作场景进行了全面升级 [1] - 全新的万相2.6是国内首个支持角色扮演功能的视频模型 [1] 产品技术特性 - 该模型支持音画同步、多镜头生成及声音驱动等功能 [1] - 该模型被描述为全球功能最全的视频生成模型 [1] 产品部署与上线 - 万相2.6已同步上线阿里云百炼平台 [1] - 万相2.6已同步上线万相官网 [1]
阿里发布电影级视频模型万相2.6
新浪财经· 2025-12-16 12:34
阿里巴巴发布万相2.6视频生成模型 - 阿里巴巴于12月16日发布了新一代万相2.6系列模型,该模型面向专业影视制作和图像创作场景进行了全面升级 [1][3] - 万相2.6是国内首个支持角色扮演功能的视频模型,同时支持音画同步、多镜头生成及声音驱动等功能 [1][3] - 该模型已同步上线阿里云百炼平台和万相官网,企业用户可通过阿里云百炼调用模型API [2][4] 模型核心功能与技术升级 - 万相2.6在画质、音效、指令遵循等能力上得到提升,单次视频生成时长达到国内最高的15秒 [1][3] - 模型新增了角色扮演和分镜控制功能,能一键完成单人、多人、人与物合拍的视频,并自动实现多镜头切换等专业任务 [1][3] - 其角色扮演功能允许用户上传个人视频并输入风格提示词,模型可快速完成分镜设计、角色演绎、画面配音,在几分钟内生成具有电影级运镜的短片 [1][3] - 面向广告设计、短剧制作等场景,通过输入连续提示词,模型能生成包含人物角色和商品的叙事短片,并在多镜头切换下保持主体、场景等关键信息的一致性 [2][4] 产品迭代与市场地位 - 今年9月,阿里巴巴在国内率先发布了音画同步的视频生成模型万相2.5,极大提升了视频创作效率 [1][3] - 在权威大模型评测集LMArena上,万相的图生视频能力位居国内第一 [1][3] - 据悉,千问App也将于近期上线万相2.6模型,并提供更丰富的玩法 [2][4] 产品生态与应用领域 - 目前,万相模型家族已支持文生图、图像编辑、文生视频、图生视频、人声生视频、动作生成、角色扮演及通用视频编辑等10多种视觉创作能力 [2][4] - 该系列模型已广泛应用于AI漫剧、广告设计和短视频创作等领域 [2][4]
首帧的真正秘密被揭开了:视频生成模型竟然把它当成「记忆体」
机器之心· 2025-12-05 12:08
文章核心观点 - 视频生成模型的首帧并非时间起点,而是作为内部“概念记忆体”,存储后续帧需引用的所有视觉实体[2][3][9] - 模型天生具备多对象融合与内容定制能力,但默认状态下该能力极不稳定且难以触发[14][38][43] - FFGo方法通过极轻量级微调(仅需20–50个样本)即可稳定激活模型的潜在能力,无需修改模型结构或使用百万级数据[18][21][44] 研究方法与发现 - 团队通过对Veo3、Sora2、Wan2.2等主流视频模型的测试,验证了首帧作为内容缓存区的现象[11] - 研究发现,基础模型在极罕见情况下能成功完成多对象融合任务,证明能力已存在但无法稳定调用[35][37][38] - FFGo的作用被证实并非赋予模型新能力,而是通过学习“触发机制”使其固有能力变得可控和可靠[40][44][47] FFGo技术方案优势 - 方法仅需20–50个精心筛选的视频样本和数小时LoRA训练,即可实现最先进(SOTA)的视频内容定制[17][21][52] - 相比VACE、SkyReels-A2等现有方法,FFGo无需修改模型结构,且能处理多达5个参考实体,而现有方法限制在3个以内并易出现物体丢失[19][22][31] - 技术能有效保持物体身份一致性、避免灾难性遗忘,并在用户研究中以81.2%的票数大幅领先[31][52] 应用场景与技术实现 - 技术亮点覆盖自动驾驶模拟、航拍/水下无人机模拟、多产品展示、影视制作及多角色视频生成六大场景[24] - 采用VLM(如Gemini-2.5 Pro)自动构建高质量训练集,利用SAM2提取物体掩膜,大幅降低人工工作量[27] - 推理时仅需舍弃模型生成的前4帧压缩帧,真正的混合内容从第5帧开始[28]
视频模型原生支持动作一致,只是你不会用,揭开「首帧」的秘密
36氪· 2025-11-28 10:47
核心观点 - 视频生成模型的第一帧并非简单的时间起点,而是作为模型的“概念记忆体”,存储了后续画面所需的所有视觉元素(角色、物体、纹理、布局等)[1][4] - 模型天然具备融合多参考物体的能力,但这种能力默认情况下不稳定、不可控,难以被稳定激活[4][18][21] - FFGo方法通过极低成本(不改模型结构、仅需20–50个样本、几小时LoRA训练)即可稳定激活模型的这种潜在能力,实现高质量视频定制[6][7][22] 技术原理 - 第一帧作为“概念蓝图”,模型会自动将其中的多个视觉实体打包存储,并在后续帧中复用[4][18] - 基础模型在极罕见情况下可通过特殊转场提示词(如“ad23r2 the camera view suddenly changes”)触发多对象融合,证明能力已存在但不可控[18][21] - FFGo的LoRA训练不是教会模型新能力,而是学习如何稳定触发模型已有的“隐藏GPU”,使其持续发挥作用[22] 方法优势 - 无需修改任何预训练视频模型(如Veo3、Sora2、Wan2.2)的结构[6][7] - 仅需20–50个精心挑选的视频样本和几小时的LoRA训练,避免大规模数据需求[7][15] - 不会导致模型过拟合或灾难性遗忘,保持原模型的泛化能力[7][18][22] - 支持多达5个参考实体同时融合,优于VACE/SkyReels-A2等现有方法(限制在3个以内)[9][17] 应用场景 - 机器人操作(Robot Manipulation)[12] - 自动驾驶模拟(Driving Simulation)[12] - 航拍/水下/无人机模拟(Aerial / Underwater)[12] - 多产品展示[12] - 影视制作[12] - 任意多角色组合视频生成[12] 实施流程 - 使用Gemini-2.5 Pro自动识别前景物体,SAM2提取RGBA mask,并自动生成视频文本描述,构建高质量训练集[15] - 训练时直接舍弃前4帧(Wan2.2的压缩帧),从第5帧开始利用真正的混合内容[16] - 推理时无需特殊处理,仅需提供包含多物体/角色的首帧和文本prompt即可生成交互视频[9] 性能表现 - 在画面一致性、物体身份保持、动作连贯性方面表现强劲[9][18] - 用户研究中以81.2%的票数大幅领先现有方法[26] - 输出画面更自然、更连贯,且能高度匹配文本提示(如wingsuit飞行者与Cybertruck贴合运动)[18][23]
具身智能机器人:2025商业元年底色兑现,2026量产元年基色明晰
格隆汇· 2025-11-28 10:07
文章核心观点 - 2025年是具身智能机器人商业化的关键节点,头部厂商已获得亿元级订单,行业总市值突破3万亿元 [1] - 在OEM、供应链及科技巨头的协同推进下,机器替代人力的效率提升、供应链产能布局及多维技术赋能正加速产业升级 [1] - 2026年产业重点在于特斯拉Optimus的量产预期、国产整机厂的资本化加速以及数据和算力规模效应带来的根本性突破 [3][4] 2025年具身智能机器人产业实际进展 - 整机厂方面,多家头部厂商已获得超亿元订单,优必选累计订单超8亿元,智元机器人累计订单超5.2亿元,应用率先落地于科研教育、文化娱乐及数据采集工厂领域 [1] - 供应链方面,为配合特斯拉2026年量产计划,中国供应商正积极布局泰国等海外产能枢纽,覆盖丝杠、轻量化部件等核心环节 [2] - 科技巨头方面,分化成两类路径:一类如华为对标英伟达模式,聚焦芯片、算力、模型等基础设施建设;另一类如美团、京东基于自身业务场景渗透Physical AI,通过构建平台生态竞争 [2] 2026年具身智能机器人产业重点方向展望 - 特斯拉预计2026Q1发布Optimus V3,马斯克薪酬激励计划的达成目标包括累计100万台人形机器人的交付,短期量产目标波动属合理范畴,建议聚焦机器替代人力的实际进展 [3] - 国产链应重点关注整机厂,港股市场已成为“聚集地”,在“18C章”政策支持下,优必选、越疆等企业已登录港交所,具身智能产业有望迎来千亿元级别市值的整机厂标的 [3] - 具身智能模型的根本性突破取决于数据与算力的规模效应,Vision-Language-Action模型性能随数据规模提升而增强,视频生成模型对算力需求持续增强,率先拥有数据和算力资源的玩家将掌握话语权 [4] 行业板块规模与投资主线 - 截至2025年10月,基于100家企业样本,板块整体市值预计已超3万亿元,行业分布上机械、汽车、电子占据主导地位,公司市值占比分别为26%、22%、22% [7] - 板块变化体现三大主线:市值规模投资主线从“大市值→小市值→大市值”回归;产业进展催生小范围主题型投资;国产链崛起加速 [7]
全新稀疏注意力优化!腾讯最新超轻量视频生成模型HunyuanVideo 1.5核心技术解密
量子位· 2025-11-26 17:33
产品发布与定位 - 腾讯混元大模型团队正式发布并开源轻量级视频生成模型HunyuanVideo 1.5 [1] - 该模型基于Diffusion Transformer架构,参数量为8.3B,支持生成5-10秒的高清视频 [2] - 模型定位为“开源小钢炮”,以8.3B的极轻量尺寸实现开源最佳效果,显著降低使用门槛,可在14G显存的消费级显卡上运行 [6] 核心能力与性能 - 模型支持中英文输入的文生视频与图生视频,具备强指令理解与遵循能力,能精准实现运镜、流畅运动、写实人物和情绪表情等多种指令 [5][7] - 支持写实、动画、积木等多种风格,并可在视频中生成中英文文字 [5] - 可原生生成5–10秒时长的480p和720p高清视频,并通过超分模型提升至1080p电影级画质 [6] - 在10秒视频生成效率上,较FlashAttention3提速1.87倍 [15] 技术架构与创新 - 采用两阶段框架:第一阶段为8.3B参数的DiT模型,第二阶段通过视频超分模型提升视觉质量 [11][12] - 创新提出SSTA稀疏注意力机制,显著降低视频长序列生成的计算开销 [15][17] - 采用多模态大模型作为文本编码器,并引入byT5对文本OCR进行独立编码,增强视频文本元素的生成准确性 [20] - 采用多阶段渐进式训练策略,结合Muon优化器加速模型收敛,优化运动连贯性、美学质量及人类偏好对齐 [20] 质量优化与增强 - 为图生视频和文生视频任务分别定制了不同的RLHF策略,以修正伪影并提升运动质量 [23] - 视频超分系统采用8.3B主模型作为骨干网络,设计潜空间特征上采样模块,并应用基于MeanFlow的蒸馏算法缩短推理时间 [21][22] - 集成模型蒸馏、Cache优化等关键技术,大幅提升推理效率,降低资源消耗 [28] 应用与生态 - 腾讯元宝最新版已上线该模型能力,用户可在元宝中通过文字和图片生成视频 [3] - 模型已在项目主页、Github、Hugging Face等平台开源,并提供技术报告 [31]