文生视频

搜索文档
实测可灵AI的新视频模型,它生成的动作戏酷到封神。
数字生命卡兹克· 2025-09-22 09:33
产品能力提升 - 可灵2.5在动作和表演方面实现显著进化 包括运动的超进化和表演的超进化 [1] - 运动能力实现超进化 能够丝滑衔接多个动作 如下落、奔跑、骑摩托等 并注重真实感细节 如玻璃渣散落和落地缓冲 [2] - 表演能力实现超进化 能够准确表达多层次情绪 如从愤怒到克制的转变 以及淡淡的阴恻恻的笑 [29][35] - 文生视频能力大幅提升 仅靠提示词即可生成至少一半的案例 无需首尾帧 [10][55] - 理解能力有巨幅提升 解决以往因果关系和细节不到位的问题 [56] 技术对比 - 可灵2.5相比2.1在运动能力上有巨大进步 2.1会出现绳子消失、摩托车凭空出现、动作错误等问题 [3] - 可灵2.5在人物动作和运镜方面更稳 而2.1只能保持人物基本不崩坏 环境交互细节全部糊掉 [5][6] - 可灵2.5的机器人跑酷动作和交互相当真实 而2.1会不受重力控制逐渐飞天 [10][12] - 可灵2.5能够自然完成情绪转变 而2.1表演没层次 表情做得太过或太粗糙 [32][33][37][42] 应用场景 - 可灵2.5能够生成各种运动镜头 如滑雪空翻、摸雪、呲雪墙、滑板速降、篮球赛等 [16][18][20] - 可灵2.5能够满足各种奇幻脑洞 如和小鹿一起闯进魔法森林、在废土世界开装甲车、在陌生星球开飞行器等 [22][24][26][27] - 可灵2.5能够处理多种专业场景 如好莱坞老电影风格的斗嘴、爆炸映亮脸部、重伤喘息、古灵精怪的表情变化等 [45][47][49][50] - 可灵2.5能够生成第一视角跟随镜头 并做出急迫感 如猛然加速追逐 [14]
9款图生视频模型横评:谁能拍广告,谁还只是玩票?
锦秋集· 2025-09-01 12:32
文章核心观点 - 图生视频模型在语义理解、动作逻辑和物理规律方面仍存在显著瓶颈 但已能有效解决创作流程中的"微任务" 未来需向段落生成和工作流嵌入方向演进 [50][51][52][53][54][55] 测评产品与范围 - 测试覆盖9款主流图生视频产品 包括Google Veo3 快手Kling 2.1 字节Seedance 1.0 MiniMax Hailuo 02 生数Vidu Q1 Runway Gen-4 Midjourney V1 Pixverse V5和百度蒸汽机2.0 [7] - 测试时间为2025年8月 所有模型在统一条件下生成5秒视频 不调整除提示词外的附加参数 [9][13] 测试场景设计 - 测试包含三大类场景:职场与商业场景(品牌开场视频/企业节日物料) 轻创作与社交表达(宠物拟人/风格混合) 概念演示及创意实验(奇幻场景/ASMR音画同步) [11][16] - 评估维度包括语义遵循度(核心要素还原) 物理规律(动作自然性) 画面表现力(分辨率/光影/流畅度) [16] 关键测试结果 - **文字生成能力薄弱**:除Hailuo外所有模型均未能准确生成"JinQiu Capital Annual Summit 2025"字样 出现乱码或忽略指令 Veo3存在跨语言处理缺陷 [17][18][19] - **音画同步能力分化**:仅Veo3和百度蒸汽机默认输出音效 Veo3音画契合度最高 在ASMR测试中其玻璃质感音效表现最佳 [20][49] - **复杂动作链断裂**:宠物递礼盒任务中无一模型实现"从身后取出-递出"完整动作 变身企鹅任务中仅Pixverse基本实现变身牵手跳舞 [30][35][39] - **物理规律普遍违规**:潮汐墙形态异常 物体受力不合理(如飞船受力错误) 礼盒凭空出现或形态变化等问题广泛存在 [25][36][44][45] - **文化语义理解差异**:春节机器人拜年任务中仅Hailuo和百度蒸汽机准确生成中国传统"拱手"动作 其他模型呈现为双手合十 [26] 模型性能对比 - **综合表现领先模型**:Veo3在品牌场景结构完整性和音画同步方面突出 Hailuo在文字生成和文化动作准确性上优势明显 [21][26] - **可直接使用场景**:Veo3的节日物料视频具备直接使用价值 Midjourney在宠物任务中真实感强 Pixverse在变身任务动作连贯 [25][31][36] - **功能覆盖差异**:Veo3仅支持英文输入 百度蒸汽机与Kling具备中文音视频一体化能力 各模型定价策略差异显著(月费10-80美元不等) [12][19] 行业技术瓶颈 - 当前模型仍处于"点状生成"阶段 无法实现段落级叙事构建 在风格迁移测试中全部失败(如辛普森真人化转换) [51][55] - 核心限制包括动作链条断裂 物理规律脆弱 文字生成与跨语言处理薄弱三大短板 [39][45][51] 应用价值定位 - 核心价值在于解决"微任务":快速生成会议开场动画 社交媒体轻量化内容 创意视觉草图和ASMR片段 [52][56] - 无法替代拍摄剪辑 但可作为生产流程的辅助工具用于前期预演和过渡片段生成 [54] 技术演进方向 - 需从"能动"升级至"能演" 重点突破动作连贯性 镜头语言和情绪节奏控制 [53] - 从趣味生成工具转向工作流嵌入式组件 实现人机协同编导的多轮交互模式 [54][55]
让AI作画自己纠错!随机丢模块就能提升生成质量,告别塑料感废片
量子位· 2025-08-23 13:06
技术突破 - 清华大学、阿里巴巴AMAP(高德地图)、中国科学院自动化研究所联合推出S²-Guidance方法 通过随机丢弃网络模块动态构建弱子网络实现生成过程自我修正 避免繁琐参数调整并实现即插即用效果 [1][3] - 该方法在文生图和文生视频任务中显著提升生成质量与连贯性 具体表现为动态感增强、细节更精致、伪影减少、艺术表达丰富及物体协调性改善 [4][6][19] 技术原理 - S²-Guidance通过随机模块丢弃策略在前向传播时临时跳过部分网络模块 动态构建轻量化内生子网络 利用模型冗余特性暴露完整模型在高不确定性区域的错误倾向 [10] - 采用负向引导修正机制 通过引导公式"最终引导方向=标准CFG引导方向-子网络预测的高不确定性方向"实现自我纠错 精准规避低质量生成区域 [11][12] 性能优势 - 在SD3模型T2I-CompBench基准测试中 S²-Guidance在颜色(59.63%)、形状(58.71%)、纹理(56.77%)维度得分均超越CFG-Zero(52.70%/52.84%/53.37%)和CFG(53.61%/51.20%/52.45%) [27] - 在VBench视频评测中 Wan1.3B模型总分80.93分超越CFG-Zero(80.71) Wan14B模型总分82.84分超越CFG(82.65) 且在语义一致性(74.65)和对象类别(89.08)指标表现突出 [28] 应用效果 - 视频生成解决CFG两大痛点:物理真实性方面消除卡车横向漂移等失真现象 复杂指令遵循方面完整还原"金线环绕人脸+发光粒子"等复杂描述细节 [24][25] - 计算效率几乎无损耗 实验证明单次随机丢弃(N=1)效果与多次平均相当 通过多步迭代自然平均随机抖动实现高质量输出 [36][37]
“盗梦空间”成为现实 文生视频迎来重大进展
21世纪经济报道· 2025-08-08 09:08
技术突破 - 谷歌DeepMind发布首个实时交互通用世界模型Genie 3 支持通过单句话生成动态3D虚拟环境并实现长达数分钟的沉浸式探索 [1] - 该模型实现24fps实时交互与720p分辨率输出 在一致性和真实感方面较前代模型及视频生成模型有显著提升 [1] - 模型具备持续数分钟的一致性表现 为当前同类技术中实时交互能力的首创 [1]
A股早评:沪指低开0.14% 统一大市场概念盘初拉升
格隆汇· 2025-08-01 09:40
市场开盘表现 - 沪指开盘下跌0.14% [1] - 深证成指开盘下跌0.08% [1] - 创业板指开盘下跌0.19% [1] 统一大市场概念板块 - 国家发改委强调纵深推进全国统一大市场建设并破除"内卷式"竞争 [1] - 申通快递股价上涨超8% [1] - 韵达股份股价上涨超6% [1] 文生视频概念板块 - 阿里开源电影级AI视频模型推动概念活跃 [1] - 易点天下股价上涨超7% [1] CPO概念板块 - 东田微股价下跌近5% [1] - 生益电子股价下跌近5% [1] 军工装备板块 - 北方长龙股价下跌超7% [1] - 国瑞科技股价下跌超5% [1]
“文生视频”爆火 商业前景几何
中国青年报· 2025-07-30 07:02
AI视频生成技术发展 - 可灵AI是快手推出的新一代AI创意生产力平台 基于自研大模型提供高质量视频及图像生成和编辑能力 满足创作者对创意素材生产与管理的需求 [1] - 过去6个月 视频生成大模型已在全球生成超过3亿个视频 通过AI模型让每个人的创意得以充分发挥 [1] - 华策影视自2023年起启动AI垂类模型研发 推出"有风"(文生文)与"国色"(文生视频)等自研模型 [2] 行业应用与商业化进展 - 可灵AI商业化变现加速 2024年4月和5月月度付费金额均超1亿元 营收增速和水平居全球视频生成大模型产品和独立AI产品前列 [3] - 可灵AI自2024年6月6日发布以来累计完成超30次迭代 全球用户规模突破4500万 累计生成超两亿个视频及4亿张图片 [3] - 可灵AI为两万多家企业客户提供API服务 涵盖专业创作平台 广告营销 影视动画 游戏制作和智能终端等领域 [3] 企业战略与市场表现 - 华策影视2024年尝试用AI生成场景辅助短剧制作 2025年下半年重点短剧项目将由AI视频生成技术全流程辅助创作 [2] - 短剧赛道显现AI驱动的"从点到链到面"全产业渗透趋势 [2] - 可灵AI的P端付费订阅会员贡献近70%营业收入 主要来自自媒体视频创作者和广告营销从业者等专业用户 [3] - 快手P端付费订阅会员数量和年化收入运行率均呈现较高增速 双轮驱动可灵P端付费订阅收入增长 [3]
2025年中国多模态大模型行业模型现状 图像、视频、音频、3D模型等终将打通和融合【组图】
前瞻网· 2025-06-01 13:09
多模态大模型技术发展 - 行业聚焦视觉等重点模态领域突破,探索"Any-to-Any"大模型技术路径,如Google Gemini和Codi-2处于早期阶段,需实现跨模态知识学习与信息对齐 [1] - 当前主要工作集中在Transformer架构向图像、视频、3D等模态扩展,完善单模态感知/生成模型后再推进跨模态融合 [1] 图像模型进展 - 2023年前已建立CLIP、Stable Diffusion、GAN等基础模型,衍生Midjourney、DALL·E等成熟文生图应用 [2] - 近年重点探索ViT、DiT等视觉Transformer架构,推动GLIP、SAM、GPT-V等LLM与视觉模型融合成果 [2] 视频模型技术 - 基于图像生成模型(如扩散模型)叠加时间维度对齐,形成VideoLDM、W.A.L.T.等文生视频方案 [5] - Sora采用Diffusion Transformer架构实现突破性视频生成,首次展现"智能涌现"特征 [5] - 主流技术路径为文生图模型+时序对齐,辅以插帧超分、噪声对齐、LLM增强描述等方法提升质量 [5] 3D模型开发现状 - 技术路线延伸自2D图像生成(GAN/Diffusion/VAE等),产生3D GAN、MeshDiffusion、Instant3D等早期成果 [8][9] - 数据表征以NeRF(神经辐射场)为核心技术,支持网格、点云、体素等多种形式 [9] - 数据集稀缺,ShapeNet含5.1万3D CAD模型,Objaverse-xl达1000万对象规模 [9] 音频模型创新 - Transformer架构推动Whisper large-v3、VALL-E等项目突破,增强多语种/自然声/零样本学习能力 [11] - Omni模型通过neural audio codec编码,结合扩散模型实现音频合成技术迭代 [11]
钛媒体科股早知道:人形机器人+低空经济持续火热,该类产品市场需求水涨船高
钛媒体APP· 2025-03-27 08:16
全球首款可穿戴脑机接口设备 - 中国科学院自动化研究所成功研发全球首款电池供电的可穿戴阈上重复经颅磁刺激设备(rTMS)[3] - 2023年全球脑机接口市场规模达19.8亿美元 预计2028年突破60亿美元 五年复合年增长率25.22%[3] - 脑机接口技术在运动恢复 语言沟通 听力重建等医疗领域的研究不断取得里程碑式成果[3] 快手可灵AI商业化进展 - 快手2024年全年总营收同比增长11.8%至1269亿元 全年经调整净利润同比增长72.5%达177亿元[4] - 可灵AI自商业化以来累计营业收入超1亿元 服务用户超500万 商业化单月流水超千万[4] - 国内AI视频模型应用网页版访问量增长较快 赋能广告营销 影视 游戏等传媒板块[4] 人形机器人及低空经济带动稀土磁材需求 - 高性能钕铁硼永磁材料是机器人伺服电机的核心材料 市场需求随人形机器人 低空经济发展而增长[6] - 一台人形机器人钕铁硼用量2-4kg 远期1亿台规模对应20-40万吨需求 相当于再造一个稀土永磁市场[6] - Tesla计划2025年量产数千台人形机器人 2026年产量提高至5-10万台[6] 溴素价格大幅上涨 - 2025年3月25日溴素市场均价28000元/吨 单日涨幅12.0% 较2024年同期上涨9000元/吨[7] - 溴素在阻燃剂 制冷剂 医药等领域应用广泛 溴系阻燃剂占国内溴素总用量六成以上[7] - 我国溴素资源短缺 主要分布在山东莱州湾 近期海运运价调整或进一步增加供应链成本[7]
活动报名:我们凑齐了 LCM、InstantID 和 AnimateDiff 的作者分享啦
42章经· 2024-05-26 22:35
活动概述 - 活动主题聚焦文生图与文生视频领域的研究与应用落地 [2] - 三位核心嘉宾的研究方向覆盖多模态生成、扩散模型、一致性模型及视频生成技术 [3] - 活动形式为线上会议 时间为北京时间6月1日13:00-14:00 美西时间5月31日22:00-23:00 [3] 研究影响力 - LCM、InstantID和AnimateDiff三项研究在文生图与文生视频领域实现重大突破 具有全球影响力 [4] - 相关技术已被大量创业者应用于实际产品开发 推动行业落地进程 [4] 嘉宾阵容 - 骆思勉(清华交叉信息研究院)研究方向包括多模态生成与扩散模型 代表工作LCM/LCM-LoRA/Diff-Foley [3] - 王浩帆(CMU硕士)专注一致性生成 开发InstantStyle/InstantID/Score-CAM等工具 [3] - 杨策元(香港中文大学博士)主攻视频生成技术 [3] - 特邀AI产品经理Hidecloud担任Panel主持 增强产学研对话 [4] 活动亮点 - 首次集结三项突破性研究的原创作者同台交流 [4] - 定向邀请数十位AI创业者参与 聚焦技术商业化实践 [4]