视频生成技术 - 财报，业绩电话会，研报，新闻 - Reportify

视频生成技术

搜索文档

东方证券：维持快手-W“买入”评级目标价104.36港元

智通财经· 2026-02-05 14:16

核心观点 - 东方证券维持对快手-W的"买入"评级，基于对公司旗下AI视频生成产品"可灵"海外业务增长及技术迭代的乐观预期，预测公司2025-2027年经调整归母净利润分别为204亿元、225亿元、259亿元，并给予目标价104.36港元/股 [1] 财务预测与估值 - 预测快手-W 2025至2027年的经调整归母净利润分别为204亿元、225亿元和259亿元 [1] - 维持基于2026年18倍市盈率的估值方法，对应合理价值为4,048亿元人民币，按汇率折算为4,542亿港元，目标股价为104.36港元 [1] 可灵产品海外表现 - 2024年1月初产品在海外出圈后，整个1月的收入和日活跃用户均保持在相对高位，热度持续性良好 [2] - 2024年1月，可灵移动端海外总收入达309万美元，环比增长112% [3] - 2024年1月，可灵移动端日活跃用户达694万，环比增长139% [3] - 美国是移动端第一大收入来源，收入处于震荡爬坡状态 [3] - 基于移动端收入占比10%、网页端占比90%的假设，并参考移动端收入环比增长112%、网页端假设环比增长10%至20%，估算可灵1月总收入有望达到2400万至2600万美元，环比增长20%至30% [3] 产品发展策略与技术迭代 - 产品热度从1月初主要在低用户平均收入地区（如东南亚、中亚）扩圈，转向向高付费能力地区（如美国）的收入震荡爬升，预计后者对可灵整体用户平均收入的提升作用更大 [2] - 新一代可灵3.0版本正处于内测中，其基于统一多模态底座训练，支持文生视频、图生视频、参考生视频及视频编辑一体化 [4] - 可灵3.0生成视频时长可在3至15秒间灵活控制，音频输出更原生融合，真实感更好 [4] - 新版本具备智能分镜功能，支持多镜头故事板工作流，镜头控制更精细 [4] - 重要升级在于主体一致性，可锁定角色或场景核心元素，在镜头移动和场景推进中保持主体细节一致 [4] - 区别于竞品的迭代可能在于"原生文本输出"功能，若能取得实质突破，预计将促进下游需求释放 [4] - 若可灵3.0版本能在年前全量发布，有望基于1月的产品热度掀起新一轮创作热潮，延续需求释放 [2][4]

视频生成技术

视频生成技术

东方证券：维持快手-W(01024)“买入”评级目标价104.36港元

智通财经网· 2026-02-05 14:14

核心观点 - 东方证券维持对快手-W的“买入”评级，基于其AI视频生成产品“可灵”在海外市场的强劲表现及技术迭代前景，预测公司2025-2027年经调整归母净利润分别为204亿元、225亿元、259亿元，并给予目标价104.36港元/股 [1] 财务预测与估值 - 预测公司2025至2027年经调整归母净利润分别为204亿元、225亿元、259亿元 [1] - 维持基于2026年18倍市盈率的估值，对应合理价值为4,048亿元人民币，折合4,542亿港元，目标价104.36港元/股 [1] 产品“可灵”的市场表现 - 1月初“可灵”在海外市场出圈后，整个1月的收入和日活跃用户均保持在相对高位，热度持续性良好 [1] - 1月“可灵”移动端海外总收入达309万美元，环比增长112% [2] - 1月“可灵”移动端日活跃用户达694万，环比增长139% [2] - 分国家看，美国是移动端第一大收入来源，收入仍处于震荡爬坡状态 [2] - 基于移动端收入占比10%、网页端占比90%的假设，并参考移动端收入环比增长112%、网页端假设环比增长10%-20%，估算1月“可灵”总收入有望达到2400万至2600万美元，环比增长20%至30% [2] 产品“可灵”的发展战略与技术迭代 - 产品数据意义在于整体稳定在更高水平后，从1月初主要在低每用户平均收入地区（如东南亚、中亚）流量扩圈，转向向高付费能力地区收入震荡爬升，预期后者对“可灵”年度经常性收入提升作用更大 [1] - 新一代“可灵3.0”版本正处于内测中，基于统一多模态底座训练，支持文/图生视频、参考生视频、视频编辑一体化 [3] - “可灵3.0”生成视频时长可在3至15秒灵活控制，音频输出更原生融合，真实感更好 [3] - 新版本具备智能分镜功能，支持多镜头的故事板工作流，镜头控制更精细 [3] - 重要升级在于主体一致性，可锁定角色或场景核心元素，在镜头移动和场景推进中保持主体细节一致 [3] - 区别于竞品的迭代在于“原生文本输出”功能，若取得实质突破，预计将促进下游需求释放 [3] - 统一架构下工作流衔接性更好，若能在年前全量使用，有望延续1月产品热度，带动需求释放 [1]

视频生成技术

视频生成技术

锦秋被投生数科技首席科学家朱军教授当选ACM Fellow｜Jinqiu Spotlight

锦秋集· 2026-01-22 14:26

行业动态：2025年ACM Fellow华人学者成就 - 2025年ACM Fellow名单公布，全球最具影响力的计算学会ACM授予个人的最高荣誉，代表顶尖学者在技术创新或领域服务方面的卓越成就[2][11] - 新晋入选者来自14个国家，就职于世界一流大学、领先科技公司和研究机构[11] - 2025年Fellow的贡献横跨计算科学多个核心与前沿方向，包括医疗AI、计算机图形学、数据管理、人机交互、移动计算、网络系统、机器人技术、安全性等[12] - 全球ACM会员超过10万人，Fellow占比仅约顶尖1%，是万里挑一的顶尖人才[7][8] - 今年入选的华人学者共19席，占比约27%（近三成），表现卓越，成为一股不可忽视的重要力量[6][14] 被投企业关联：生数科技及其首席科学家 - 清华大学计算机系教授、生数科技首席科学家朱军当选2025年ACM Fellow，其在机器学习领域的贝叶斯方法与表示学习等底层理论上贡献卓著，凭借“稀疏主题编码”打破传统表示学习的边界[2][103][106] - 锦秋基金是生数科技天使+轮的独家投资方[4] - 朱军教授正带领生数科技团队在多模态生成的“技术深水区”持续打磨，公司依托于2022年全球首创的U-ViT架构，率先发布了国内首个视频生成大模型Vidu[4] - 随着2025年视频生成技术全面渗入内容生产链路，进入2026年，行业目光将从单纯的“模型突破”转向更深层次的“场景扎根”[4] - 朱军教授在分享中提到，进入视频生成领域时格外敏感于“涌现”的价值，并认为多模态模型能力的背后正在迎来一个“生产力跃迁”时代[4] 入选华人学者及其机构（产业界关联） - **Pei Cao**：任职于YouTube，担任工程副总裁，获选原因是在网络缓存、搜索引擎效率和信息质量方面的贡献，其技术突破获得了多项美国专利[15][17][19] - **Jiaya Jia（贾佳亚）**：思谋科技SmartMore创始人、董事长，同时是香港科技大学讲座教授，获选原因是在计算机视觉中的分割、场景解析和纹理分析方面的贡献[45][47] - **Tao Mei（梅涛）**：智象未来（HiDream.ai）创始人兼首席执行官，致力于以生成式AI推动创意与内容产业变革，获选原因是在多媒体分析、检索及应用方面的贡献[66][68] - **Yu Zheng（郑宇）**：任职于京东，担任集团副总裁、京东城市总裁、京东智能城市研究院院长，提出了“城市计算”理念，是该领域的先驱和奠基人，获选原因是在时空数据挖掘和城市计算领域的贡献[98][100][102] - **Deming Chen**：UIUC教授，在创业方面经验丰富，曾参与多家初创公司，其开发的算法软件被Altera（现英特尔旗下）独家授权并分发给全球客户[27][29]

多模态生成

视频生成技术

视频生成大模型Vidu

多模态生成

视频生成技术

视频生成大模型Vidu

通用级PixVerse R1的技术突破，揣着进入平行世界的密码

机器之心· 2026-01-15 17:17

PixVerse R1模型的技术突破与定位 - 全球首个支持最高1080P分辨率的通用实时世界模型，标志着视频生成从“静态输出”迈入“实时交互”的全新阶段[6] - 通过将计算效率提升数百倍，实现了人类肉眼感知范围内的“实时”生成，是应用层级的代际跨越[3] - 模型基于用户意图实时生成持续演化、物理上合理的世界，开启了AI原生游戏、互动电影、实时仿真等全新媒介形态的大门[6][35] 视频生成行业的发展历程与现状 - 行业在速度、质量与成本的不可能三角中发展，高画质往往意味着高延迟，追求速度则需牺牲物理一致性[6] - 爱诗科技在DiT路线上持续迭代：从24年底的10秒生成，到25年2月实现5秒生成社交级视频，再到11月将1080P视频生成压缩至30秒[1] - 行业加速未停歇，生数科技与清华大学团队研发的TurboDiffusion框架，让视频生成正式迈入“秒级”门槛[2] 瞬时响应引擎（IRE）的技术构成 - 核心是一套系统级加速方案，通过三大关键技术在保持1080P高分辨率的前提下将推理时间压缩到极致[10] - **时间轨迹折叠**：引入“直接传输映射”作为结构先验，将传统扩散模型所需的50+采样步数压缩至仅需1-4步[11] - **引导校正**：将条件梯度直接融合进模型内部，绕过了传统无分类器引导策略的双倍计算开销，降低了计算复杂度[12][13] - **自适应稀疏注意力**：动态分析上下文依赖，智能识别并剪除长程依赖中的冗余计算，显著提升推理效率[14][15] Omni原生端到端多模态基础模型 - 通过底层架构重构，实现“因原生而通用”，旨在打破单一模态的感知壁垒[20] - **原生统一表示**：基于Transformer引入统一Token流架构，将文本、图像、音频与视频等不同模态数据统一编码为单一生成序列，实现原生层面的联合处理与理解[21] - **原生分辨率**：在原生分辨率和原始比例下进行端到端学习，自适应处理任意长宽比素材，从根源上消除因裁切或缩放带来的视觉偏差[23] - 模型通过原生学习大量真实世界视频数据，确保物理定律和动态的真实性，不仅限于生成引擎，更具备构建世界模型的潜力[25] 自回归流式生成机制 - 重点解决长视频生成中的“长时序一致性”难题及显存成本瓶颈[27] - **无限流式生成**：采用自回归建模，将视频合成重构为逐帧预测的流式过程，实现理论上的“无限流式生成”[29] - **时间一致性**：引入记忆增强注意力模块，显式提取并锁定视频中的关键特征为紧凑的记忆单元，在生成后续内容时直接调用，优化计算效率并避免显存爆炸式增长[30] - 该机制赋予模型“长期记忆”能力，确保生成内容是一个具备持续演化能力的“平行时空”，维持核心主体的统一性与环境逻辑的连贯性[32] 技术突破的意义与行业影响 - 突破了传统视频生成“离线制作、预录制回放”的阶段，满足了即时交互的严苛需求[9] - 视频内容的消费边界正在消融，媒体形态转向由用户意图驱动的即时生成流[36][37] - 为“可交互的数字世界”提供了可落地的技术样本，让视听媒介从“回放过去”迈向“未来创作”[35][38]

视频生成技术

通用实时世界模型

瞬时响应引擎

自回归流式生成机制

视频生成技术

通用实时世界模型

瞬时响应引擎

自回归流式生成机制

500万次围观，1X把「世界模型」真正用在了机器人NEO身上

机器之心· 2026-01-14 09:39

1X公司技术突破：NEO机器人引入世界模型 - 公司推出基于视频预训练的世界模型1XWM，并将其集成至人形机器人NEO中，标志着其从依赖远程操控或死记硬背动作，转向具备通过“想象”来规划行动的能力[3][4] - 该技术使NEO能够通过观看海量网络视频和人类第一视角录像来理解物理世界运作规律，并在接到指令时，先在脑海中生成一段“成功完成任务”的视频，再倒推出具体动作[4] - 官方承认技术存在“脑子学会了，手没学会”的挑战，即生成视频完美但实际动作可能失败的情况[5] - 相关推文在截稿时浏览量已突破500万，显示市场关注度极高[6] 技术范式：从VLA到世界模型 - 当前许多机器人基础模型采用视觉-语言-动作范式，其视觉语言模型侧重于语义理解，缺乏对物理动态的预测，导致学习简单任务也需要数万小时昂贵的机器人数据[10] - 1XWM采用世界模型驱动策略，通过文本条件下的视频生成来推导机器人动作，其核心优势在于能够借助互联网规模视频学习真实世界动力学，无需大规模机器人数据预训练或遥操作演示，即可泛化到新物体、新运动和新任务场景[11] - 这被视为机器人智能范式的一次转变，使机器人能直接受益于视频预训练的规模化能力提升[11] 1X世界模型的技术架构与训练 - 1XWM主干是一个140亿参数的文本条件扩散模型，训练分为三阶段：先在互联网规模视频数据上预训练，再用900小时人类第一视角视频进行中期训练，最后用70小时NEO机器人数据进行具身微调[16][18] - 公司采用多阶段训练策略，并利用视觉语言模型为简要的第一视角任务描述生成更详细的描述性字幕，通过“字幕上采样”提升模型对提示词的遵循能力[16] - 模型包含世界模型主干和逆动力学模型两部分：世界模型负责高保真预测场景演化；逆动力学模型则负责从生成帧中预测出精确的动作序列，并施加运动学约束以确保动作可行性[17] - 逆动力学模型在400小时未过滤的机器人数据上训练，使其能准确追踪NEO在任意状态下的运动[16] 模型能力与实验评估 - 实验评估显示，搭载1XWM的NEO能够执行多种超出既有经验的任务，包括抓取分布内与分布外的物体、操作具备复杂可供性的新物体，以及完成需要全新动作模式的任务[24] - 在需要双手协调和人机交互的任务上，NEO也展现出能力，表明此类知识来源于视频预训练和第一人称视角的人类交互训练，并因其类人身体结构而得以直接迁移[28] - 系统性实物实验显示，1XWM在多种动作原语上保持稳定成功率，但对倒液体、绘图等精细操作任务仍具挑战性[30] - 研究团队通过并行生成多个视频并执行质量最好的一个来提升成功率，该选择过程可手动完成，也可使用视觉语言模型评估器自动化[32] 关键训练要素分析 - 消融分析证实，“字幕上采样”在所有评测数据集上都能提升视频生成质量，因为更细致的字幕与预训练文本条件更匹配，能更清晰引导动作生成[39] - 引入第一视角人类数据显著提升了在新任务和分布外场景下的生成质量，说明这类数据为操作任务提供了可迁移的通用先验[39] - 然而，在已有大量NEO数据覆盖的分布内任务上，额外加入第一视角数据可能会稀释后训练数据分布，对效果提升有限甚至略有负面影响[40] - 后训练数据集主要包含高质量的桌面抓取和放置数据，占比98.5%[21]

视频生成技术

1XWM世界模型

视频生成技术

1XWM世界模型

AI漫剧产业前瞻：多模态技术突破与内容生产新范式

2025-12-11 10:16

行业与公司 * **行业**：AI漫剧（AI动画/短剧）内容生产与分发行业[2][15] * **公司**：巨量平台（一家提供AI视频生成技术、工具和服务的平台公司，服务于AI漫剧内容生产）[1][2][4][5][6] 核心观点与论据技术能力与解决方案 * **技术基础**：平台早期基于Stable Diffusion开发，但已过时不再使用[2] 平台拥有自研的图像处理核心技术能力，包括使用CUDA、对开源模型进行微调，并借鉴国外先进模型（如nano banana 1/2、GPT）设计图片处理流程[2] * **一致性保障**：通过训练专属模型和要求用户提供多视图人物资产（如三视图、五视图、九视图），结合自身技术处理，以实现高质量的人物和场景一致性[1][4] 通过审核客户提供的人物资产（如要求包含面部特写及三视图）确保符合标准[5] * **问题解决**：通过精准服务每个客户案例，实时互动解决具体问题（如人物风格偏向写实的问题）[5] 通过培训和指导客户正确使用工具，使其能独立解决问题[5] * **数据资产优化**：对数据资产有明确标准（如要求大头照及三视图组合的人物特写），并提供详细指导（如利用PS、截图精修或图生图方式制作）[6] 通过深度交流和共创，与国内一线模型厂商合作，推动行业标准化[6] * **技术瓶颈**：目前视频生成中，人物、场景和物品的一致性对于画面还原最为重要，高精度还原要求物体位置正确且特性不变[6] 动作和运镜并非硬瓶颈，可通过结合模型能力与工程化工具很好实现[6] 真正难以突破的是写实短剧中的人物面部微表情及细微变化[7] * **工程化应用**：通过密集探讨和反馈，不断优化模型各维度性能[2] 评估模型优劣势，告知用户避免使用劣势功能，或尝试弥补短板，否则舍弃并寻求同类版本[2][10] 应用层面的核心能力在于知道如何更好地利用模型，包括资产管理、提示优化以及镜头使用等经验[11][12] 市场、模型与竞品 * **模型生态**：客户对模型具体来源无感，只根据平台指导操作[2] 各模型厂商各有优势，但没有一家能全面领先，各厂商在某一阶段某项功能上突出[2][8] * **模型评价**： * 微度的多参引领行业[2][8] * 海螺的大打斗场景有优势[2][8] * 火山C4GM 1.0 Pro曾经综合能力强，但很快被超越[8] * 快手推出多模态音画同步功能，阿里万象即将发布2.6版本加强音画同步[8] * 可灵O1的视频编辑功能（如替换人物）表现不错，但多帧生视频、图生视频等技术尚未达到上架标准[9] * Vidu Q1清晰度提升，但运动性能不如前代，市场反应不佳[10] * **版权来源**：剧本版权主要来源于三类：原创文学平台（如七猫、阅文、起点）、以前拍摄影视剧的公司、专门为大公司提供网文的写手公司[13] 当前阶段，大多数版权方倾向于自己商业化现有版权，而非进行版权交易[13][14] * **爆款率**：短剧爆款率约为5%（10部中1部成功），而漫剧爆款率可达60%以上（5部中有3部成功）[17] 爆款需具备优质剧本、精良制作和强大发行能力三要素[17] 商业模式与变现 * **主要分发渠道**：AI漫剧主要分发渠道是抖音，其次是快手、拼多多、支付宝、B站等平台，最后在海外平台（如TikTok、YouTube）分发[2][15] * **变现路径**： * **抖音**：首先进行限时发行，定价9.9元，持续1至2周，通过用户充值解锁观看[15] 第一轮结束后加大投放[15] 随后通过贴片广告变现（每集插入30秒广告）[15] * **其他平台**：在快手、拼多多、支付宝、B站等平台通过分成方式变现[15] * **成本与利益分配**： * **传统 vs AI成本**：传统方法制作一分钟漫剧情节成本从几万到几十万不等，使用巨量平台后可降至每分钟几百元[18] * **生产效率**：使用AI技术后，一个四人团队以前需要一个月完成80分钟作品，现在五人团队五天即可完成80到100分钟作品[18] 一个成熟动画师日产出从1-2分钟素材提升到8-10分钟，效率提高8-10倍[20] * **制作成本结构**：一部短剧制作成本约为7万元，其中巨量平台占2万元，配音费用约1万元，其余3至4万为人力成本[16] * **利润空间**：制作方将作品以10万至15万不等价格交给甲方，赚取差价[16] 目前一些客户通过制作一部短剧能赚取40%到80%的利润，有时甚至翻倍[16] 甲方可能还会提供收入分成[16] 其他重要内容 * **语音合成（TTS）**：用于漫画/动漫解说时效果可接受，但用于AI影视剧，目前全球最强的TTS技术仍无法达到要求，建议客户寻找第三方配音服务[13] * **动作控制重要性**：对于行业而言，动作控制的精细苛求（如为单个镜头拍摄500次）重要性有限，更多是满足导演个人需求，未来可以很好解决[7] * **行业阶段与竞争**：市场仍处于大量投入阶段，参与者不足，尚未对作品质量提出更高要求，但未来随着竞争加大，对精度和细节要求将逐步提高[19] 最成功的公司通过工具结合自身优势走在前列，新加入者模仿并扩产[19] * **发行周期**：漫剧具有卡通特性，其发行周期较长且渠道多元[2][15]

多模态技术

视频生成技术

多模态技术

视频生成技术

快手可灵AI全年预计收入1.4亿美元创始人称视频生成技术远未成熟

中国经营报· 2025-11-20 21:46

公司财务业绩 - 第三季度总收入达356亿元，同比增长14.2%，经调整净利润50亿元，同比增长26.3% [2] - 线上营销服务收入201亿元，同比增长14%，直播业务收入96亿元，同比增长2.5%，其他服务收入59亿元，同比增幅达41.3% [2] - 可灵AI在第三季度收入超过3亿元，预计2025年全年收入将达到1.4亿美元（约10亿元人民币），较年初目标提升超100% [2] 可灵AI业务表现 - 可灵AI第一季度收入超过1.5亿元，第二季度收入超过2.5亿元，前三季度累计营收超过7亿元 [2] - 根据全年目标测算，第四季度仅需完成约3亿元收入，收入增速从前期较快增长转为相对放缓，预计第四季度增速将进一步放缓 [2][3] 行业竞争格局 - 视频生成赛道竞争加剧，下半年百度推出限时免费版蒸汽机大模型，OpenAI发布Sora 2，多家企业进入高强度研发与运营状态 [3][6] - 行业参与者持续扩容，涵盖互联网头部企业和初创公司，技术层面竞争焦灼，难以形成长期绝对优势 [4][5] - 多方入局加速行业技术革新与产品升级，推动适配用户需求和拓展应用场景，助力行业整体规模扩大 [5] 公司战略与投入 - 可灵AI现阶段阶段性聚焦“AI影视创作场景”核心目标，主要精力集中于服务专业创作者，提升其使用体验与付费意愿 [6] - 公司持续探索C端应用场景，计划在时机成熟时结合社交互动功能加速C端应用商业化进程 [6] - 鉴于用户对视频生成模型需求攀升，公司已多次追加算力投入，包括扩充推理算力和加码训练算力布局 [6]

视频生成技术

百度蒸汽机大模型

视频生成技术

百度蒸汽机大模型

博纳影业：公司积极关注国内外视频生成产品和相关技术发展

证券日报网· 2025-10-16 17:45

公司战略与业务布局 - 公司积极关注国内外视频生成产品和相关技术发展 [1] - 公司根据自身业务布局持续探索相关领域应用 [1] 信息披露与投资者关系 - 相关进展将按照规定在深交所指定披露媒体上进行披露 [1] - 建议关注公司后续公告和定期报告以获取信息 [1]

博纳影业(SZ:001330)

视频生成技术

影视制作与发行

视频生成产品

视频生成技术

影视制作与发行

视频生成产品

赛力斯取得一种视频生成相关专利

金融界· 2025-08-01 13:38

公司专利动态 - 成都赛力斯科技有限公司于2025年3月申请视频生成技术专利授权公告号CN119743660B 涉及视频生成方法装置电子设备及存储介质 [1] - 公司专利储备总量达324条同时拥有1项行政许可 [1] 公司基本信息 - 成都赛力斯科技有限公司成立于2021年注册资本500万人民币位于成都市 [1] - 公司主营业务为软件和信息技术服务业对外投资1家企业 [1]

赛力斯(SH:601127)

视频生成技术

软件和信息技术服务

一种视频生成方法

电子设备及存储介质

视频生成技术

软件和信息技术服务

一种视频生成方法

电子设备及存储介质

CVPR2025视频生成统一评估架构，上交x斯坦福联合提出让MLLM像人类一样打分

量子位· 2025-06-12 16:17

视频生成技术评估框架 - 视频生成技术正在快速革新视觉内容创作方式，高质量视频生成模型的重要性日益凸显[1] - Video-Bench框架通过模拟人类认知过程，建立文本指令与视觉内容的智能评估体系[2] - 该框架能精准识别物体一致性(0.735相关性)、动作合理性等维度缺陷，显著优于现有评估方法[3] 技术架构创新 - 构建视频-条件对齐和视频质量双维度评估框架，覆盖对象类别/动作/颜色/场景一致性等要素[7][10] - 引入链式查询技术：通过多轮"描述-提问-验证"流程解决跨模态对齐难题[8][13] - 采用少样本评分技术：通过多视频对比将主观美学评判转化为量化标准[8][15] 性能优势 - 视频-条件对齐维度Spearman相关系数达0.733，较CompBench提升56.3%[18][19] - 视频质量维度平均相关性0.620，领先EvalCrafter[18] - 评估者间一致性(Krippendorff's α)达0.52，与人类自评水平相当[21] 技术组件效果 - 链式查询使视频-条件对齐评估提升9.3%[22] - 少样本评分将成像质量评估相关性从46.1%提升至62.4%[22] - 组合使用时评估稳定性(TARA@3)达67%，Krippendorff's α达0.867[23] 模型测评结果 - 商业模型Gen3综合得分4.38显著优于开源模型VideoCrafter2(3.87)[25] - 当前模型在动作合理性(平均2.53/3)和动态模糊(3.11/5)等动态维度表现较弱[26] - GPT-4o在成像质量(0.807)和视频-文本一致性(0.750)方面表现突出[27] 研究团队 - 团队来自上海交通大学、斯坦福大学、卡内基梅隆大学等顶尖机构[4] - 核心成员包括多模态语言模型专家和LLM agent研究者[28] - 项目代码和论文已开源[29]

链式查询（Chain-of-Query）

少样本评分（Few-shot scoring）

多模态大模型（MLLM）

视频生成技术

Artificial Intelligence

链式查询（Chain-of-Query）

少样本评分（Few-shot scoring）

多模态大模型（MLLM）

视频生成技术

Artificial Intelligence