视频生成 - 财报，业绩电话会，研报，新闻 - Reportify

视频生成

搜索文档

Midjourney正式推出V1视频模型

快讯· 2025-06-19 23:12

Midjourney视频生成模型V1发布 - 公司推出首款视频生成模型V1 定位为高性价比、易用性强的视频创作工具 [1] - 产品功能支持将Midjourney静态图片或用户自有图片动画化生成短视频 [1] - 核心卖点包括趣味性、操作简便性、视觉美观度及价格亲民特性 [1] - 订阅定价策略为每月10美元的低门槛入门方案 [1] 战略愿景 - 该产品是公司实现"实时模拟世界"长期愿景的首个阶段性成果 [1] - 通过降低视频创作技术门槛扩大用户基础强化生成式AI领域的市场渗透 [1]

视频生成模型V1

视频生成模型V1

实测豆包1.6，最火玩法all in one！Seedance登顶视频生成榜一，豆包APP全量上线

量子位· 2025-06-12 15:11

豆包大模型1.6系列性能突破 - 豆包大模型1.6系列在推理、数学、多模态能力上进入全球第一梯队[1] - 海淀区高考模拟测试中文理科成绩均突破700分其中理科较去年提升154分（706分 vs 552分）[2][3] - 主力模型doubao-seed-1.6支持256K上下文是国内首个支持该长度的思考模型具备深度思考自适应功能[24] Seedance 1.0 Pro视频模型技术领先 - 文生视频（ELO 1299）和图生视频（ELO 1343）双榜单全球第一超越Google Veo 3和OpenAI Sora[4][5] - 具备无缝多镜头叙事能力支持航拍/第一人称/近景等视角切换生成速度达40秒/5秒视频[38][40][49] - 理解能力突出可精准还原唐代服饰细节合理调整人物动作顺序[44][46] 行业定价模式重构 - Seedance 1.0 Pro视频生成成本低至3.67元/5秒行业最低价[11] - 豆包1.6采用输入长度区间定价 0-32K区间综合成本较1.5版本降低63%[13][14] - 特惠区价格进一步降至0.8元/百万tokens（输入）与1.0版本持平[16][18] 多模态能力升级 - 新增视频理解功能可基于视频内容生成朋友圈文案[31] - 具备GUI操作能力能自主完成酒店预订全流程操作[35][36] - 语音播客模型支持秒级生成双人对话具备声线模仿等高级功能[51][55] 企业级Agent开发支持 - 推出PromptPilot工具支持自动优化提示词和badcase修复[61] - 开源veRL强化学习框架支持LLM基础设施与模块化API集成[63] - AgentKit工具链实现全栈开发支持可自动化生成研究报告和网站[68][66] 市场表现与行业地位 - 豆包大模型日均tokens使用量达16.4万亿较发布初期增长137倍[73] - 火山引擎占据中国公有云大模型46.4%市场份额调用量达114.2万亿tokens[74] - 已服务联想、宝马、奔驰等头部企业大模型业务成增速最快板块[75][76]

多模态理解

豆包大模型1.6系列

Seedance 1.0 Pro

多模态理解

豆包大模型1.6系列

Seedance 1.0 Pro

40秒生成1080P视频，3.6元一条，字节这次又要掀桌子了？藏师傅Seedance 1.0 Pro实测

歸藏的AI工具箱· 2025-06-11 16:42

字节跳动Seedance 1.0 Pro视频生成模型发布 - 字节跳动在火山引擎Force原动力大会上发布Seedance 1.0 Pro视频生成模型[1] - 该模型是即梦视频3.0 pro模型的升级版本[1] 模型性能表现 - 在Artificial Analysis评测中，Seedance 1.0在文生视频和图生视频两项指标均排名第一[2] - 文生视频ELO评分1299，显著高于Google Veo 3 Preview的1252分[3] - 图生视频ELO评分同样领先竞品[3] 核心技术特点 - 支持原生1080P分辨率视频生成[2] - 单次生成可输出最长10秒视频[8] - 支持多镜头无缝切换叙事，保持人物场景一致性[6][8] - 在多主体动作和复杂运镜提示词表现优异[8] - 画面动态效果自然，结构性好，崩坏率低[8] - 生成速度极快，5秒1080P视频仅需40秒[8] - API调用价格优势明显，5秒视频仅需3.67元[8] 多镜头生成能力 - 支持单次生成包含不同景别和运镜的分镜视频[6] - 人物装束和场景风格在多分镜中保持高度一致[9] - 示例1：战术撤离场景三镜头叙事[10] - 示例2：餐饮宣传片三镜头叙事[12] - 示例3：咖啡馆紧急回复场景三镜头叙事[14][15] 图生视频测试表现 - 怪兽场景测试中毛发质感和光照效果逼真[21] - 环绕镜头运动中保持人物运动模糊效果[22] - 水中人物转身动作流畅，头饰细节完美[23] - 高风格化场景下维持风格一致性[24] - 2D动漫风格大景别变化表现稳定[25] 文生视频测试表现 - 复杂POV运镜场景细节清晰无崩坏[27] - 北非古城猫咪探索场景叙事连贯[28] - FPV无人机运镜森林追逐场景动态流畅[29] - 中国书法场景运笔姿势和墨迹晕染准确[31] - 地铁急刹车多人物理碰撞效果自然[33][34] 商业化进展 - 6月11日通过火山引擎向企业用户开放[36] - 已上线豆包App"照片动起来"功能[36] - 模型在速度、稳定性和价格三方面具备竞争优势[35] 行业影响 - 显著降低普通用户视频创作门槛[18] - 在文化特色内容生成方面具有本土优势[16] - 预计将推动AI视频应用受众大幅拓展[35]

Seedance 1.0 Pro 视频生成模型

Seedance 1.0 Pro 视频生成模型

聚焦多模态：ChatGPT时刻未到，2025大模型“变慢”了吗

北京商报· 2025-06-08 21:27

多模态大模型技术发展 - 智源研究院发布原生多模态世界模型Emu3 实现文本、图像、视频任意组合理解与生成通过单一模型捕捉世界规律[1] - Emu3采用原生多模态训练路径在模型初始阶段即纳入文字、图像、声音等模态数据区别于先强语言后多模态的传统路径[3] - 当前多模态模型技术路线未收敛视频生成能力处于GPT-2到GPT-3过渡阶段与产业预期存在显著差距[1][5] 视频生成技术现状 - 视频生成领域存在叙事性、稳定性、可控性三大挑战目前无法满足影视级专业内容制作需求[6] - Sora展现高质量视频生成潜力但DiT训练方案存在可扩展性问题类似2018年BERT模型的技术瓶颈[5] - 行业专家认为视频生成技术仍处早期相当于语言模型的GPT-2阶段尚未迎来"ChatGPT时刻"[5][6] 商业化应用进展 - 多模态模型商业化面临两大挑战：技术能力与市场需求未完全统一成本收益比尚未达到临界点[7] - 智象未来商业模式持续迭代从PaaS模型服务(2023)到SaaS工具(2024) 再到直接交付结果(2025)[8] - 全球多模态AI市场规模2024年达24亿美元预计2025年将快速增长至1280亿美元年复合增长率62.3%[8] 行业竞争格局 - 2024年大模型行业关键词为价格战 2025年转向应用多元化表面发展"变慢"实为技术沉淀期[1] - 传统CV模型应用成熟多模态模型需在视觉理解能力和泛化能力提升后才能替代现有解决方案[7] - 企业技术路线差异明显智源采用原生多模态训练其他厂商多采用语言优先的渐进式路径[3]

多模态大模型

Artificial Intelligence

多模态大模型

Artificial Intelligence

爱诗科技CEO王长虎：视频是最贴近用户的内容形态，好的模型带来了好的产品

华尔街见闻· 2025-06-06 21:20

公司发展历程 - 爱诗科技成立于2023年4月专注于视频生成大模型领域创始团队拥有抖音/TikTok视频AI技术背景 [5][6][7] - 2023年7月启动模型训练 10月进入全球视频生成第一梯队 2024年1月海外网页端正式上线 [7][8] - 2024年10月V3版本上线后用户量快速增长月活跃用户突破1600万 2025年2月移动端APP上线后月活超6000万 [4][22][23] - 2025年6月推出国内版"拍我AI" 对齐海外PixVerse最新功能并本土化 [23] 产品与技术亮点 - PixVerse在全球第三方评测中位列视频生成领域前三与可灵海螺并称三大图像生成产品 [4] - V3版本实现"毒液变身"等爆款功能用户仅需上传照片即可生成视频抽卡成功率接近100% [17][18] - V4支持5秒生成5秒视频实现有声视频生成 V4 5新增多角色联动电影级运镜等专业功能 [21][22] - 移动端上线4个月即进入美国iOS总榜前四 "Photo and Video"分类排名第一 [22] 关键战略决策 - 选择视频生成赛道尽管2023年该领域融资环境冷淡但团队认为视频是终极内容形态 [6][7][9] - Sora发布后坚持投入大模型训练采用DIT架构 3-6个月内实现技术追赶 [11][12] - 优先布局ToC海外市场通过降低创作门槛(免Prompt)和提升体验(高成功率)引爆用户增长 [16][17] 行业竞争格局 - 2024年Sora发布后视频生成从非共识变为热门赛道 Google 字节等大厂加速入场 [11] - 中国AI出海产品中 PixVerse增速排名第二 11月访问量增长80% [15] - 全球视频生成领域形成"三强"格局爱诗科技可灵海螺占据用户量前三 [4] 商业化进展 - 2024年12月上线移动端后迅速进入全球AI应用TOP100榜单(第52位) [4] - 2025年1月启动B端API服务覆盖电商营销等场景基于6000万用户数据优化 [23] - 毒液特效在国内二手平台售价达18元/个引发病毒式传播 [15]

PixVerse（拍我AI）

PixVerse（拍我AI）

CVPR 2025 Tutorial：从视频生成到世界模型 | MMLab@NTU团队&快手可灵等联合呈现

量子位· 2025-06-05 16:32

视频生成技术进展 - 图像生成技术已广泛应用于日常生活视频生成技术从最初的"抖动幻影"跃升为能讲故事、控制动作、进行长时推理的高质量动态内容[1] - 可灵、Sora、Genie、Cosmos、Movie Gen等模型突破不断拓宽视频生成边界研究者开始探讨视频生成能否成为通往世界模型的桥梁[2] - 视频生成技术已初步展现对时空一致性、视觉因果链的建模能力并可能发展为交互式世界模型[6] 世界模型研究方向 - 研究重点转向如何将视频生成作为视觉先验赋能AI感知世界、理解交互、推理物理迈向更具具身智能能力的世界模型[3] - 学术界与产业界研究者将探讨生成建模、3D理解、强化学习与物理推理将生成能力转化为感知、预测与决策的智能基座[4] - 视频生成技术可能帮助理解物体交互捕捉人类行为背后的物理与语义因果从生成走向交互式世界模型[6] CVPR 2025教程安排 - 教程将探讨基础世界模型规模化作为实现具身AGI的路径由Google DeepMind科学家Jack Parker-Holder主讲[5] - 斯坦福大学博士生Hong-Xing "Koven" Yu将分享基于物理的世界模型在生成、交互与评估方面的研究[5] - Luma Al首席科学家Jiaming Song将讨论从推理优先视角突破预训练算法天花板[5] - Kling Al视频生成负责人Pengfei Wan将介绍可灵模型及更强大视频生成模型的研究进展[5] - 加州大学伯克利分校助理教授Angjoo Kanazawa将探讨面向智能的4D世界理解[5] - 纽约大学助理教授Sherry Yang将分享面向具身学习的生成式世界建模[5] 行业应用前景 - 视频生成技术不仅是内容输出工具更是通向感知-建模-推理-决策一体化世界模型的入口[6] - 该领域对关注视频生成与多模态理解、具身AI、机器人交互智能、生成式世界建模与物理推理的研究者具有重要价值[7]

Artificial Intelligence

Artificial Intelligence

本周日不见不散！CVPR 2025北京论文分享会最后报名了

机器之心· 2025-06-03 16:57

AI视频生成技术 - 谷歌发布新一代AI视频生成模型Veo 3 首次实现音画同步被评价为不亚于OpenAI Sora的跨时代产品标志着AI视频进入"有声时代" [1] - 视频生成领域从无声进化到有声多模态领域向理解与生成大一统方向演进 [2] CVPR 2025论文分享会 - 会议将于6月8日在北京举办聚焦多模态和视频生成等热门主题邀请顶级专家和论文作者交流 [2] - CVPR 2025共收到13008份论文投稿接收2878篇整体接收率22.1% [2] - 设置Keynote、论文分享、圆桌对话、Poster交流等环节全日程和嘉宾信息已公布 [2][4][10][12][14] 论文分享环节 - 腾讯混元高级算法研究员周子翔分享《Multi-modal driven human animations》[4] - 阿里巴巴高德地图算法专家熊峰分享《HumanRig: Learning Automatic Rigging for Humanoid Character》[4] - 北京大学博士生张霖分享《OmniManip: Towards General Robotic Manipulation》[4] - 中科院张泽锋分享《Debiasing Multimodal Large Language Models》[4] - 国防科技大学唐熠杰分享《OnlineAnySeg: Online Zero-Shot 3D Segmentation》[4] Keynote演讲 - 中科院计算所高林研究员分享基于混合表达与生成模型的可视媒体合成与编辑方法涵盖高斯泼溅技术进展和视频生成模型应用 [10][12] - 北航黄雷副教授从表征和学习视角探讨多模态大模型的统一建模介绍课题组在统一建模方面的研究进展 [14] 圆桌讨论 - 主题为"迈向理解与生成统一的多模态大模型" 邀请北航黄雷、BIGAI黄思远、Sand.AI张拯三位专家参与 [16][20][22][24] 合作伙伴计划 - 腾讯青云计划聚焦AI大模型等十大技术领域提供高薪和核心业务机会 [27] - 京东TGT计划面向青年技术人才聚焦多模态大模型与应用等前沿课题提供三导师培养机制 [28]

Artificial Intelligence

多模态大模型

Artificial Intelligence

Artificial Intelligence

多模态大模型

Artificial Intelligence

全日程公布｜谷歌Veo 3惊艳发布后，这场CVPR分享会值得每个AI人「听个声」

机器之心· 2025-05-27 14:38

AI视频生成技术进展 - 谷歌发布新一代AI视频生成模型Veo 3，实现了高质量视频生成与音画同步功能，被评价为不亚于OpenAI Sora的跨时代产品，标志着AI视频进入"有声时代"[1] - AI社区通过架构创新和算力投入持续推动技术进步，视频生成领域从无声进化到有声，多模态领域向理解与生成大一统方向演进[2] 学术会议规模与质量 - CVPR 2025作为计算机视觉领域最重要国际会议之一，共收到13008份论文投稿，最终接收2878篇论文，整体接收率为22.1%[2] 技术研究专题与演讲嘉宾 - 中国科学院大学教授高林将分享基于混合表达与生成模型的可视媒体合成与编辑方法，介绍高斯泼溅技术的最新进展及其在数字人实时重光照等应用[8][10] - 北京航空航天大学副教授黄雷将从表征和学习视角探讨多模态大模型的统一之路，分析条件概率模型在建模任意问题的可行性[12] - 论文分享环节涵盖多模态驱动的人类动画、大规模人形角色自动绑定、通用机器人操作、长时视频理解、3D分割和视觉语言理解等多个前沿研究方向[4] 行业人才计划与资源投入 - 腾讯青云计划聚焦AI大模型等十大技术领域，提供不设上限的职级薪酬和定制化培养方案，开放核心业务机会和解锁前瞻性技术课题[17] - 京东TGT计划面向全球高校技术人才，依托京东丰富的产业布局，研究涵盖多模态大模型与应用、机器学习、具身智能等方向，提供充足算力资源和三导师培养机制[18] 行业交流平台与合作机会 - 黄大年茶思屋科技网站作为开放平台汇聚全球科学家和研究人员，推动科技创新交流[16] - 机器之心成功举办多场学术活动，为企业提供人才吸纳和品牌影响力提升的合作机会[20]

Artificial Intelligence

多模态大模型

Artificial Intelligence

Artificial Intelligence

多模态大模型

Artificial Intelligence

Veo3逼真脱口秀火爆全网，视频生成的GPT时刻到了吗？

第一财经· 2025-05-26 11:02

Veo 3技术特点 - Veo 3新增原生音频生成功能，可同步生成环境音和人物对话，突破视频生成的"无声时代"[4] - 模型实现真正原生多模态，文字生成动画同时自动完成音乐、音效、配音和对口型，大幅简化工作流程[7] - 视频生成质量显著提升，光线处理、人物神态和长镜头运动具有电影质感，但存在LOGO显示错误等一致性瑕疵[4][12] - 对复杂物理现象的推断能力是其逼真效果的核心，谷歌通过严格数据质量管理优化模型性能[10][11] 市场应用与成本效益 - 商业应用案例显示，传统50万美元的广告制作可被500美元Veo 3积分替代，成本降低约1000倍[7] - AI制作电影成本估算为9万美元/3小时，相比好莱坞传统制作便宜10-20倍[10] - 个人创作者使用Veo 3生成1.5分钟短片成本约70美元（6000-7000积分），但成片率受文生视频不可控性影响[16] - 订阅成本高昂，商业用户需支付每月249.99美元套餐费（前三月优惠价124.99美元），额外积分按1.5美元/8秒计费[16] 行业影响与局限性 - 技术被视为AI影像工作流雏形，可能颠覆传统影视制作模式，类似数码相机终结柯达垄断的变革[10] - 当前主要适用于文生视频场景，但行业主流工作流依赖图生视频，导致实际生产应用受限[15] - 中文支持不足，存在台词丢失、对话主体混乱等技术缺陷，8秒视频容量达到对话上限[14] - 谷歌凭借YouTube数据资源优势持续优化模型，但行业普遍认为尚未达到"GPT时刻"级突破[12][17] 创作者评价 - 专业创作者肯定其效率提升价值，但指出视频生成质量"低于预期"，与国内第一梯队产品图生效果相当[3][15] - 现阶段工具更适合氪金玩家或商业项目，普通用户面临价格门槛和技术瑕疵双重限制[17] - FLOW剪辑工具的推出预示AI影像新工作流可能性，但完全替代传统流程仍需长期迭代[4][15]

AI影像工作流

AI影像工作流

鹅厂开源视频生成大杀器！参考图主体精准复刻，还能编辑现有视频

量子位· 2025-05-09 15:03

产品功能 - 公司开源"自定义"视频生成模型HunyuanCustom，主打主体一致性功能，用户仅需一张图片即可确定视频主角，一致性评分达到开源模型SOTA水平[1] - 模型支持单主体参考、多主体参考、局部编辑、角色配音四大功能，其中单主体参考已上线并开源，其余功能计划本月内开源[2][3] - 团队正在与开源社区合作，将适配AI创作者常用的ComfyUI[4] 技术表现 - 在单主体视频定制任务中，HunyuanCustom在身份一致性（Face-Sim）和主体相似性（DINO-Sim）两个指标上分别达到0.627和0.593，超过所有baseline方法[39] - 人物特征保持方面表现优异，包括五官、发色、服饰等细节特征在不同场景下都能保持一致[8][10] - 支持局部视频编辑功能，可对已有视频中的特定对象进行替换[29][30][32] - 支持音频驱动功能，可生成口型匹配的视频，但当前语音合成仍存在机械感问题[35][36][37] 技术架构 - 模型以文生视频模型HunyuanVideo为基础，针对不同任务类型配备相应模块[45] - 图像驱动任务采用LLaVA文本-图像交互模块和身份增强模块，增强对输入图像身份信息的理解和融合[46][47][50] - 音频驱动部分采用身份解耦的AudioNet模块，确保音频条件不影响人物身份一致性[53][54][56] - 视频驱动部分采用视频条件注入策略，通过特征叠加方式保留视频条件中的时空信息[58][59][61] - 训练过程中采用Flow Matching框架优化视频生成模型，并引入辅助损失函数实现多任务学习[67][68][69] 系统要求 - 目前支持720P画质，需要支持CUDA的英伟达GPU[42] - 生成720P视频最少需要24GB显存，推荐配置为80GB显存[43][44]

腾讯控股(HK:00700)