视频生成 - 财报，业绩电话会，研报，新闻 - Reportify

视频生成

搜索文档

ICCV高分论文｜可灵ReCamMaster在海外爆火，带你从全新角度看好莱坞大片

机器之心· 2025-07-23 18:36

视频生成技术 - 提出ReCamMaster模型可对输入视频沿新相机轨迹重新运镜解决无人机缺失或手抖导致的运镜问题 [2] - 模型支持用户上传任意视频并指定新相机轨迹实现视频重运镜效果 [2] - 在4D重建视频去抖动自动驾驶具身智能等领域具有应用潜力 [3] 技术创新点 - 核心创新在于提出新的video conditioning范式将condition video与target video在patchify后沿时间维度拼接 [11] - 新范式相比传统通道维度拼接方法有显著性能提升 [11] - 首次实现单视频重运镜的准产品级性能验证视频生成模型在此类任务的潜力 [13] 数据集资源 - 发布MultiCamVideo数据集包含13,600个动态场景每个场景由10个摄像机同步拍摄 [13] - 数据集总量达136,000个视频包含112,000种不同相机轨迹 [13] - 数据集涵盖66个人物主体 93种人物动作和37个3D环境背景 [13] 性能验证 - 与最先进方法相比 ReCamMaster在视频生成质量上有大幅度性能提升 [15] - 生成视频能保持原视频场景和动态在不同场景下展现良好泛化性 [11] 项目资源 - 开源项目代码训练测试脚本及完整数据集 [4] - 提供论文链接和项目主页展示更多技术细节与案例 [4][11]

video conditioning范式

video conditioning范式

Grok-4，马斯克口中地表最强AI

搜狐财经· 2025-07-11 20:58

xAI公司及Grok-4发布 - xAI公司成立于2023年7月12日，目标是解决复杂科学和数学问题并理解宇宙 [3] - 2025年1月16日推出网页版Grok AI聊天机器人，2月17日发布Grok-3，7月10日发布Grok-4 [5] - Grok-4系列包含Grok-4和Grok-4 Heavy两个版本，月费分别为30美元和300美元，Grok-3维持免费 [5] Grok-4技术性能 - 在GPQA测试中得分88.9%，AIME25得分100%，LiveCodeBench得分79.4%，HMMT25得分96.7%，USAMO25得分61.9% [8] - 在人文学科终极考试HLE中，Grok-4 Heavy实现最高44.4%准确率，在所有领域达到博士级别 [10] - 在ARC-AGI-2测试中拿到15.8%准确率，是过去三个月唯一突破10%的模型 [12] Grok-4技术进展 - 从Grok-2到Grok-4，训练量提升100倍，强化学习推理投入大量计算资源 [15] - 将工具使用直接纳入训练过程，显著提高模型使用工具能力 [15] - 计划与特斯拉擎天柱机器人结合，实现与现实世界互动能力 [16] 多智能体与商业应用 - Grok-4 Heavy是多智能体版本，可多个智能体协作解决问题 [18] - 在售货机基准测试中创造的美元价值是第二名两倍，预计100万台自动售货机年赚47亿美元 [20][22] - 语音模式改善，端到端延迟降低2倍，提供5种声音，活跃用户增长10倍 [19] 未来发展规划 - 预计未来三到四周开始用超过10万个GB200芯片训练视频模型 [25] - 计划推出AI制作的视频游戏、电视节目和电影 [23] - 最终目标是实现"像素输入，像素输出"的多模态能力 [23] AI发展愿景 - 让AI极致追求真相是安全发展的根本原则 [28] - 计算能力加正确工具将使AI能与物理世界互动 [28] - 未来可能达到卡尔达舍夫Ⅱ型文明等级 [28]

多模态智能体

多模态智能体

画到哪，动到哪！字节跳动发布视频生成「神笔马良」ATI，已开源！

机器之心· 2025-07-02 18:40

视频生成技术发展 - 近年来视频生成任务取得显著进展，尤其是从静态图像生成视频（Image-to-Video generation）因其能以最小信息输入生成具有时间连续性与空间一致性的动态内容而受到关注 [1] - 扩散模型（Diffusion Models）、Transformer架构与高性能视觉理解模型的发展推动了视频生成技术的进步 [1] 当前视频生成技术瓶颈 - 当前主流方法缺乏有效、直观、用户友好的运动控制方式，限制了创意表达和实际应用价值 [2] - 现有方法依赖预设模板、动作标签或风格提示，缺少自由又精准的方式来指定对象与摄像机的运动路径 [2] ATI框架核心创新 - ATI是一种以"轨迹为指令"的可控视频生成框架，将用户手绘轨迹转化为显式控制信号 [2] - ATI使视频创作从"参数调控"转变为"可视化创意"，实现"画到哪，动到哪"的帧级精准控制 [2] - ATI通过高斯运动注入器将轨迹编码为潜在空间中的运动向量，注入扩散生成流程 [6] ATI技术实现细节 - ATI接受静态图像和用户手绘轨迹作为输入，支持任意形状轨迹 [6] - 采用高斯运动注入器在特征图上创建移动的"亮点"，使模型理解轨迹与生成视频的关联 [8] - 通过编码图像、采样特征、生成高斯权重和注入特征四个步骤实现轨迹控制 [11][12][13][14] - 支持统一控制对象级动作、局部身体部位运动与摄像机视角变化，无需切换模型或模块结构 [14] ATI应用表现 - 可实时捕捉任意轨迹路径并生成连贯自然的动态视频 [17] - 在人物或动物肖像场景中能准确还原关节弧度与质心移动，生成符合生物力学规律的运动 [19] - 最多可并行处理8条独立轨迹，保证多对象身份信息互不干扰 [21] - 支持同步驱动摄像机视角，生成包含电影级镜头语言的视频 [23] - 物体与摄像机轨迹可同时注入，实现多条运动指令的无缝融合 [25][26] - 展示出良好的跨领域泛化能力，覆盖多种艺术风格 [28] - 支持生成超越物理边界的非现实动作效果 [29] - 提供高精度模型和轻量级版本满足不同需求 [30] ATI开源与生态 - Wan2.1-I2V-14B模型版本已在Hugging Face社区开源 [32] - 社区生态快速完善，包括ComfyUI-WanVideoWrapper插件和教学视频等资源 [32] - 完整代码与模型可在GitHub和Hugging Face模型库获取 [32]

Transformer架构

Transformer架构

免费约饭！加拿大ICML 2025，相聚机器之心人才晚宴

机器之心· 2025-07-01 17:34

AI领域发展 - 2025年AI领域持续快速发展[1] - 图像视频生成技术取得突破性进展扩散模型显著提升合成质量分辨率风格控制语义理解等维度实现跨越式提升[2] - Google发布Veo 3实现原生音频同步生成推动视频生成进入有声电影时代[2] ICML 2025会议 - ICML作为AI领域顶级学术会议将于7月13-19日在加拿大温哥华会议中心举行[4] - 会议将汇聚全球顶尖AI研究成果[4] 云帆・ICML 2025 AI Talent Meetup活动 - 由机器之心联合上海人工智能实验室东方菁汇全球高校人工智能学术联盟共同发起[5] - 活动设置青年学者Talk 顶尖人才SHOW 互动体验机构宣讲企业岗位展示晚宴交流等环节[7] - 活动时间7月15日16:00-20:30(加拿大时间) 地点温哥华会议中心周边规模200人[8] - 旨在搭建人才与企业对话桥梁探讨前沿技术应用落地问题[7] 机器之心活动经验 - 成功举办云帆・ICLR 2025 AI Talent Meetup CVPR 2025论文分享会 NeurIPS 2024论文分享会 ACL 2024 AI Talent晚宴等活动[11] - 活动有效助力合作伙伴吸纳人才并提升品牌影响力[11]

Artificial Intelligence

Artificial Intelligence

Artificial Intelligence

Artificial Intelligence

开源还要IPO？MiniMax不想被遗忘在这个夏天

36氪· 2025-06-20 12:44

行业竞争格局 - 六小虎（MiniMax、智谱、月之暗面、百川智能、零一万物、阶跃星辰）正通过发布新模型与DeepSeek展开技术竞速 [1] - 月之暗面开源编程大模型Kimi-Dev-72B，在SWE-bench测试中超越671B参数的DeepSeek R1 [1] - MiniMax发布混合架构推理模型M1，支持100万上下文输入，为业内最高水平 [3] MiniMax技术突破与产品布局 - M1模型在17个主流测评集表现优异，填补公司近三个月基座模型空白 [3] - 视频生成模型Hailuo 02和通用Agent产品MiniMax Agent同步发布，形成多产品矩阵 [1][3] - 海螺AI连续6个月位居全球视频生成产品榜首，海外访问量达1635万（国内6倍） [6][7] 商业化与收入结构 - 公司收入原依赖Talkie广告和订阅，现通过海螺AI和MiniMax Agent订阅制拓展多元化收入 [12] - 产品战略调整为"MiniMax"主攻文本生成，"海螺AI"聚焦多模态内容生成 [7] - 海外市场成为重点，新模型与产品均同步海外发布 [12] 行业IPO动态 - 智谱成为六小虎中首家提交上市辅导备案的企业 [3][9] - MiniMax计划港股IPO但年内难启动，六小虎中仅智谱年营收超1亿港元（约9159.9万元） [9][11] - 港股流动性下滑，创业板日均成交额仅1.3亿港元，主板要求未商业化企业证明现金流能力 [10] 产品差异化策略 - 海螺AI以动画创作为核心差异化，在二次元群体中形成口碑 [5] - 视频生成赛道通过审美多元化突破大厂包围，如字节Seeweed、快手可灵AI等竞品 [5][6] - Talkie下架事件后用户增速放缓，公司加速布局Agent等新应用以降低单一产品风险 [4][7]

Artificial Intelligence

Artificial Intelligence

Midjourney正式推出V1视频模型

快讯· 2025-06-19 23:12

Midjourney视频生成模型V1发布 - 公司推出首款视频生成模型V1 定位为高性价比、易用性强的视频创作工具 [1] - 产品功能支持将Midjourney静态图片或用户自有图片动画化生成短视频 [1] - 核心卖点包括趣味性、操作简便性、视觉美观度及价格亲民特性 [1] - 订阅定价策略为每月10美元的低门槛入门方案 [1] 战略愿景 - 该产品是公司实现"实时模拟世界"长期愿景的首个阶段性成果 [1] - 通过降低视频创作技术门槛扩大用户基础强化生成式AI领域的市场渗透 [1]

视频生成模型V1

视频生成模型V1

实测豆包1.6，最火玩法all in one！Seedance登顶视频生成榜一，豆包APP全量上线

量子位· 2025-06-12 15:11

豆包大模型1.6系列性能突破 - 豆包大模型1.6系列在推理、数学、多模态能力上进入全球第一梯队[1] - 海淀区高考模拟测试中文理科成绩均突破700分其中理科较去年提升154分（706分 vs 552分）[2][3] - 主力模型doubao-seed-1.6支持256K上下文是国内首个支持该长度的思考模型具备深度思考自适应功能[24] Seedance 1.0 Pro视频模型技术领先 - 文生视频（ELO 1299）和图生视频（ELO 1343）双榜单全球第一超越Google Veo 3和OpenAI Sora[4][5] - 具备无缝多镜头叙事能力支持航拍/第一人称/近景等视角切换生成速度达40秒/5秒视频[38][40][49] - 理解能力突出可精准还原唐代服饰细节合理调整人物动作顺序[44][46] 行业定价模式重构 - Seedance 1.0 Pro视频生成成本低至3.67元/5秒行业最低价[11] - 豆包1.6采用输入长度区间定价 0-32K区间综合成本较1.5版本降低63%[13][14] - 特惠区价格进一步降至0.8元/百万tokens（输入）与1.0版本持平[16][18] 多模态能力升级 - 新增视频理解功能可基于视频内容生成朋友圈文案[31] - 具备GUI操作能力能自主完成酒店预订全流程操作[35][36] - 语音播客模型支持秒级生成双人对话具备声线模仿等高级功能[51][55] 企业级Agent开发支持 - 推出PromptPilot工具支持自动优化提示词和badcase修复[61] - 开源veRL强化学习框架支持LLM基础设施与模块化API集成[63] - AgentKit工具链实现全栈开发支持可自动化生成研究报告和网站[68][66] 市场表现与行业地位 - 豆包大模型日均tokens使用量达16.4万亿较发布初期增长137倍[73] - 火山引擎占据中国公有云大模型46.4%市场份额调用量达114.2万亿tokens[74] - 已服务联想、宝马、奔驰等头部企业大模型业务成增速最快板块[75][76]

多模态理解

豆包大模型1.6系列

Seedance 1.0 Pro

多模态理解

豆包大模型1.6系列

Seedance 1.0 Pro

40秒生成1080P视频，3.6元一条，字节这次又要掀桌子了？藏师傅Seedance 1.0 Pro实测

歸藏的AI工具箱· 2025-06-11 16:42

字节跳动Seedance 1.0 Pro视频生成模型发布 - 字节跳动在火山引擎Force原动力大会上发布Seedance 1.0 Pro视频生成模型[1] - 该模型是即梦视频3.0 pro模型的升级版本[1] 模型性能表现 - 在Artificial Analysis评测中，Seedance 1.0在文生视频和图生视频两项指标均排名第一[2] - 文生视频ELO评分1299，显著高于Google Veo 3 Preview的1252分[3] - 图生视频ELO评分同样领先竞品[3] 核心技术特点 - 支持原生1080P分辨率视频生成[2] - 单次生成可输出最长10秒视频[8] - 支持多镜头无缝切换叙事，保持人物场景一致性[6][8] - 在多主体动作和复杂运镜提示词表现优异[8] - 画面动态效果自然，结构性好，崩坏率低[8] - 生成速度极快，5秒1080P视频仅需40秒[8] - API调用价格优势明显，5秒视频仅需3.67元[8] 多镜头生成能力 - 支持单次生成包含不同景别和运镜的分镜视频[6] - 人物装束和场景风格在多分镜中保持高度一致[9] - 示例1：战术撤离场景三镜头叙事[10] - 示例2：餐饮宣传片三镜头叙事[12] - 示例3：咖啡馆紧急回复场景三镜头叙事[14][15] 图生视频测试表现 - 怪兽场景测试中毛发质感和光照效果逼真[21] - 环绕镜头运动中保持人物运动模糊效果[22] - 水中人物转身动作流畅，头饰细节完美[23] - 高风格化场景下维持风格一致性[24] - 2D动漫风格大景别变化表现稳定[25] 文生视频测试表现 - 复杂POV运镜场景细节清晰无崩坏[27] - 北非古城猫咪探索场景叙事连贯[28] - FPV无人机运镜森林追逐场景动态流畅[29] - 中国书法场景运笔姿势和墨迹晕染准确[31] - 地铁急刹车多人物理碰撞效果自然[33][34] 商业化进展 - 6月11日通过火山引擎向企业用户开放[36] - 已上线豆包App"照片动起来"功能[36] - 模型在速度、稳定性和价格三方面具备竞争优势[35] 行业影响 - 显著降低普通用户视频创作门槛[18] - 在文化特色内容生成方面具有本土优势[16] - 预计将推动AI视频应用受众大幅拓展[35]

Seedance 1.0 Pro 视频生成模型

Seedance 1.0 Pro 视频生成模型

聚焦多模态：ChatGPT时刻未到，2025大模型“变慢”了吗

北京商报· 2025-06-08 21:27

多模态大模型技术发展 - 智源研究院发布原生多模态世界模型Emu3 实现文本、图像、视频任意组合理解与生成通过单一模型捕捉世界规律[1] - Emu3采用原生多模态训练路径在模型初始阶段即纳入文字、图像、声音等模态数据区别于先强语言后多模态的传统路径[3] - 当前多模态模型技术路线未收敛视频生成能力处于GPT-2到GPT-3过渡阶段与产业预期存在显著差距[1][5] 视频生成技术现状 - 视频生成领域存在叙事性、稳定性、可控性三大挑战目前无法满足影视级专业内容制作需求[6] - Sora展现高质量视频生成潜力但DiT训练方案存在可扩展性问题类似2018年BERT模型的技术瓶颈[5] - 行业专家认为视频生成技术仍处早期相当于语言模型的GPT-2阶段尚未迎来"ChatGPT时刻"[5][6] 商业化应用进展 - 多模态模型商业化面临两大挑战：技术能力与市场需求未完全统一成本收益比尚未达到临界点[7] - 智象未来商业模式持续迭代从PaaS模型服务(2023)到SaaS工具(2024) 再到直接交付结果(2025)[8] - 全球多模态AI市场规模2024年达24亿美元预计2025年将快速增长至1280亿美元年复合增长率62.3%[8] 行业竞争格局 - 2024年大模型行业关键词为价格战 2025年转向应用多元化表面发展"变慢"实为技术沉淀期[1] - 传统CV模型应用成熟多模态模型需在视觉理解能力和泛化能力提升后才能替代现有解决方案[7] - 企业技术路线差异明显智源采用原生多模态训练其他厂商多采用语言优先的渐进式路径[3]

多模态大模型

Artificial Intelligence

多模态大模型

Artificial Intelligence

爱诗科技CEO王长虎：视频是最贴近用户的内容形态，好的模型带来了好的产品

华尔街见闻· 2025-06-06 21:20

公司发展历程 - 爱诗科技成立于2023年4月专注于视频生成大模型领域创始团队拥有抖音/TikTok视频AI技术背景 [5][6][7] - 2023年7月启动模型训练 10月进入全球视频生成第一梯队 2024年1月海外网页端正式上线 [7][8] - 2024年10月V3版本上线后用户量快速增长月活跃用户突破1600万 2025年2月移动端APP上线后月活超6000万 [4][22][23] - 2025年6月推出国内版"拍我AI" 对齐海外PixVerse最新功能并本土化 [23] 产品与技术亮点 - PixVerse在全球第三方评测中位列视频生成领域前三与可灵海螺并称三大图像生成产品 [4] - V3版本实现"毒液变身"等爆款功能用户仅需上传照片即可生成视频抽卡成功率接近100% [17][18] - V4支持5秒生成5秒视频实现有声视频生成 V4 5新增多角色联动电影级运镜等专业功能 [21][22] - 移动端上线4个月即进入美国iOS总榜前四 "Photo and Video"分类排名第一 [22] 关键战略决策 - 选择视频生成赛道尽管2023年该领域融资环境冷淡但团队认为视频是终极内容形态 [6][7][9] - Sora发布后坚持投入大模型训练采用DIT架构 3-6个月内实现技术追赶 [11][12] - 优先布局ToC海外市场通过降低创作门槛(免Prompt)和提升体验(高成功率)引爆用户增长 [16][17] 行业竞争格局 - 2024年Sora发布后视频生成从非共识变为热门赛道 Google 字节等大厂加速入场 [11] - 中国AI出海产品中 PixVerse增速排名第二 11月访问量增长80% [15] - 全球视频生成领域形成"三强"格局爱诗科技可灵海螺占据用户量前三 [4] 商业化进展 - 2024年12月上线移动端后迅速进入全球AI应用TOP100榜单(第52位) [4] - 2025年1月启动B端API服务覆盖电商营销等场景基于6000万用户数据优化 [23] - 毒液特效在国内二手平台售价达18元/个引发病毒式传播 [15]

PixVerse（拍我AI）

PixVerse（拍我AI）