Workflow
Movie Gen
icon
搜索文档
Llama拉垮,Meta开始寻求“第三方AI产品”合作
华尔街见闻· 2025-08-23 14:18
核心战略转变 - Meta调整长期坚持的内部AI开发战略 转而与外部AI公司Midjourney进行技术合作 授权使用其美学技术 旨在为数十亿人带来美感 [1] - 公司采取全方位策略 与行业中最优秀的参与者合作 标志着从封闭自研向开放合作的重大战略转变 [1] - 由于对自研Llama系列模型信心减弱 Meta已开始在内部编码等任务中使用第三方模型 [2] 产品竞争态势 - 尽管2024年推出图像生成工具Imagine 并计划2025年将视频生成模型Movie Gen整合到Instagram 但产品被认为已落后于竞争对手 [2] - Meta产品与谷歌Veo 3和OpenAI Sora等已向消费者发布的模型相比显得过时 [2] - 公司已放弃公开发布旗舰大语言模型Behemoth的计划 转而集中精力开发新模型 [2] 资源投入与组织架构 - 近几个月积极从竞争对手处招揽顶尖AI研究员 加倍投资AI基础设施 收购AI语音公司Play AI 入股数据标注公司Scale AI [3] - AI部门Meta Superintelligence Lab在过去六个月经历四次重组 反映公司在确立有效组织结构方面遇到困难 [3] - 巨额投入未立即转化为稳定组织架构和领先产品 这种投入产出反差可能是寻求外部合作的原因 [3] 合作方价值分析 - Midjourney是2021年成立的AI图像生成公司 坚持不接受风险投资 自筹资金发展 成为最受欢迎的图像生成工具之一 [4] - 其核心价值在于成熟的美学技术 对社交媒体应用的视觉吸引力至关重要 [4] - 通过授权合作 Meta可快速提升AI生成内容质量 在用户体验上追赶竞争对手 [4]
速递|Meta联手Midjourney,或即将迎来Midjourney加持的AI图像、视频功能
Z Potentials· 2025-08-23 13:22
战略合作 - Meta与Midjourney达成技术授权合作 将整合AI图像和视频生成技术至未来产品线 [2] - 合作旨在开发能与OpenAI Sora、Black Forest Lab Flux及Google Veo竞争的产品 [2] - Meta自研工具Imagine已整合至Facebook、Instagram和Messenger AI视频工具Movie Gen支持文字生成视频 [2] 资源投入 - Meta为部分AI研究人员提供价值超1亿美元薪酬方案 大举招募人才 [3] - 公司向Scale AI投资140亿美元 并收购AI语音初创公司Play AI [3] - 曾与多家AI实验室洽谈收购 包括讨论参与970亿美元OpenAI竞标(未实际报价) [3] 合作方背景 - Midjourney为未接受外部融资的独立AI开发商 年收入预计达2亿美元(2023年) [4] - 提供月费10美元至120美元订阅服务 2024年6月发布首款AI视频模型V1 [4] - 面临迪士尼和环球影业版权诉讼 被指控使用受版权作品训练模型 [4] 行业动态 - 多家AI模型开发商(包括Meta)面临类似版权指控 近期法庭判决倾向科技公司 [4] - AI图像生成领域竞争加剧 主要参与者包括OpenAI、Google及Black Forest Lab等企业 [2]
AI 焦虑的扎克伯格,盯上了华人天才少女
搜狐财经· 2025-08-14 20:33
扎克伯格,又开始 " 狩猎 " 了。 这一次,他盯上了 AI 视频独角兽—— Pika Labs。这家公司背后是 " 华人天才少女 " 郭文景。 郭文景 2023 年创立 Pika Labs,一年之内连下三轮融资、吸走 5500 万美元;到 2024 年 B 轮,再揽 8000 万美元,Pika Labs 估值直接逼近 5 亿美 元。 而这一切,只因郭文景的父亲郭华强,是信雅达的董事长。信雅达还连夜发公告澄清,与 Pika 真没业务往来! 如今,因 AI 而焦虑的扎克伯格,把算盘打到了 Pika 身上。 一边,是急着补齐 AI 短板、挥着钞票扫货的科技巨头;另一边,是履历开挂、家底殷实的年轻创始人。这场潜在的收购,戏味十足。 Pika 会不会成为 Meta 拼图上的一块核心拼板?郭文景会不会把亲手打造的宝贝交出去? 哈佛女孩干出 AI 独角兽 聊 Pika 之前,得先聊聊郭文景。因为她的故事,比她做的 AI,还要传奇。 2015 年,16 岁的郭文景在杭州二中读书,信息学奥赛(浙江赛区)一等奖拿得轻轻松松。 后来,受麻省理工邀请,她跑到北美编程邀请赛,面对的是一群哈佛、斯坦福、卡内基梅隆的大学生代表队,她硬是 ...
Artificial Intelligence Index Report 2025
Stanford University· 2025-07-28 19:12
全球AI投资与市场趋势 - 2024年全球私人AI投资达到创纪录的2523亿美元,同比增长26%,其中私人投资增长44.5%,并购活动增长12.1%,过去十年总投资增长超过13倍[75] - 生成式AI的私人投资在2024年达到339亿美元,同比增长18.7%,是2022年的8.5倍以上,占所有AI相关私人投资的20%以上[76] - 美国在全球AI私人投资中继续领先,2024年达到1091亿美元,是中国93亿美元的近12倍,是英国45亿美元的24倍[77] - 2024年全球对AI产品和服务持乐观态度的比例在中国为83%,印尼为80%,而美国仅为39%,加拿大为40%[18] - 全球对AI产品和服务的乐观态度从2022年的52%增至2024年的55%,其中加拿大和德国的乐观比例分别增长17%和15%[106][107] AI技术与硬件发展 - 2024年AI硬件性能以每年43%的速度增长,价格性能每年下降30%,能源效率每年提升40%[53][128] - GPT-3.5级别系统的推理成本从2022年11月的每百万tokens 20美元降至2024年10月的0.07美元,成本降低超过280倍[51][126] - AI模型的训练计算需求每五个月翻倍,数据集规模每八个月翻倍,训练所需功率每年翻倍[50][125] - 2022年11月至2024年10月,GPT-3.5级别系统的推理成本下降了280倍,硬件成本每年下降30%,能源效率每年提高40%[19] - AI模型训练的碳排放量显著增加,从AlexNet(2012年)的0.01吨增长至GPT-4(2023年)的5184吨和Llama 3.1 405B(2024年)的8930吨[54][129] AI研究与专利 - 2024年AI专利数量达到122,511项,比2023年增长29.6%,其中中国占全球AI专利总量的69.7%[52][127] - 2023年全球AI专利数量达到122,511项,比上一年增长29.6%[188][190] - 2013年至2023年间,AI相关论文总量从约102,000篇增长至超过242,000篇,增幅超过两倍,2023年同比增长19.7%,AI在计算机科学论文中的占比从21.6%提升至41.8%[123][137][138] - 2023年,中国的AI论文引用占全球总量的22.6%,欧洲为20.9%,美国为13.0%[159][160] - 2023年,美国在全球前100篇被引用最多的AI论文中占50篇,中国占34篇,排名第二[175][176] AI应用与行业发展 - 2024年78%的企业报告使用AI,比2023年的55%显著增长[15] - 使用生成式AI的组织比例从2023年的33%翻倍至2024年的71%[78] - Waymo每周提供超过15万次自动驾驶汽车服务,百度的Apollo Go机器人出租车已在中国多个城市运营[14] - 2023年FDA批准了223种AI驱动的医疗设备,而2015年仅为6种[14] - 中国在工业机器人安装量上继续领先,2023年安装了276,300台,是日本的6倍,美国的7.3倍,占全球安装量的51.1%[81] AI模型与性能提升 - 2024年行业开发的显著AI模型占比达到近90%,相比2023年的60%显著增长[121] - 美国在2024年开发了40个显著AI模型,远超中国的15个和欧洲的3个[124] - 2024年AI模型在新基准测试(如MMMU和GPQA)上的表现显著提升,分别提高了18.8和48.9个百分点[55] - 2024年AI生成视频技术取得重大进展,推出了如OpenAI的SORA和Meta的Movie Gen等高质量视频生成模型[61] - 先进的LLM(如GPT-4和Claude 3 Sonnet)尽管采取了减少显性偏见的措施,但仍表现出隐性偏见,例如将负面词汇与黑人联系、将女性与人文学科联系而非STEM领域[73] AI政策与法规 - 2024年全球AI立法提及率同比增长21.3%,覆盖75个国家,自2016年以来增长了9倍[20] - 美国在2024年引入了59项与AI相关的联邦法规,比2023年的25项增长超过一倍,涉及42个不同机构[99] - 2024年RAI(负责任AI)相关论文在顶级AI会议上的接受数量达到1,278篇,比2023年的992篇增长28.8%,自2019年以来持续上升[74]
对话快手可灵丨AI 新世界加载中,我们还能做些什么?
雪豹财经社· 2025-07-02 10:22
核心观点 - AI生成视频技术已具备一定成熟度,尤其在写实风格表达和运动表现方面表现突出,但距离高水准大银幕制作仍有差距 [7][16] - 行业处于快速迭代期,国内外巨头加速入场,可灵AI凭借高频迭代(一年22次)和综合实力保持Tier 1水平 [8][23] - AI工具在短剧、广告、游戏等领域已实现商业化应用,尤其在科幻类内容制作中可节省50%-70%成本 [7][28][29] 技术进展 - 可灵AI 2.1模型在语义遵从、运动表现(速度/自然度/物理规律符合度)等基础能力显著提升,支持高速运动与极致互动表现 [10][16] - 视频生成技术突破点包括:水流波动/动物毛发纹理的真实渲染、长镜头表情变化细腻度、二维动漫打斗动作流畅度 [3][16] - 当前技术短板集中于运动模糊、边缘模糊、群像人脸崩坏等稳定性问题,音效同步能力暂未布局 [18] 商业化表现 - 可灵AI全球用户达2200万,企业及开发者超1万,Q1营收1.5亿元(70%来自P端订阅) [8] - 定价策略激进:5秒视频3.5元(0.7元/秒),低于行业1元/秒均价 [19] - 主要落地场景:短剧大空镜/战争场面生成(成本节省50%)、宠物魔改视频、广告特效模板 [7][15][29] 行业竞争格局 - 全球视频生成赛道形成百花齐放格局:可灵与谷歌Veo分列文生视频/图生视频全球前二,Meta Movie Gen、阿里通义万相2.1、字节即梦AI等相继入场 [8] - 核心竞争力差异:谷歌Veo依托YouTube数据强化音画同步,可灵聚焦基础模型迭代与创作者生态建设 [18][20] - 行业仍处早期阶段,技术迭代、创作者生态搭建、商业化路径探索为共同挑战 [8][24] 应用前景 - 科幻/魔幻类内容降本效果最显著,可达传统制作成本的1/50-1/2,现实主义题材因观众敏感度较高应用受限 [29][31] - 动画制作效率提升至传统工时的1/3,资金成本降低至1/2以下 [7][32] - 未来方向包括简化创作流程、强化多模态融合、拓展C端用户破圈 [15][17]
视频生成大模型群雄逐鹿 却不温不火
中国经营报· 2025-06-27 16:17
国内视频大模型发展现状 - 国内视频生成大模型行业高开低走,目前处于不温不火状态,主要原因是用户更偏好真人博主出演的短视频而非AI生成内容 [2] - 腾讯混元、快手可灵、字节跳动即梦等国内视频大模型各自拥有独特技术优势:可灵擅长图像识别转换、即梦强于自然语言处理、混元结合两者优点并增加自定义选项 [2] - 可灵AI经过一年发展,在影视、短剧、广告、游戏、高校教育等行业实现深度实践探索 [2] 可灵AI商业化进展 - 截至2025年4月,可灵AI全球用户突破2200万,月活增长25倍,累计生成1.68亿个视频及3.44亿张图片 [3] - 可灵系列模型占据全球AI视频工具市场30.7%访问量份额,在文生视频、图生视频赛道稳居全球前二 [3] - 可灵2.0大师版显著提升语义响应、动态质量和画面美学,新增多模态视频编辑功能 [3] - 商业化变现至2025年2月累计营收超1亿元,2025年3月年化收入运行率突破1亿美元,4-5月单月付费均超1亿元 [4] - 专业用户(P端)付费订阅贡献70%营收,这类用户兼具传播属性和付费能力 [4] 国际竞争格局 - OpenAI Sora支持60秒高质量视频生成,采用创新"视频作为图像补码"方法,但对GPU算力要求高导致延迟较长 [5] - Meta Movie Gen擅长社交媒体视频样式,优化移动端性能并具有电影级审美,但动作连贯性有待提升 [5] - RunwayML Gen-4 Alpha专注10-20秒短视频高保真合成,提供丰富编辑功能,更受创意行业青睐 [6] 其他国内厂商技术特点 - 阿里通义万相2.1增强时空上下文建模,支持无限长1080P视频,首创中文文字视频生成功能 [6] - 腾讯混元可生成5秒内2K短视频,在文本一致性、运动质量和画面质量维度领先 [6] - 百度"文心一言"4.0的"一镜流影"插件主打批量化720p短视频生产,整合进大模型生态提高用户可及性 [7] - 字节跳动即梦AI可生成2分钟1080p视频,擅长复杂运动描绘,但内容互动量呈现高开低走趋势 [7] 行业未来发展趋势 - 视频大模型将向智能化、个性化方向发展,提升复杂内容生成能力和定制化服务水平 [8] - 5G等高速网络技术普及将改善视频传输体验,进一步推动行业应用 [8]
一键生成多场景广告视频! Meta(META.US)重磅升级AI数字广告工具
智通财经网· 2025-06-17 23:13
Meta AI广告工具升级 - 公司推出升级版图像转视频广告功能,允许广告商上传最多20张图片生成定制化动态视频广告,AI系统自动配乐并叠加文字 [1] - 新工具与戛纳国际创意节同步发布,基于Llama系列大模型,旨在降低广告制作成本并简化流程 [1] - 此前已推出文本生成广告图片功能(2023年5月)和图像转AI生成GIF工具(2024年10月) [1] - 同时更新面向消费者的文本转视频工具"Movie Gen",该工具于2023年秋季首次上线 [1] Meta的AI战略布局 - 自2023年起将人工智能列为头号优先事项,与OpenAI、谷歌、微软等竞争开发大模型 [2] - 近期以143亿美元投资Scale AI获取49%股权,后者估值超290亿美元 [3] - Scale AI CEO将加入Meta核心团队,领导通用人工智能"超级智能"团队 [3] - 此次投资可能加速Meta AI应用整合及变现,优化数据标注改进自有模型 [3] - 与Scale AI在Defense Llama项目上已有合作,涉及国防军事应用 [3] 投资Scale AI的战略意义 - Scale AI作为全球数据标注与模型评测龙头,掌握AI时代关键数据资源 [4] - 将帮助Meta完善AI生态三位一体:算力(英伟达GPU+自研ASIC+数据中心)、大模型(Llama系列)、数据(Scale AI) [4] - 被视为Meta构建"AI护城河"的最后关键拼图 [4] - 有望推动Llama系列大模型商业化,将Meta AI深度嵌入社交、广告与硬件生态 [4] 数字广告业务协同效应 - 数字广告是核心创收引擎,30亿用户为基础 [3] - AI广告工具已连续多季度推动广告营收超预期增长 [3] - 开源大模型及生成式AI工具帮助广告商扩大潜在用户覆盖 [3] - 为广告商和用户提供基于AI的全新广告推荐体验,被华尔街视为股价持续上涨的重要逻辑 [3]
AI成广告业务重点,消息称Meta正测试AI自动生成视频广告
环球网· 2025-06-17 17:04
Meta AI广告技术进展 - Meta升级图像转视频广告工具 允许营销人员利用AI将产品图片转化为多场景视频广告 最多可上传20张图片并添加背景音乐和文本 [3] - Meta首席执行官马克・扎克伯格将AI列为2024年公司首要任务 与OpenAI 谷歌和微软等竞争对手展开AI模型及消费者功能竞赛 [3] - Meta本月向Scale AI投资143亿美元(约1027亿元人民币) 并组建专注于"超级智能"AI的团队 [3] - AI广告业务已成为Meta关键战略重点 该业务占公司年收入的98% [3] - Meta此前已推出文本创建广告图功能 2023年10月推出图片转AI动图广告功能 目前正在开发面向普通消费者的Movie Gen文本转视频工具 [3] TikTok AI广告工具布局 - TikTok推出新AI广告工具 包括广告视频生成功能 允许广告商上传商品图片或文字提示生成5秒短视频 [4] - 文字与图片转视频功能属于TikTok 2024年推出的"Symphony"产品系列 该工具旨在帮助品牌利用生成式AI制作广告 [4] - TikTok此前已允许广告商通过AI数字人在平台内推广和销售产品 [4] 行业动态 - 科技巨头Meta和短视频平台TikTok同期推进AI自动生成视频广告功能 显示行业对AI广告技术的集中投入 [1][3][4] - AI生成广告技术正成为数字营销领域重要发展方向 主要平台通过降低广告制作成本吸引中小广告主 [3][4]
CVPR 2025 Tutorial:从视频生成到世界模型 | MMLab@NTU团队&快手可灵等联合呈现
量子位· 2025-06-05 16:32
视频生成技术进展 - 图像生成技术已广泛应用于日常生活 视频生成技术从最初的"抖动幻影"跃升为能讲故事、控制动作、进行长时推理的高质量动态内容[1] - 可灵、Sora、Genie、Cosmos、Movie Gen等模型突破不断拓宽视频生成边界 研究者开始探讨视频生成能否成为通往世界模型的桥梁[2] - 视频生成技术已初步展现对时空一致性、视觉因果链的建模能力 并可能发展为交互式世界模型[6] 世界模型研究方向 - 研究重点转向如何将视频生成作为视觉先验 赋能AI感知世界、理解交互、推理物理 迈向更具具身智能能力的世界模型[3] - 学术界与产业界研究者将探讨生成建模、3D理解、强化学习与物理推理 将生成能力转化为感知、预测与决策的智能基座[4] - 视频生成技术可能帮助理解物体交互 捕捉人类行为背后的物理与语义因果 从生成走向交互式世界模型[6] CVPR 2025教程安排 - 教程将探讨基础世界模型规模化作为实现具身AGI的路径 由Google DeepMind科学家Jack Parker-Holder主讲[5] - 斯坦福大学博士生Hong-Xing "Koven" Yu将分享基于物理的世界模型在生成、交互与评估方面的研究[5] - Luma Al首席科学家Jiaming Song将讨论从推理优先视角突破预训练算法天花板[5] - Kling Al视频生成负责人Pengfei Wan将介绍可灵模型及更强大视频生成模型的研究进展[5] - 加州大学伯克利分校助理教授Angjoo Kanazawa将探讨面向智能的4D世界理解[5] - 纽约大学助理教授Sherry Yang将分享面向具身学习的生成式世界建模[5] 行业应用前景 - 视频生成技术不仅是内容输出工具 更是通向感知-建模-推理-决策一体化世界模型的入口[6] - 该领域对关注视频生成与多模态理解、具身AI、机器人交互智能、生成式世界建模与物理推理的研究者具有重要价值[7]