Workflow
谷歌Veo 3
icon
搜索文档
刚刚,好莱坞特效师展示AI生成的中文科幻大片,成本只有330元
机器之心· 2025-08-21 21:08
多模态AI视频生成技术进展 - 多模态生成是AI未来发展方向,视频生成技术实现全链路覆盖:文字/语音→图像→视频,支持图片上传生成带音效视频并一键分享[1][2] - 百度蒸汽机2.0实现人物口型、表情、动作毫秒级同步,国产AI视频进入"有声有色"新阶段,运镜达到专业导演水准[4][5][6] - 技术突破包括时序对齐(口型与语音毫秒级同步)、多模态特征融合(语调对应微表情)、长时序连贯性、环境音效匹配及多角色交互精准定位[31] 百度蒸汽机2.0产品矩阵与商业化 - 推出Turbo版(720p/5s)、Lite版(轻量高效)、Pro版(1080p/电影级)、有声版(720p/5-10s音画一体)四大版本,全系价格仅为竞品70%,Turbo版5秒视频限价1.4元[8][10] - 通过百度搜索、APP及"绘想"平台开放体验,支持JPEG/PNG/WEBP格式输入,可添加背景音,实测显示单人吃播/多人对话/侧脸场景均表现自然[12][15][16][24] - 在VBench I2V评测中1.0版以89.38%总分全球第一,2.0版在指令遵循、运镜能力、叙事流畅度显著提升[32][33] 核心技术架构创新 - 首创LMMP(Latent Multi-Modal Planner)模型,通过扩散架构实现角色身份/台词/情感/互动的自动规划,保证多角色交互自然度与一致性[39] - 采用海量中文多模态数据训练,完成内容/人声/台词/环境音的信号抽取与对齐,构建专业镜头语言数据集[36][37] - 端到端训练音视频一体化系统,规划层与生成层相互校正,提升语义逻辑准确性,未来将拓展长视频生成技术[39][40] 行业应用与生态协同 - 模型深度融入百度搜索/内容/商业生态,降低创作门槛使普通用户可生成专业级视频,企业可低成本快速产出营销素材[42] - 好莱坞视效团队运用该技术,将2分钟科幻短片制作成本从传统上百万元降至330元,效率提升显著[44] - 开创应用驱动研发范式,形成"场景催生模型-模型反哺业务"闭环,强化搜索表现力与商业想象力[42]
谷歌Veo 3新玩法刷屏!国内同款神器也能复制
AI研究所· 2025-07-24 18:09
谷歌Veo 3视频生成模型的热潮 - 谷歌Veo 3视频生成模型近期在社交媒体上引发热潮 一条展示IKEA家具自动组装的视频播放量破百万 TikTok博主发布的魔性切草莓视频播放量达2000万 [1][4] - Veo 3的创意应用广泛 包括穿越vlog 童话角色现代街头演绎 沙雕新闻制作等 其中战地记者赤壁报道和曹操私生活八卦等内容极具创意张力 [4][7] - 该模型已面向70多个市场的AI Pro和Ultra用户开放 但存在生成额度限制 Pro用户每天仅3个生成额度 视频长度限制在3-8秒 [4] - 这股热潮推动Google DeepMind总访问量在4-5月增长162% 谷歌CEO表示用户已创建超过4000万视频 [9][11] 国内AI视频工具的发展 - 讯飞绘镜作为科大讯飞推出的AI视频创作平台 提供脚本生成 分镜建议 动态视频转化等功能 支持镜头编排 对白补充和音乐添加 [12] - 该平台接入可灵 LUMA等多个优质模型 支持效果对比 具备AI帮写脚本功能 解决创作中的叙事难题 [16] - 测试案例显示 平台能根据中文提示词生成高质量视频 如峨眉山猴子长城自拍场景 细节表现栩栩如生 具有超现实主义感 [14][17] - 平台提供多种场景模板 包括趣味二创 音乐MV 人物故事等 显示国内AI视频工具正逐步跟上国际发展节奏 [17] AI视频生成的应用场景拓展 - 在家居领域 Veo 3可实现家具自动组装展示 将毛坯房秒变北欧风格卧室 颠覆传统实体样板间模式 [1] - 在内容创作领域 模型支持ASMR解压视频 穿越vlog 童话改编 沙雕新闻等多种创新形式 [4][7] - 技术正在解锁IP创意新可能 如让经典童话角色走上现代街头 或制作具有新闻真实感的荒诞场景 [7][17]
靠视频大模型赚钱,还是个梦
投中网· 2025-07-18 14:10
行业动态 - 2025年AI视频生成赛道成为行业最热门领域,国内大厂如快手、字节、阿里、腾讯等密集推出迭代产品,包括快手可灵2.0、字节即梦3.0、阿里万相2.1等 [4] - 行业技术快速进步,语义响应、画面质量、动态质量等指标显著提升,商业化前景显现,如快手可灵AI 2025年Q1收入超1.5亿元,带动股价上涨30% [4] - 全球竞争格局中,快手可灵系列使用份额达30%,超越Runway(23.6%)和Veo-2(16.6%),但谷歌Veo 3凭借音画同步技术重新定义行业标准 [8][10] 公司竞争 - 快手可灵AI通过快速产品化抢占先机,上线一年用户达2200万,早期技术优势明显(1080P清晰度),但近期被字节即梦等竞品追赶 [8][10] - 字节即梦AI通过Seaweed和PixelDance模型迭代实现反超,即梦App下载量一度登顶免费榜,月活用户893万(快手可灵180万),积分激励策略更激进 [10][12][13] - 创业公司表现突出,如生数科技Vidu 2.0、爱诗科技PixVerse(月收入千万元级),形成与大厂差异化竞争 [9][5] 技术瓶颈 - 视频生成面临三大限制:架构局限(最长10秒片段)、算力不足(数据量指数级增长)、高质量训练数据稀缺,导致技术进入平台期 [19] - 关键痛点包括输出一致性差(相同输入产生不同结果)、运动镜头生成困难(仅能制作"动态PPT"),制约商业化应用 [16][17] - 厂商转向优化用户体验,如可灵3.0拓展多模态支持,即梦3.0强化多模态生成能力,竞争焦点从技术突破转向工作流优化 [20] 商业化探索 - 主流商业模式为免费+会员制,字节即梦连续包月69元/1080积分,快手可灵66元/660积分,付费群体集中于影视、广告等专业创作者 [12][13] - 成本优势与局限并存:AI视频生成成本(300美元/分钟)远低于传统动画(200万美元/分钟),但试错成本高导致实际支出不可控 [14][17] - 短剧领域试水案例增多,但投资方态度谨慎(单项目约20万元),市场验证尚未完成,如《上海奇境》《三星堆》票房表现平平 [18] 生态布局 - 字节依托抖音/TikTok流量和火山引擎技术协同,强化即梦在内容分发、剧本创作等环节的生态优势 [21][22] - 快手通过创作大赛(如《末日进行时》《太阳坠落之时》)挖掘优质创作者,结合资源扶持构建内容生态 [22]
靠视频大模型赚钱,还是个梦
创业邦· 2025-07-17 18:05
视频生成赛道竞争格局 - 国内AI视频生成赛道竞争激烈,快手可灵2.0、字节即梦3.0、阿里万相2.1、腾讯HunyuanCustom、生数科技Vidu2.0、MiniMax旗下Hailuo 02等模型先后登场,技术指标显著提升[3] - 快手可灵AI在2025年第一季度收入超过1.5亿元,带动快手港股涨幅超30%[4] - 字节跳动Seed负责人将2025年定义为图像生成商业化元年,Pixverse月订阅收入达千万元级别[4] 主要厂商市场表现 - 快手可灵AI全球用户达2200万,在Poe平台使用份额超30%,超越Runway和Veo-2[7] - 字节即梦App在苹果商店下载量一度登顶,超越豆包和红果短剧[13][14] - 谷歌Veo 3实现音画同步突破,重新确立技术领先地位[11] 技术发展现状 - 视频生成模型普遍面临"一致性"和"运动性"难题,输出效果不稳定[5][22] - 当前模型最长只能生成5-10秒片段,1分钟视频生成仍不可行[26] - 技术瓶颈主要来自架构限制、算力不足和高质量训练数据稀缺[26][28][29] 商业化探索 - 主流商业模式为免费+会员制,即梦包月69元/可灵66元,积分机制不同[17] - AI视频制作成本显著低于传统方式(300美元/分钟 vs 200万美元/分钟)但试错成本高[19][23] - 专业创作者是核心付费群体,集中在影视、短剧、广告、游戏领域[18] 厂商战略差异 - 字节即梦侧重用户规模扩张,月活达893万;快手可灵专注专业用户渗透,月活180万[17] - 快手通过创作大赛发掘人才,投资S级短剧项目;字节依托抖音生态和火山引擎技术支持[30] - 厂商竞争重点从技术突破转向用户体验优化和多模态能力拓展[29] 行业挑战 - AI视频在短剧领域成本优势不明显,1分钟短剧仍需数千元试错成本[23][24] - 动态镜头生成能力不足,当前AI视频多为"动态PPT"效果[23] - 投资方态度谨慎,多采取小规模试水策略[24]
全球AI周报:英伟达股价创新高,xAI发布Grok4系列模型-20250714
天风证券· 2025-07-14 19:47
报告行业投资评级 未提及 报告的核心观点 - 本轮AI资本开支周期仍在上升区间,看好北美云厂商云业务业绩的拐点释放,持续关注算力基础设施高景气 [4] - 大模型产品路径日渐清晰、推理成本持续下降,将提升AI在多场景的ROI,加快企业客户部署节奏 [4] - 国产大模型正从“能力追赶”阶段进入“效率驱动 + 生态扩张”阶段,To B与To C两端商业化落地路径将拓宽,形成闭环生态 [4] 全球AI动态 xAI发布Grok 4系列模型 - 2025年7月10日发布,含单代理Grok 4和多代理Grok 4 Heavy,为纯推理模型,上下文窗口最高支持256k tokens,仅向付费用户开放,Grok 4 Heavy需300美元/月会员费 [11] - Grok 4 Heavy在HLE测试中得分44.4%超谷歌Gemini 2.5 Pro,在GPQA、AIME25等测试表现优异,训练量是Grok 2的100倍,Grok 3到Grok 4推理训练量提升10倍 [4][11] - Grok 4开放仅支持文字 + 视觉输入、纯文字输出的API,定价为每百万tokens输入3美元、输出15美元,8月将发布Grok 4 Coding模型,未来计划推多模态代理和视频生成模型 [11] 谷歌Veo 3升级 - 2025年7月9日升级,用户上传照片可在谷歌Flow创作平台通过“Frames to Video”功能生成含音频和视频内容,能保持角色一致性,新增运镜功能 [18] - 生成质量上,Quality模型消耗credits是Fast模型的5倍,Veo 3在多方面表现惊艳,是AI叙事领域突破 [18] OpenAI将发布AI Agent浏览器 - 计划未来几周内发布,设计理念是部分用户交互在类ChatGPT原生聊天界面完成,整合AI Agent产品,可代表用户自动执行任务 [4][12] - 若ChatGPT 5亿周活跃用户使用,可能挑战谷歌Chrome主导地位,不过面临激烈竞争 [12] Kimi K2模型发布并开源 - 2025年7月11日发布并开源,为MoE架构基础模型,总参数1T,激活参数32B,擅长代码能力与通用Agent任务,在多项基准性能测试中取得开源模型中的SOTA成绩 [22] - 预训练阶段用MuonClip优化器,采用关键技术完成15.5T token平稳训练,在实际场景中能力泛化性和实用性强 [22] - 同步开源两个版本,模型及fp8权重文件已开源至Hugging Face,API服务上线,支持最长128K上下文,兼容多种API格式,计费为每百万输入tokens4元、输出tokens16元 [22] 昆仑万维发布并开源Skywork - R1V 3.0版本 - 2025年7月9日发布并开源,后训练阶段通过强化学习策略激发跨模态推理能力,在复杂逻辑建模与跨学科泛化方面实现双重飞跃 [28] - 在高考数学测试中得142分,在多学科推理MMMU测试中获76分,在多个关键领域性能显著提升,是开源领域强劲多模态推理模型之一 [28] 腾讯混元3D升级 - 2025年7月7日升级,推出业界首个美术级3D生成大模型Hunyuan3D - PolyGen,结合自研高压缩率表征BPT技术,可生成上万面复杂几何模型,支持三边面和四边面 [31] - 采用自回归网格生成框架,解决复杂物体建模和mesh自回归生成稳定性低的难点,生成模型在多方面优于现有SOTA模型,能自适应分配面数 [31] - 该能力已上线腾讯混元3D AI创作引擎,集成到腾讯多个游戏管线,助力美术师建模效率提升超70% [31] 投资建议 海外AI - 算力层面,建议关注云厂商业绩释放的Oracle、CoreWeave、微软,算力基础设施维持高景气度的英伟达、台积电、Marvell、博通、Vertiv [4] - AI应用方面,建议关注Cloudflare、Snowflake、Salesforce、Duolingo、Roblox、CyberArk、Applovin [4] 中国AI - 建议关注小米、快手、阿里巴巴、腾讯控股、金山云、美团、美图、第四范式 [4]
对话快手可灵丨AI 新世界加载中,我们还能做些什么?
雪豹财经社· 2025-07-02 10:22
核心观点 - AI生成视频技术已具备一定成熟度,尤其在写实风格表达和运动表现方面表现突出,但距离高水准大银幕制作仍有差距 [7][16] - 行业处于快速迭代期,国内外巨头加速入场,可灵AI凭借高频迭代(一年22次)和综合实力保持Tier 1水平 [8][23] - AI工具在短剧、广告、游戏等领域已实现商业化应用,尤其在科幻类内容制作中可节省50%-70%成本 [7][28][29] 技术进展 - 可灵AI 2.1模型在语义遵从、运动表现(速度/自然度/物理规律符合度)等基础能力显著提升,支持高速运动与极致互动表现 [10][16] - 视频生成技术突破点包括:水流波动/动物毛发纹理的真实渲染、长镜头表情变化细腻度、二维动漫打斗动作流畅度 [3][16] - 当前技术短板集中于运动模糊、边缘模糊、群像人脸崩坏等稳定性问题,音效同步能力暂未布局 [18] 商业化表现 - 可灵AI全球用户达2200万,企业及开发者超1万,Q1营收1.5亿元(70%来自P端订阅) [8] - 定价策略激进:5秒视频3.5元(0.7元/秒),低于行业1元/秒均价 [19] - 主要落地场景:短剧大空镜/战争场面生成(成本节省50%)、宠物魔改视频、广告特效模板 [7][15][29] 行业竞争格局 - 全球视频生成赛道形成百花齐放格局:可灵与谷歌Veo分列文生视频/图生视频全球前二,Meta Movie Gen、阿里通义万相2.1、字节即梦AI等相继入场 [8] - 核心竞争力差异:谷歌Veo依托YouTube数据强化音画同步,可灵聚焦基础模型迭代与创作者生态建设 [18][20] - 行业仍处早期阶段,技术迭代、创作者生态搭建、商业化路径探索为共同挑战 [8][24] 应用前景 - 科幻/魔幻类内容降本效果最显著,可达传统制作成本的1/50-1/2,现实主义题材因观众敏感度较高应用受限 [29][31] - 动画制作效率提升至传统工时的1/3,资金成本降低至1/2以下 [7][32] - 未来方向包括简化创作流程、强化多模态融合、拓展C端用户破圈 [15][17]
腾讯研究院AI速递 20250610
腾讯研究院· 2025-06-09 22:06
ChatGPT 4o更新 - ChatGPT 4o在回答复杂问题前会先停顿几秒"思考",页面显示"Thought for a few seconds",然后再决定搜索或直接回答 [1] - 这种"先理解后搜索"的能力提高了回答准确性,但用户需要等待更长时间,移动端触发率更高 [1] - OpenAI已将这种思考能力扩展到GPT-4.1和GPT-4.5等非推理模型中 [1] 谷歌Veo 3更新 - 谷歌Veo 3模型新增"360°"关键词功能,能生成3D环绕效果视频,但在物理真实性上仍有缺陷 [2] - 推出Veo 3-Fast版本,支持文生视频和自动生成配音,速度更快且价格降低80% [2] - Fast版本生成8秒720P视频仅需20 credits(比标准版便宜5倍),但面部细节和光照效果略有下降 [2] 智谱AI发布CoCo - 智谱AI推出CoCo企业自主Agent,具备"记忆能力"的AI助手,能记住员工互动、根据部门职能提供差异化服务 [3] - CoCo可集成企业知识库、数据库和系统工具,通过MCP平台实现与企业原有工作流的整合 [3] - 提供完整私有化部署方案确保数据安全,支持MCP小应用一键自动化工作流,已开放申请通道 [3] MiniCPM 4.0发布 - MiniCPM 4.0模型只关注重要内容,像人类阅读一样选择性处理信息,让手机等设备上的AI速度猛增220倍 [4] - 创新的"草稿+验证"机制让模型生成更快,同时用极致压缩技术将模型体积缩小90%但保持高性能 [5] - 自研专用软件系统和"小模型先试错"策略,让小模型用较小训练量就能超越同类产品,支持超长文本处理 [5] 小红书开源文本大模型 - 小红书hi lab开源dots.llm1大模型,采用MoE架构,总参数142B但仅激活14B,经11.2T高质量数据训练后性能可媲美Qwen2.5-72B [6] - 团队首次开源完整训练过程中每1T token的检查点,包括Pretrain与Instruct阶段共14个checkpoint [6] - 通过优化数据处理流程、AlltoAll通信重叠和Grouped GEMM实现,大幅提升训练效率,使用更少算力达到同等性能水平 [6] 即梦图片3.0 - 即梦智能参考3.0可用于海报重绘设计,上传图片后保持较好一致性,适合制作各类海报 [7] - 设计海报提示词结构公式:产品描述+布局+色调+背景+风格定位+情感氛围+标题设置+字体特色 [7] - 系统功能包括商业促销海报制作、活动展览海报设计及效果转换,可通过局部重绘精准修改文字内容 [7] DreamTech发布Direct 3D-S2 - Direct3D-S2 3D大模型刷新HuggingFace 3D建模趋势榜,被全球开发者广泛关注 [8] - 模型仅用8块GPU训练,效果超越闭源商用模型,训练效率提升近20倍,token吞吐量提高64倍 [8] - 核心创新为空间稀疏注意力机制(SSA),支持超大规模体素生成,已全面开源且采用MIT协议允许商业使用 [8] Meta投资Scale AI - Meta正与Scale AI洽谈超过100亿美元投资,将成为Meta最大外部AI投资和私企最大融资之一 [9][10] - Scale AI成立于2016年,由华裔Alex Wang和Lucy Guo创立,2024年5月获10亿美元F轮融资,估值138亿美元 [10] - 公司主要提供数据标注服务,包括图像视频标注、3D点云标注和NLP处理,客户包括OpenAI、微软、谷歌等科技巨头 [10] 荣耀进军机器人 - 荣耀进军机器人领域,首秀机器人奔跑速度达4m/s打破行业记录,展示其AI技术实力 [11] - 荣耀已发布阿尔法战略(HONOR ALPHA PLAN),将从智能手机制造商向AI终端生态公司转型,五年投资100亿美元 [11] - 荣耀组织架构已调整,成立AI&软件业务部、新产业孵化部,推进AI能力与产品线深度融合,通过HONOR AI Connect平台开放生态能力 [11] Ilya Sutskever演讲 - Ilya Sutskever在多伦多大学毕业典礼演讲中表示,AI最终将能完成人类所有工作,不是部分而是全部 [12] - 他解释称,人类大脑是生物计算机,数字计算机(AI)最终也能做到同样的事情,这将带来人类有史以来最大的挑战 [12] - Ilya呼吁人们密切关注AI发展,培养对AI能力的直觉,为即将到来的深刻变革做好准备 [12]
AI视频生成告别默剧时代!谷歌Veo 3一步生成高质量音画大片,rap、电影、动画片都拿捏
量子位· 2025-05-21 14:31
谷歌Veo 3视频生成模型 - 谷歌推出最强视频生成模型Veo 3,能够从画面到对白完全由AI原生生成,支持各种影视风格[1][4] - Veo 3具备电影级音视频能力,用户可通过自然语言描述角色、场景,并指定对白和语气[4][5] - 模型已面向Google AI Ultra订阅用户开放,企业用户可通过Vertex AI平台调用[5] Veo 3的多样化应用 - 用户生成内容涵盖说唱、复古烹饪节目、洗脑神曲等,展示模型强大的创意表现力[6][7][8] - 模型可应用于教育场景,如生成古希腊数学家毕达哥拉斯的教学视频[9] - 支持营销场景,能够重复强调同一概念实现洗脑效果[10] Veo 3的技术特性 - 模型支持连续生成长视频,通过首尾帧功能可制作1分钟左右的连贯视频[13][14] - 音频生成能力突出,可模拟电影级音效和角色自白[14] Veo 2的升级功能 - Veo 2新增"参考视频"功能,用于保持视频风格统一和角色形象一致[16] - 其他升级包括相机控制、画面扩展、物体添加/移除等功能[18] - 新功能已在Flow工具中部分上线,完整版即将登陆Vertex AI平台[19]