Workflow
Veo 3
icon
搜索文档
电子行业2026年投资策略:AI创新与存储周期
广发证券· 2025-12-10 17:08
核心观点 - 报告核心观点认为,AI创新与存储周期是电子行业2026年投资策略的两大主线 AI模型创新与资本开支是产业发展的核心动力,驱动AI产业链协同发展 同时,AI推理需求驱动存储价格上涨和架构升级,存储周期持续向上 [1][4] AI创新:模型创新与CAPEX筑基,AI产业链协同发展 需求:模型创新与CAPEX筑基 - AI产业链包括AI硬件、AI CAPEX和AI模型与应用三大环节,其中AI CAPEX是驱动上游硬件发展的核心动力源 [12] - 模型创新是AI发展的核心动力,大模型在Chatbot、Coding、多模态等场景快速渗透,持续拓展应用领域 [14] - AI CAPEX构筑AI周期的基石,云厂商、头部企业及主权国家的资本开支具有刚性与延续性,为上游硬件环节提供订单与现金流支撑 [14] - 海外云厂商及Oracle的CAPEX/OCF在2025年第三季度环比有所下降,但仍处于可控范围,未来AI周期持续向上 [36] 模型创新进展 - **谷歌**:持续突破多模态模型边界,产品矩阵覆盖内容理解、生成到虚拟世界交互全链条,多模态生成在清晰度、动作可控性与叙事连贯性上已具备商业化价值临界点 [19] - **OpenAI**:通过记忆功能、GPT-5.1及群聊功能升级个性化体验,内部预测2025年收入将达130亿美元,同比增约350%,2030年收入预期上调至2000亿美元 [25][28] - **Anthropic**:在企业级LLM API市场份额达32%,内部预测2025年营收38亿美元,2028年目标700亿美元,毛利率有望从-94%跃升至77% [29] 算力:GPU与ASIC共舞 - AI算力竞争已转向“专用硬件+计算平台”的生态构建,展现从通用计算到专用AI计算的产业演进路径 [42] - **谷歌**:发布TPU v7 Ironwood,单芯片峰值算力达4614 TFLOPs,性能较前代提升4倍以上,支持单SuperPod扩展到9216个芯片,构建了从芯片集群到云服务的完整生态闭环 [45][48] - **英伟达**:确立年度产品更新节奏,发布Vera Rubin NVL144和Rubin Ultra NVL576平台,后者性能可达Blackwell Ultra GB300 NVL72平台的14倍,通过“硬件+软件+网络”垂直生态巩固市场地位 [52][56] - **AWS**:宣布研发下一代定制芯片Trainium4,将集成英伟达NVLink Fusion互连技术和UALink,旨在提升计算、内存和互连性能 [58] - **国产算力**:从“单点突围”转向“系统升维”,华为、阿里等厂商推出超节点解决方案,华为昇腾芯片规划以一年一代、算力翻倍的速度演进 [61][63][64] PCB:价值量提升与扩产 - **单GPU PCB价值量持续提升**:英伟达Rubin系列新增midplane、CPX板及正交背板等设计,驱动PCB规格升级 测算显示,Vera Rubin NVL144若包含正交背板,单GPU PCB价值量预计达1313美元,较A100/H100时代提升显著 [70][74] - **单ASIC PCB价值量持续提升**:谷歌TPU v7和AWS Trainium3的架构升级对PCB提出更高要求 测算显示,2025年AWS T系列单ASIC对应PCB价值量预计超700美元,Google TPU约363美元 [78][86] - **AI PCB市场规模高速增长**:预计AI服务器PCB市场规模将从2025年的49亿美元增长至2026年的102亿美元,同比增长108% 其中ASIC AI服务器PCB市场规模预计从32亿美元增至63亿美元,同比增长94% [89] - **国内PCB厂商积极扩产**:沪电股份、生益电子、景旺电子等国内头部厂商通过海外建厂、国内技改等方式积极扩充AI PCB产能 [90][93] 存储:AI推理驱动增长 - AI推理采用分级存储架构,HBM、DRAM、SSD、HDD协同支撑高效计算 [101] - AI推理,特别是超长上下文和多模态需求,驱动AI存储快速增长 测算显示,2026年10个谷歌级推理应用所需存储容量将达48EB [106] - 英伟达GPU配置持续升级,单GPU对应的HBM容量从H100的80GB提升至VR300 Ultra的1024GB,同时CPX系列新增GDDR7内存 [108] 电源:800V HVDC升级 - 为满足MW级机柜功耗需求,英伟达提出800V HVDC供电架构,可减少电能转换环节、降低损耗并简化热管理 [111] - SiC和GaN功率半导体是实现800V HVDC架构的关键,能实现更高功率密度与能效 [112] - 采用超高压SiC MOSFET的固态变压器可将高压交流电直接转换为800V直流,进一步提升能效 [119] - 预计至2030年,全球SiC&GaN功率器件市场规模将达25.64亿美元 [121] 存储周期:AI驱动价格上涨,扩产与升级同发力 价格与盈利 - AI驱动云侧和端侧存储搭载量显著增长,存储价格持续上涨,存储原厂毛利率显著提升 [4] 扩产:优先投向HBM - 海外存储原厂资本开支进入上行区间,产能优先投向HBM,传统DRAM和NAND投产较为谨慎 [4] 架构升级与设备需求 - **DRAM升级**:4F2+CBA工艺延续主流DRAM升级趋势;3D堆叠DRAM显著提升带宽,指向AI推理市场 [4] - **NAND升级**:3D NAND堆叠层数持续升级 [4] - 存储架构升级为设备需求带来新机遇 [4] 产业模式与接口芯片 - 存储代工模式迎来产业变革机会 [4] - 接口芯片如MRDIMM和VPD为产业打开新空间 [4] 投资建议 - 建议关注AI产业链相关标的,包括模型创新与CAPEX驱动下的算力、存储、PCB、电源等环节 [4] - 建议关注存储产业链相关标的,聚焦AI驱动下的价格上涨、架构升级及产业模式变革机会 [4]
AI初创公司Runway推出影片生成模型Gen 4.5;字节Seed发布GR-RL,首次实现真机强化学习穿鞋带丨AIGC日报
创业邦· 2025-12-03 08:08
可灵AI产品发布 - 公司正式发布全新产品可灵O1,该产品基于全新的视频和图像模型,整合文字、视频、图片、主体等多模态输入 [2] - 可灵O1将所有生成和编辑任务融合于一个全能引擎,解决了AI视频生成中角色、场景等一致性难题 [2] - 产品为影视、自媒体、广告电商等应用场景提供深度适配的一站式解决方案 [2] OpenAI商业模式探索 - ChatGPT应用的最新安卓测试版中存在被标记为"特色广告"的代码,包含引用商业广告的字符串,例如"搜索广告"和"集市内容" [2] - 公司正考虑根据ChatGPT对用户交互的记忆投放个性化广告 [2] - 公司正从Google和Meta等竞争对手处挖走顶尖广告人才,并在LinkedIn发布与广告相关的招聘信息 [2] 字节跳动机器人技术突破 - 公司Seed团队发布研究成果GR-RL,着力于拓展VLA模型在长时程精细灵巧操作方面的能力边界 [2] - GR-RL提出从离线数据筛选到在线真机微调的强化学习框架,首次实现让机器人给整只鞋连续穿鞋带 [2] - 相较前作监督学习模型GR-3,GR-RL在穿鞋带任务上将成功率从45.7%提升至83.3%,失败情况减少近70% [2] Runway模型性能领先 - AI初创公司Runway推出最新影片生成模型Gen 4.5,能依照文字指令生成高画质影片 [3] - 新模型在第三方评测平台Video Arena排名第一,超越谷歌Veo 3(排名第二)和OpenAI的Sora 2 Pro(排名第七) [3] - Gen 4.5擅长理解物理效果、人类动作、镜头运动与因果关系,能更精准模拟真实世界情境,并于本周向所有用户全面开放 [3]
Runway rolls out new AI video model that beats Google, OpenAI in key benchmark
CNBC· 2025-12-01 22:05
新产品发布 - 人工智能初创公司Runway发布新一代视频生成模型Gen 4 5 [1] - 新模型允许用户根据描述动作和行为的文字提示生成高清视频 [1] - 该模型在理解物理原理、人体运动、摄像机移动及因果关系方面表现出色 [1] 行业竞争地位 - Gen 4 5在独立基准测试平台Video Arena排行榜上位列第一 [2] - 该排行榜由独立AI基准测试与分析公司Artificial Analysis维护 [2] - 排名通过匿名比较不同模型输出并由用户投票决定 [2] - Google的Veo 3模型排名第二 OpenAISora 2 Pro模型排名第七 [2] 公司运营亮点 - Runway以约100人的团队在竞争中超越了市值万亿美元的公司 [3] - 公司认为通过极度专注和勤勉即可达到技术前沿 [3]
刚刚,神秘模型登顶视频生成榜,又是个中国模型?
机器之心· 2025-11-28 16:05
神秘模型Whisper Thunder登顶AI视频榜 - 一个名为Whisper Thunder (aka) David的神秘模型登上了Artificial Analysis视频榜榜首,超越了包括Veo 3、Veo 3.1、Kling 2.5以及Sora 2 Pro在内的所有公开AI视频模型 [1] Artificial Analysis榜单排名详情 - 在Artificial Analysis全球公开权重模型排行榜上,Whisper Thunder (aka) David以1,247的ELO评分位列第一 [2] - 排名第二的是谷歌的Veo 3 (无音频版),ELO评分为1,226 [2] - 快手KlingAl的Kling 2.5 Turbo 1080p以1,225的ELO评分位列第三 [2] - 谷歌的Veo 3.1 Preview (无音频版)和Veo 3.1 Fast Preview (无音频版)分别以1,223和1,219的ELO评分位列第四和第五 [2] - Luma Labs的Ray 3排名第六,ELO评分为1,210 [2] - OpenAI的Sora 2 Pro (无音频版)以1,205的ELO评分位列第七 [2] - MiniMax的海螺02 Standard O和海螺2.3 O分别以1,198和1,188的ELO评分位列第八和第九 [2] - Lightricks的LTX-2 Pro (无音频版)以1,187的ELO评分位列第十 [2] Whisper Thunder模型特性与市场反应 - 该模型生成的视频时长固定为8秒,且运动幅度肉眼可见更强 [3] - 目前其在平台上的出现频率有所降低,用户可能需要反复刷新尝试才能遇到 [3] - 由于测试平台无音频测试机制,该模型是否具备原生音频能力仍是未知 [3] - 不少网友从其生成效果和审美倾向推测,这个神秘模型很可能来自中国 [4] - 尽管在高动作场景下会出现一些抖动,但其生成效果仍然非常令人印象深刻 [11] - 作为榜单头名,该模型在Artificial Analysis Arena的用户投票机制下,仍然存在不少的生成瑕疵 [13] - 行业关注度极高,在下一次刷新之前,所有人都在等待它闪亮登场 [14] Whisper Thunder模型生成示例 - 能够生成复杂的延时摄影场景,如起重机吊装钢梁、城市天际线快速变化的建筑工地 [5] - 可处理特殊镜头效果,如产生变形镜头光斑的沙漠高速公路经典汽车飞驰场景 [6] - 擅长动漫风格内容生成,如将钢琴键转化为彩色音符环绕角色的情感化音乐表演场景 [7] - 能够生成具有电影感的城市景观,如从圣保罗屋顶拍摄的洗衣绳、天线与城市网格 [8] - 可创建环保主题场景,如太阳能电池板追踪日光、风力发电机转动的宁静山谷 [9] - 能够生成超现实主义内容,如月光泻湖中鳞片闪烁的美人鱼 [10] - 可精确生成动物行为细节,如针鼹用长舌捕捉蚂蚁时刺的颤动 [12]
深度讨论 Gemini 3 :Google 王者回归,LLM 新一轮排位赛猜想|Best Ideas
海外独角兽· 2025-11-26 18:41
文章核心观点 - Google发布的Gemini 3标志着公司在pre-training算力投入上首次追平OpenAI,并在数据体系、多模态能力、系统架构和产品体验上实现协同突破,意味着大模型竞争格局加速演变为Google、Anthropic与OpenAI三家交替领先的动态结构[4][5][14] Gemini 3的核心优势 - 模型训练FLOPs达到6 × 10^25级别,首次在pre-training算力上追平OpenAI,证明scaling law依然有效[5] - 充分利用自身TPU集群效能,实现算力规模指数级跨越,解决算力利用率瓶颈[6] - 训练数据量相比Gemini 2.5可能增加一倍,凭借二十多年积累的用户搜索历史、视频观看记录等构成不可迁移的数据护城河[7] - 采用稀疏化混合专家架构,稀疏度可能超过50%,以更少计算资源调用更广阔知识储备,依托自研TPU和OCS互联技术实现软硬高度耦合的系统级优势[8][10][11] - 展现独特的产品经理式编程思维,先深度分析问题并输出任务需求书,再设计测试方案,最后执行代码编写,有效避免错误代码回滚成本[12] - 内部组织与研发模式成功转型,克服DeepMind与Google Brain整合的阻力,探索出适合大公司的模型研发机制[13] 大模型竞争新格局 - 行业形成Google强于pre-training和Infra、OpenAI优势在post training的共识,但随着Gemini 3在pre-training阶段追平甚至反超,OpenAI的护城河不再稳固[18] - OpenAI在agentic任务和工具调用上仍是绝对王者,GPT-5.1在复杂指令执行与工具使用能力基准测试中分数高于Gemini 3,并拥有2000万付费用户构成的优质反馈数据源[18][20] - Anthropic采取聚焦差异化策略,Claude系列在Coding和Agent稳定性上表现良好,更适合处理编程自动化及企业内部工作流[24] - 红杉中国XBench测评显示Gemini 3 Pro在500道博士级题目上准确率比GPT-5.1高约10%,处理速度是后者的3倍,成本仅为十分之一[22] 多模态能力突破 - Gemini 3在多模态理解上断档领先,能精准识别非正常图片手指数量、复杂图片特定按键,视觉编码器与语言模型实现高精度对齐[25] - 在还原撕碎购物小票案例中,Gemini 3完美还原所有菜名、单价及总金额,展现惊人逻辑闭环能力,而GPT-5.1存在明显误差和遗漏[27][31] - Google Veo 3.1追求极致物理一致性,能在1分钟以上生成过程中保持人物特征、场景布局高度一致,画面质感接近实拍素材,可能服务于电影工业专业工具[40][41] - OpenAI Sora 2聚焦创意优先,引入语音与视觉同时生成能力,降低内容创作门槛,更符合社交平台审美需求[43] TPU系统成本与架构优势 - 使用自研TPU进行训练和推理的成本约为Nvidia GPU方案的一半,通过掌控光模块、交换机等系统生态绕过组件层层加价[46][49] - TPU为Transformer架构量身定制,软硬高度协同形成长期能效优势,同时通过模型粘性反哺GCP市场份额[50] - 架构设计上押注scale-out横向扩展,依靠OCS技术构建超大规模Superpod,优于Nvidia的scale-up纵向扩展思路,光通信架构具长期演进优势[51][52][54] - Anthropic宣布使用Google TPU多达100万个芯片,标志着算力供应多平台策略,有助于Google生态扩张并获得顶级模型团队反馈[56] Gemini商业化路径 - 公司将Gemini提升至最高战略优先级,通过推广Antigravity IDE、Chrome浏览器插件功能及学生优惠等措施构建生态[62][64][65] - 移动端策略侧重将智能蒸馏至10B-20B参数量级小模型,支撑AI Overview达到10亿级DAU,通过升级Google Assistant快速触达海量用户[66] - 商业化变现持审慎态度,首要考核指标为用户满意度而非短期变现率,已构建大规模模型评测模型飞轮进行自动化评估[67] - 在广告归因、PMax及广告主生态上拥有深厚护城河,Meta和腾讯引入大模型技术后广告收入增长约20%,而字节跳动增长维持在个位数[69][70] AI Native产品形态演进 - Gemini 3引入Generative UI功能,根据用户意图实时生成可交互定制化界面,重塑Web交互形态,应用场景包括物理仿真、金融决策等[71][72][74] - 功能演进可能经历单次查询展示、静态内容结构化生成、具备深度交互能力的即时软件三个阶段,本质是让AI拥有生成HTML/JS并即时渲染的能力[74] - OpenAI在DevDay展示类似能力,选择由合作伙伴构建UI嵌入ChatGPT对话,两种模式未来演化值得关注[75]
一档AI生成的综艺爆红
投资界· 2025-11-21 17:18
AI长视频内容的市场接受度与潜力 - 一部完全由AI制作的近7分钟综艺视频《把远古沧龙做成六道菜》在B站获得超过700万点击量,部分观众最初未察觉为AI制作[2][4] - 该作品成功转化了部分原本对AI内容持排斥态度的观众,此前约50%网友对AI内容存在排斥心理[3] - 视频弹幕中超过90%的评论对AI制作精良度表示惊叹,显示高质量AI内容能有效提升用户粘性[5] AI视频创作的技术流程与核心挑战 - 创作者采用人机协作模式,主要负责核心创意构思(如六位厨师人设、核心剧情),具体执行交由AI工具完成[7][8] - 制作过程中累计撰写约20万个提示词,复杂镜头提示词长度达一页Word文档,简单镜头则为三分之一页[6][8][9] - 为实现7分钟成片,实际生成视频片段超过1000个,远超理论所需的42个片段(按10秒/片段计算)[10] - 最大技术难点在于保持人物形象和菜品外观的一致性,解决方案包括通过括号强调关键元素以提升AI识别优先级[12] AI视频生成工具生态与使用策略 - 创作过程混合使用十余种AI工具,包括谷歌Veo 3(承担80%视频画面生成)、阿里Wan 2.2(动作生成优势)、快手可灵(擅长东方人物及中餐场景)[10] - 工具选择需注重风格统一性,例如Veo 3和Sora 2不建议混用以避免影片风格割裂[11] - 硬件投入约2万多元(含英伟达显卡、CPU、主板),制作成本约4000元(主要为付费模型会员及token费用)[12] 平台生态与内容创作趋势 - B站出现AI内容爆发趋势,除AI综艺外还有AI生成的NPC歌唱大赛等新形式,播放量从数万级跃升至数百万级[17][18] - 快手计划通过可灵模型重点赋能平台内创作者,百度则推出"魔法漫画"功能推动AI连载漫画发展[18] - 行业呈现从片段式AI应用(如早期"甄嬛吃汉堡")向完整长视频内容升级的明显趋势,AI长内容未来可能形成独立专区[16][19] 创作者能力要求与行业方向 - 成功创作需具备多项复合能力:多语言提示词撰写、工具特性掌握、创意策划等,AI驱动技能成为创作者新标配[17] - 核心在于平衡科技与内容规律,坚持创作者主体性而非被动跟随AI输出,优质内容创意仍是吸引观众的首要因素[16][19] - 未来竞争将聚焦于AI掌控力与人类创意力的深度融合,形成集团化作战模式[19]
Nano Banana Pro上线!集成Gemini 3与Veo 3,谷歌不给竞争对手喘息机会
创业邦· 2025-11-21 14:05
产品核心升级 - 公司在Gemini 3 Pro之后,迅速推出其最强文生图模型Nano Banana的Pro版本,展现出持续的技术领先优势[3] - 新产品Nano Banana Pro又名Gemini 3 Pro Image,整合了Gemini 3 Pro的多模态理解能力以及谷歌搜索的知识库,能理解现实语义与物理逻辑[6] - 此次升级不仅仅是提升图像生成质量,其技术进步被行业观察者认为使AI图像创作迈入了新阶段[6][12] 核心技术特性 - 模型支持最多14张输入图片的混合,并能保持角色和场景的一致性[7] - 文字渲染能力大幅提升,能准确生成清晰可读的文字和艺术字,并支持多种语言的直接渲染[9][14] - 模型具备强大的文本理解与翻译能力,可将图片中的英文文字翻译成韩文、中文等语言,同时保持原有设计风格[9] - 产品支持2K、4K高清分辨率,能满足专业制作要求,并支持从社交媒体方形图片到电影级2.76:1超宽画幅等多种宽高比[25] - 用户可自由调整生成图像的光线、镜头、对焦、色彩调校等物理属性和构图[26] 多模态与知识集成 - 功能背后是Gemini 3 Pro的强大推理能力,模型能理解图像内容和文字的语义上下文[19] - 模型与Google Search深度集成,可基于庞大的知识库和实时信息生成准确的图表、地图和信息图[19] - 结合高级推理能力,模型能生成针对性强、专业的信息图,帮助用户将复杂知识可视化,例如生成准确的生物机制解释图或生态系统能量转移图[22][24] 应用场景与工作流 - 模型支持从创意到生产的完整工作流,营销团队可用其快速设计生成营销素材,实现创意快速迭代[13][17] - 模型能根据指定角色和主题生成定制化图片,例如生成以雪人为核心角色进行各种节日活动的系列场景图片[27][29] - 产品工作流可与Veo 3视频生成模型整合,用户能以生成的图片作为关键帧继续一键生成视频[30] 市场发布策略 - 公司发布策略全面,覆盖从开发者到普通用户的各个层面[33] - 对于普通用户,模型将通过Gemini应用提供,免费用户有限额配额,Google AI Plus、Pro和Ultra订阅用户享有更高配额[33] - 对于开发者,模型已通过Gemini API在Google AI Studio和Vertex AI中提供,企业级用户可享受预配置吞吐量、按需付费及高级安全过滤器等功能[33] - 模型定价为每张图像$0.139(1K/2K分辨率)或$0.24(4K分辨率),作为对比,Gemini 2.5 Flash Image的定价为每张图像$0.039[34] - 技术还将集成到新的AI开发平台Google Antigravity以及Adobe Photoshop和Figma等第三方设计工具中[34] 内容安全与验证 - 公司在Gemini app中推出AI图像验证功能,依托其2023年推出的SynthID数字水印技术,用户可上传图像查询是否为AI生成[36] - 即日起,在Gemini app、Vertex AI、Google Ads、Flow等平台上由Nano Banana Pro生成的图像将被嵌入C2PA元数据,具备可追溯来源和创作信息的“数字档案”[37]
Nano Banana Pro上线!集成Gemini 3与Veo 3,谷歌不给竞争对手喘息机会
量子位· 2025-11-21 00:01
产品核心升级 - 模型整合了Gemini 3 Pro的多模态理解能力以及谷歌搜索的知识库,能理解现实语义与物理逻辑[4] - 图像生成质量提升,最多支持14张输入图片进行混合,并能保持角色和场景的一致性[7] - 强化文本渲染能力,可将图片中的英文文字翻译成中文、韩文等语言,同时保持原有设计风格[9][13] 技术功能与性能 - 支持2K、4K高清分辨率及多种宽高比,从社交媒体方形图片到电影级2.76:1超宽画幅均可应对[32] - 支持自由调整图像的光线、镜头、对焦、色彩调校等物理属性和构图[33] - 与Google Search深度集成,可基于庞大知识库和实时信息生成准确的图表、地图和信息图[19][20] 应用场景与工作流 - 可实现从创意到生产的完整工作流,营销团队可快速设计生成营销素材,实现创意快速迭代[12][16] - 在Gemini 3高级推理加持下,能生成针对性强、专业的信息图,帮助用户快速将复杂知识可视化,如生成胰岛素-葡萄糖反馈回路解释图或生态系统营养级信息图[25][27][28][30] - 可指定角色生成主题定制化图片,并与Veo 3视频生成模型整合,可将生成的图像作为关键帧继续生成视频[37][39][40] 市场发布与集成策略 - 发布策略覆盖从开发者到普通用户,普通用户可通过Gemini应用使用,免费用户有配额限制,订阅用户享有更高配额[42] - 开发者可通过Gemini API在Google AI Studio和Vertex AI使用,企业用户可享受预配置吞吐量、按需付费及高级安全过滤器[42] - 模型将集成至第三方设计工具如Adobe Photoshop和Figma,并在新的AI开发平台Google Antigravity中集成[43][44] 定价与可用性 - Gemini 3 Pro Image预览版定价为每张图像0.139美元(1K/2K分辨率)和0.24美元(4K分辨率)[43] - Gemini 2.5 Flash Image通用版定价为每张图像0.039美元(1024x1024像素)[43] 内容安全与验证 - 在Gemini app中推出AI图像验证功能,依托SynthID数字水印技术,用户可查询图像是否由谷歌AI生成或编辑[46] - 在Gemini app、Vertex AI、Google Ads、Flow等平台生成的图像中将嵌入C2PA元数据,提供可追溯来源和创作信息的数字档案[48][49]
视频模型真在推理,还是「表演」推理?港中文等质疑:Chain-of-Frame是真的吗?
机器之心· 2025-11-19 02:19
文章核心观点 - 以Veo、Sora为代表的视频生成模型在视觉合成上进步显著,但其是否具备真正的零样本推理能力仍存疑[2] - 研究团队提出了名为MME-CoF的综合测试基准,对视频模型的零样本推理潜力进行系统性评估[2][23] - 实证研究表明,当前视频模型尚不具备独立的零样本推理能力,其表现更多依赖数据模式记忆而非逻辑推演[26][27] Chain-of-Frame(CoF)概念 - CoF是与语言模型“思维链”相对应的新概念,核心思想是模型通过逐帧生成视频,以连贯的视觉推演方式逐步解决问题[2] - CoT通过逐步生成文字展现推理路径,而CoF则通过逐帧生成画面使场景视觉演化以体现推演过程[9] MME-CoF基准评估结果 - MME-CoF是首个系统量化视频模型推理能力的框架,覆盖12个维度、59个精心设计任务[23] - 多种视频生成模型在MME-CoF基准上的整体平均得分普遍低于2分(评分范围0-4)[21][24] - 在评估的五个维度中,Sora-2模型整体得分最高为1.72 ± 1.59,Kling-v1模型整体得分最低为0.64 ± 0.91[24] 视频模型在具体推理维度的表现 - 在3D几何推理中,模型能较好处理简单场景下的空间布局,但在复杂视角变化中常出现空间错位和方向混乱[13] - 在2D几何推理中,模型可识别简单几何连接任务,但易优先生成美观图形而非严格几何符合,缺乏稳定几何约束意识[15][23] - 在物理推理方面,模型未能准确遵循能量、力学等物理规律,仅表现为视觉层面的“模拟”[23] - 在物体计数推理中,静态场景下表现良好,但动态环境中常出现漏数或重复计数[23] 研究结论与行业意义 - 研究表明当前视频模型强生成能力不等于强推理能力,其表现更多来自模式记忆与视觉一致性,而非概念理解[27] - 模型生成结果往往“看起来对”但逻辑上不成立,注重表象而非因果[28] - 视频模型未来仍具潜力,可作为视觉推理系统的补充模块,与逻辑模型协同构建更完整的多模态智能体系[29]
第一档AI生成的下饭综艺,700万人入坑
创业邦· 2025-11-15 18:09
AI长视频内容市场潜力 - 一部纯AI制作的近7分钟综艺视频在B站获得700多万点击量,显示市场对高质量AI长视频内容接受度提升[7] - 该作品成功转化了部分原本对AI内容排斥的观众,此前有50%网友对AI内容持排斥态度[7][18] - B站上AI生成内容如NPC歌唱大赛也获得数百万播放量,平台用户接受度正在快速提高[51] AI视频制作技术发展 - UP主使用十几个AI工具混合制作,包括谷歌Veo 3(承担80%视频画面)、阿里Wan2.2(动作生成优势)、快手可灵(承担80%东方人物场景)[35] - 7分钟视频实际生成片段达1000多个,理论需42个片段(按10秒/片段计算)[34] - 制作成本约4000元(主要为大模型会员和token费),设备投入2万多元(含烧坏的英伟达显卡)[38][39] 创作者工作流程 - 创作者采用人机分工模式:负责核心创意(厨师人设、核心剧情),AI负责具体内容生成[26] - 每个分镜头需编写1-2套提示词,难点镜头提示词长达一页Word文档[29][32] - 通过分段叙述提示词(人物动作、穿着、外貌分开描述)减少AI幻觉,使用括号强调关键元素保持一致性[30][40] 行业竞争格局 - 国内外视频生成模型快速迭代,包括快手可灵、阿里Wan2.2、百度蒸汽机、Sora 2、Veo 3等[47] - 快手计划用可灵赋能平台创作者产出更多高质量AI长内容,百度文心APP上线"魔法漫画"功能生成AI连载漫画[51] - 创作者需要掌握多语言能力、提示词技巧和对各工具性能的深入理解[48] 内容创作趋势 - AI长视频成功关键在于发挥创作者主体性,内容创意仍排第一位[45][46] - AI视频工具从早期片段式生成发展到能制作有剧情、有审美的完整长视频内容[44] - 平台可能出现AI内容爆发趋势,未来AI长内容有望成为独立专区,成为创作者新战场[51]