谷歌Veo 3.1 - 财报，业绩电话会，研报，新闻

谷歌Veo 3.1

搜索文档

清华陈建宇×斯坦福Chelsea团队世界模型Ctrl-World具身能力全球第一

北京商报· 2026-02-26 16:19

公司技术突破 - 清华与斯坦福联合团队研发的Ctrl-World世界模型在全球权威评测WorldArena榜单中，其具身任务能力获得全球第一[1] - Ctrl-World在具身任务能力的四项核心维度（主体一致性、轨迹精度、深度准确性、策略评估一致性）均登顶[1] - 该模型的视频生成能力排名全球第二，仅次于阿里Wan 2.6，并超越了谷歌Veo 3.1、英伟达Cosmos-Predict 2.5等世界顶尖模型[1] - Ctrl-World成为在“视频生成质量”（真实感）与“具身任务”（可用性）两大维度均跻身顶级梯队的世界模型[1] 行业竞争格局 - 在具身智能领域的全球顶级权威评测中，Ctrl-World模型取得了领先地位[1] - 在视频生成能力细分领域，当前领先者为阿里Wan 2.6，其后是Ctrl-World，谷歌与英伟达的模型紧随其后[1]

具身智能

Artificial Intelligence

Ctrl-World

英伟达Cosmos - Predict 2.5

阿里Wan 2.6

谷歌Veo 3.1

具身智能

Artificial Intelligence

Ctrl-World

英伟达Cosmos - Predict 2.5

阿里Wan 2.6

谷歌Veo 3.1

马斯克还在卷10秒，中国AI直接掀桌！16秒一镜到底，全球唯一

搜狐财经· 2026-01-30 19:04

行业竞争格局 - 硅谷巨头在AI视频生成赛道竞争激烈，谷歌Veo 3.1凭借“素材生视频”功能、超强一致性和4K画质登场[2] - 马斯克的Grok Imagine已上线生成10秒视频功能，实现音画双飞跃[4] - Runway全新Gen 4.5模型同样致力于连贯叙事和高一致性，生成时长可达10秒[4] Vidu Q3核心产品发布 - 中国AI公司发布下一代旗舰模型Vidu Q3，定位为全球首个一键直出16秒音视频的模型[7] - 该模型能同时处理画面、声音、剧情推进和镜头调度，支持镜头控制与自由切换、多语言文字渲染以及专业级漫剧、短剧、电影制作[7] - 在Artificial Analysis最新榜单中，Vidu Q3位列中国第一、全球第二，超越了Runway Gen-4.5、谷歌Veo3.1和OpenAI Sora 2[7] 技术突破与关键能力 - Vidu Q3解决了AI视频生成领域时长过短（多为几秒）和缺乏声音（“哑剧”）的痛点[11] - 相比谷歌Veo 3最长支持8秒，OpenAI Sora 2最长支持15秒，Vidu Q3是业界唯一能做到单次生成16秒时长的模型，无需拼接或后期合成[11] - 模型实现了精准的镜头控制，允许用户像导演一样控制运镜节奏和视角切换，并能根据画面内容自动切镜[17][19][20] - 在文字渲染上实现质的飞跃，能够精准呈现中、英、日三种文字，解决了以往字母变形、笔画缺失等问题[23] 应用场景与行业影响 - Vidu Q3标志着AI视频从“演技生成”（让画面动起来）迈入“视听生成”新时代，交付完整的、声画共振的视听体验[8][23] - 对于影视行业，模型具备真正的“叙事密度”，能在16秒内构建完整戏剧冲突，处理复杂对白和情感递进，为从剧本到可视化提供极速通道[23] - 对于广告行业，模型在画面一致性和文字渲染上的突破，提供了一套“可控的商业化解决方案”[24] - 对于自媒体创作者，模型的音视频一体化生成彻底简化了高质量视频制作流程，将释放创造力并可能催生更多“超级个体”[26][28] 产品功能与体验 - Vidu Q3已上线文生音视频和图生音视频功能，用户可通过Vidu.cn或Vidu API平台体验[9][10] - 演示案例显示其能力包括：根据六格分镜图生成步骤视频、复刻电影经典瞬间并匹配口型与音色、生成具有胶片质感和精准对白的“对手戏”场景、以及创建包含复杂运镜和音效的动画打斗场景[13][15][21]

AI视频生成

视听生成

Artificial Intelligence

Artificial Intelligence

Vidu Q3

谷歌Veo 3.1

Grok Imagine

【太平洋科技-每日观点&资讯】（2026-01-16）

远峰电子· 2026-01-15 21:26

大盘指数与板块表现 - 2025年1月15日，A股主要指数涨跌互现，其中创业板指上涨0.56%，深证成指上涨0.41%，上证指数下跌0.33%，科创50下跌0.46%，北证50下跌2.28% [1] - TMT板块内部分化显著，电子化学品Ⅲ、半导体材料、半导体设备领涨，涨幅分别为4.85%、4.47%和4.45% [1] - TMT板块中，营销代理、其他通信设备、通信应用增值服务领跌，跌幅分别为8.58%、7.14%和5.07% [1] 国内半导体产业动态 - 台积电2025年第四季度营收达336.7亿美元，同比增长25.5%，环比增长5.7%，其先进制程（7nm及更先进）营收占晶圆销售金额的77%，其中3nm制程出货占比达28% [1] - 慧芯激光发布国产112G VCSEL芯片，实现了从研发到量产的跨越，性能完全对标国际顶级厂家，且该架构下的产品具有更高的良率与更好的可靠性 [1] - 西安电子科技大学团队研发出新芯片散热结构，将界面热阻降至传统“岛状”结构的三分之一，显著提升了芯片的散热效率与综合性能 [1] - 知行科技获得某韩系汽车集团定点，将为该集团四款车型提供组合辅助驾驶解决方案，产品生命周期（2026年至2033年）预期销量达百万套规模，其中近半数将销往海外市场 [1] 海外半导体产业与政策 - 美国白宫宣布自1月15日起，对部分进口半导体、半导体制造设备及其衍生产品加征25%的进口从价关税，但为支持本土供应链建设的相关进口可豁免关税 [2] - 三星计划于2025年下半年关闭其器兴工厂的8英寸晶圆厂S7，该厂月产能为5万片，关闭后三星8英寸晶圆月总产能将从25万片降至20万片以下，旨在集中资源发展12英寸晶圆厂 [2] - 安靠（Amkor）将关闭其位于日本北海道的函馆工厂，该厂主要负责汽车等用途的通用半导体封装，部分产品将停产，其余产品目标在2027年4月前转移至其他工厂 [2] - GlobalFoundries宣布收购Synopsys的ARC处理器IP解决方案业务，以加速其在物理AI领域的路线图，并增强定制芯片解决方案能力 [2] 人工智能与AIGC进展 - 谷歌发布Veo 3.1更新，新增素材转视频功能，实现了角色、背景与物体在动态场景中的高度一致性，并首次支持原生竖屏生成与4K超分画质 [2] - 阿里千问App上线两个月后，C端月度活跃用户突破1亿，该应用将全面接入淘宝、支付宝等阿里生态，在全球率先实现用AI点外卖、购物、订机票等功能，并向所有用户开放测试 [2] - 谷歌发布MedGemma 1.5 4B模型，新增对CT、MRI等三维医学影像的支持，并改进了纵向影像分析和医学文档理解，同时发布针对医疗口述转写优化的开源自动语音识别模型MedASR [2] - 在第三方大模型评测榜单Artificial Analysis Speech Reasoning中，阶跃星辰的原生语音推理模型Step-Audio-R1.1登顶榜首，该榜单核心评估模型直接处理音频并进行复杂逻辑推理的能力 [2] “十五五”前瞻行业追踪 - 北京火箭大街项目完成竣工备案，进入交付阶段，未来可提供星箭研发试验、智能制造平台、空天地一体化运控等十余项共享服务，适配商业航天全链条发展需求 [3] - 北京大学团队首次实现后摩尔新器件异质集成的多物理域融合傅里叶变换系统，将傅里叶变换计算速度从每秒约1300亿次提升至每秒约5000亿次，算力提升近4倍，能效提升超90倍 [3] - 东南大学与紫金山实验室联合团队成功研制基于贝叶斯推理的动态可配置移动通信基带信号处理ASIC芯片，该芯片单一芯片吞吐率达9.6 Gb/s，可有效支撑5G/6G全栈协议与全场景应用 [3] - 星动纪元与顺丰科技签约，推动具身智能机器人在顺丰供应链业务中规模化落地，覆盖仓储、配送、核验等全业务流程，以提升作业效率与质量 [3] 高频数据：存储与半导体材料价格 - 2025年1月15日，国际DRAM颗粒现货价格普遍上涨，其中DDR5 16G (2G×8) 4800/5600盘均价为34.871美元，日涨幅2.34%；DDR4 16Gb (2G×8) 3200盘均价为76.045美元，日涨幅2.07% [4] - 同日，多种半导体材料价格公布，例如：5N氧化锌粉市场均价为1.655元/千克，日涨10元；6N高纯铟市场均价为3,650元/千克，日涨200元；导电N型6寸P级单晶碳化硅衬底市场均价为5,550元/片，价格持平 [5]

腾讯研究院· 2026-01-15 00:03

美国对华AI芯片出口管制政策调整 - 美国商务部工业和安全局修改出口管制条例，将高性能芯片限制放宽至TPP低于21000和DRAM带宽低于6500GB/s，为英伟达H200和AMD MI325X对华出口创造了法律空间 [1] - 新规要求申请人证明美国市场有足够供应且对单一国家出口不超过美国总销量的50%，预计到2026年，H200芯片可为英伟达贡献超过476亿美元营收，其中中国市场贡献近160亿美元 [1] - 美国众议院以369票通过《远程访问安全法案》，限制通过云平台远程接入获取先进算力以训练AI模型，此举可能冲击海外合建数据中心项目 [1] 全球AI视频生成技术竞争加剧 - 谷歌Veo 3.1实现重大升级，新增“素材生视频”功能，通过上传图片和文本指令即可生成高质量视频，角色一致性达到新高度，并支持原生9:16竖屏输出及1080p、4K超分辨率技术，直接适配移动端平台 [2] - 爱诗科技发布全球首个支持最高1080P分辨率实时生成的世界模型PixVerse R1，用户可通过文字或语音实时干预视频生成过程，将视频生成从“固定片段”转变为“无限可视化流” [4] - Vidu AI开放平台推出“一键生成MV”功能，用户提交音乐、参考图像与文本指令后，系统可全自动输出叙事连贯、音画同步的MV，其“多图参考生视频”技术允许上传至多7张参考图，在长达五分钟的视频中精确复刻人物特征与美学风格 [5][6] 中国AI模型与算力自主化进展 - 智谱AI联合华为开源新一代图像生成模型GLM-Image，该模型基于昇腾Atlas 800T A2设备和昇思MindSpore框架完成全流程训练，是首个在国产芯片上完成的SOTA多模态模型，在相关榜单获得开源第一，中文文字渲染成绩达0.979 [3] - GLM-Image模型API调用生成一张图片成本仅需0.1元，特别擅长海报、PPT、科普图等知识密集型场景及汉字生成任务 [3] 具身智能与机器人技术突破 - 1X公司为其家用人形机器人NEO发布全新“大脑”1X World Model，该模型通过观看海量网络视频和人类第一视角实操录像来理解物理世界，基于140亿参数生成式视频模型，采用多阶段训练策略 [7] - 该模型的逆动力学模型在400小时未经过滤的机器人数据上训练，能从生成的视频中提取对应动作轨迹，官方推文浏览量已突破500万 [7] AI在游戏与医疗领域的应用与影响 - 《英雄联盟》韩服出现神秘玩家，在51小时内完成56局对局，取得52胜4败、综合胜率92%的战绩，登顶时胜率高达95%，该账号使用了22名不同英雄，对线胜率86%断层领先，引发关于其是否为AI的广泛猜测 [8] - 谷歌发布MedGemma 1.5 4B版本，首次支持CT和MRI三维体数据以及全切片数字病理图像等高维医学影像分析，将MRI疾病发现分类准确率从51%提升至65%，解剖结构定位精度从3%跃升至38% [9] - 同步推出的MedASR语音识别模型，在胸部X光报告口述场景中词错误率仅5.2%，比通用模型Whisper低82% [9] AI对软件工程行业的结构性冲击 - 谷歌Cloud AI总监提出AI时代软件工程面临的五个关键问题，涉及初级工程师需求、基本功价值、职业角色转变、专才风险及大学计算机专业必要性 [10] - 哈佛研究显示，公司引入生成式AI后，初级开发者岗位数量在六个季度内下降约9%-10%，而高级工程师就业几乎没有变化，大型科技公司招聘应届生数量减少50% [11] - 建议初级工程师构建AI集成作品集并手动编写关键算法，资深工程师需注重架构审查以适应“代理式”工程环境，通才将比专才更具竞争力 [11]

生成式AI

多模态模型

Artificial Intelligence

Artificial Intelligence

谷歌Veo 3.1

GLM - Image模型

PixVerse R1

Sora App的AI视频社交，给了百度们新希望

36氪· 2025-10-24 11:25

行业竞争格局与驱动力 - Sora 2的发布对行业产生重大影响，促使百度、谷歌等公司加快产品发布节奏[1] - 行业竞争焦点从单纯的模型性能比拼，升级至产品落地与商业变现等价值维度[1] - 国内公司如百度、阿里、360等对Sora 2的产品化和社交裂变模式表示期待并寻求借鉴[1] Sora 2的核心技术升级 - 生成质量实现飞跃，包括更精准的物理效果、清晰真实感、同步音频、强可控性和广风格范围[4] - 物理一致性显著优化，对刚体、流体、遮挡及碰撞等动力学建模更为精确[7] - 可控性增强，能更好响应用户脚本指令；新增原生音频功能，实现音画同步[7] - 画面风格覆盖写实、电影、动画等多类型场景，整体表现更稳定[7] Sora App的产品策略与市场表现 - Sora App上线第四天即登顶美国App Store免费应用榜第一名，超越ChatGPT和Gemini[9] - 在仅限美加地区邀请制测试下，其iOS应用在头两天内获得了16.4万次下载量[12] - 应用采用邀请码机制推动社交裂变，每位新用户可邀请4位好友，提升了产品的心理价值[14] - 应用成功得益于ChatGPT庞大的用户基础，其网页端与移动端月活跃用户分别达到7.9亿和2.7亿[14] 创新功能与生态构建 - 通过“客串”功能，用户可一次性录制形象，由模型复刻后置入任何AI场景，创建个人化视频[12] - 通过“混剪”功能，用户可输入提示词对平台内容进行二次创作，生成属于自己的版本[13] - 这些功能布局标志着公司从“AI工具提供商”向“AI生态构建者”的战略转变[13] - 公司正构建由IP驱动的新生态系统，核心是“精细化控制”和“收入分成”模型[17] 商业模式与行业影响 - 新商业模式旨在形成“IP+创作者”的收入分成体系，为版权方提供授权费和维持IP热度的机会[18] - 对创作者而言，可以低成本合法使用知名IP创作，并通过平台分成获得收益[18] - Sora 2的社交属性使其从工具变为平台，为同类产品打开了新的发展思路[19] - 该模式可能为用户快速找到变现路径，进而发展成为用户生产与消费的闭环平台巨头[22]

新希望(SZ:000876)

AI视频生成

AI社交平台

Artificial Intelligence

Artificial Intelligence

Sora 2

百度蒸汽机AI视频模型

谷歌Veo 3.1

Sora 2颠覆短视频，传统玩家们如何接招？

虎嗅· 2025-10-15 17:45

产品发布与市场反响 - OpenAI推出视频生成模型升级版Sora 2及同名AI短视频应用Sora App [2] - 应用上线不到五天下载量突破100万次，速度超越ChatGPT创下新纪录 [3] - 尽管仅限iOS设备、北美地区且采用邀请制，Sora仍迅速攀升至苹果应用商店下载榜榜首 [4] 技术突破与核心优势 - Sora 2相比前代实现跨越式进步，核心在于开始真正理解和模拟真实世界的物理规则，例如篮球未投进会打板反弹而非“瞬移”进筐 [10] - 模型从简单的像素拼贴转向构建能够理解因果关系的“世界模型” [11] - 实现革命性音画同步，将人物对话、音效和环境音直接整合进视频，解决了此前AI视频仅为“默片”的痛点 [13][16] - 多镜头衔接自然流畅，堪比电影级效果，极大降低了专业级视频制作的门槛，实现输入文字即可开箱即用 [17][18][19] - 模型在处理复杂运动学和人物身体力学方面有显著提升，能根据文本指令生成动作丝滑的视频 [12] 平台生态与社交功能 - Sora App构建了“创作—分发—社交”的生态闭环，其平台采用TikTok式瀑布流设计 [22] - Cameo功能作为社交裂变引擎，用户可录制个人视频让AI学习，后将自身形象融入AI生成场景，实现创意视频中当主角的效果 [25][26] - Remix功能允许用户对视频中的人物、背景等进行“对象级”和“场景级”的AI重构替换，操作简便且能自动适配光影效果 [29][30][31] - 平台针对用户肖像权问题进行处理，用户拥有自主权决定谁可使用其形象，并可随时撤销授权或删除相关视频 [28] - 通过“浏览-激发-创作-分享”的飞轮效应，形成自我生长的内容生态，完成从工具到渠道再到平台的三级跳 [32][33][34] 行业影响与竞争格局 - Sora 2树立了新标杆，正推动行业整体迭代升级，引发谷歌Veo、百度蒸汽机等竞争对手加速技术更新，一场技术军备竞赛已然打响 [20][21] - Sora的出现对创意广告、影视短剧行业是效率革命，可将制作周期从团队数周缩短至个人半天，成本从数十万降至几百块 [38] - AIGC兼具UGC的海量与PGC的质感，并能实现实拍无法企及的想象力场景，对依赖UGC生活化内容或PGC精良制作的现有平台构成降维打击 [39] - 传统短视频平台面临两难战略抉择：在现有应用内集成AI功能将面临真假内容治理难题；另起炉灶推出AI原生应用则需跨越技术、内容、推广三座大山 [40][41][42] - 行业竞争本质已从内容分发效率转向AI生成能力和AIGC平台新玩法，Sora重新定义了赛道 [43]