Veo - 财报，业绩电话会，研报，新闻

Artificial General Intelligence (AGI)

Agent

Scaling

深度｜DeepMind CEO Demis: AGI还需5-10年，还需要1-2个关键性突破

Z Potentials· 2025-12-21 10:24

文章核心观点 - Google DeepMind联合创始人兼CEO Demis Hassabis认为，通用人工智能（AGI）可能在五到十年内实现，但仍需一到两个关键性突破，公司正致力于推进多模态AI、Agent系统和世界模型等前沿方向，以构建一个在日常生活中真正有用的通用助手 [6][30][31] - 公司认为AI是人类历史上最具变革性的技术之一，其最佳前景是带来“激进式丰裕”，解决能源、疾病等重大问题，但同时也需严肃应对AI安全、恶意滥用及系统失控等风险 [14][15][20] - 公司将其在激烈竞争中的优势归因于植根于科学方法的严谨性，以及将世界级研究、工程能力和基础设施相结合的能力 [9] 科学家与诺奖得主：从科学方法到公共责任 - Demis Hassabis获得诺贝尔奖后，其最大的变化在于该荣誉成为与领域外人士（包括政府高层）沟通时的“捷径”，能迅速确立其专家身份，这为其就AI安全等关键议题发声提供了重要平台 [5][7] - 公司强调科学方法是其面对一切问题的默认思维方式，认为这是人类历史上最重要的思想之一，并尝试将这种方法推向极致，这成为其作为研究组织和工程组织的优势来源 [9] - 除了长期AGI安全，公司关注的议题还包括当下AI的负责任使用，以及让整个社会为即将到来的变革做好准备，认为各国政府及其他关键领导者将发挥决定性作用 [6][8] 接下来的一年：多模态与Agent - 公司在接下来12个月将全力推进多模态能力的融合，其核心基础模型Gemini从一开始就是多模态的，能够同时处理并生成图像、视频、文本和音频，多模态本身正在带来有价值的交叉增益 [11] - 公司正在重点投入世界模型方向，例如其Genie 3系统是一种交互式视频模型，用户不仅可生成视频，还能在其中“行走”并保持长达一分钟的整体一致性 [11] - 公司希望Gemini最终成为一种“通用助手”，在接下来一年中会出现在更多设备上，可能通过眼镜等设备真正伴随用户生活，目标是打造一个每天都会被多次求助、成为生活结构一部分的系统 [12] - 目前Agent还不够可靠，无法独立完成完整任务，但预计一年后会开始看到接近这一能力水平的Agent出现 [11][13] 理想与担忧：AI带来的乌托邦与失控 - 公司设想的AI最佳前景是带来一种“激进式丰裕”状态，解决当今社会和人类面临的许多重大问题，如实现廉价可持续的清洁能源、治愈大量疾病，使人类进入后稀缺时代并真正繁荣 [14] - 公司担忧的风险主要来自两个方面：一是恶意行为者利用AI从事有害活动（如制造病原体、发动网络攻击）；二是当AI接近AGI、变得更具自主性时，可能在某种情况下“失控”并对人类造成伤害 [15][18] - 公司认为AI突破安全边界的风险概率并非零，因此必须投入大量资源和注意力去应对，但精确量化这种灾难性风险（如P(doom)）是没有意义的 [6][20] - 在AI安全研究上，随着具备持续学习能力的系统变得更具自主性，如何确保其始终保持在设定的安全边界内是一个活跃的研究领域，同时市场机制（如企业要求行为保障）也会自然奖励更负责任的参与者 [19] 行业竞争与现状 - 目前美国和西方在AI整体上仍然处于领先位置，但领先优势并不遥远，中国并没有落后太多，当前的领先可能只是以“月”为单位 [21] - 在算法创新和原创性方面，西方仍然具有优势，中国的模型或公司在快速跟进最先进技术方面做得非常出色，但在展示超越当前最前沿水平的原创突破方面目前仍略逊一筹 [22] - AI产业中的某些部分可能确实存在泡沫，例如一些规模极其夸张的早期融资看起来并不太可持续，但从长期来看，AI作为最具变革性的技术之一，其投入将被证明是完全值得的 [32] - AI领域的人才争夺战相当激烈，公司更看重那些被使命驱动的人才，并相信始终站在技术最前沿会形成对顶尖人才的吸引力正反馈 [33] Gemeni3: 实证引导下的强大模型 - 公司对近期发布的Gemini 3模型非常满意，认为其在智能水平和实用性上带来了明显跃迁，其回答风格简洁直接，并能在用户观点不合理时温和地提出不同意见 [25] - Gemini 3体现了对高层次指令的深度理解以及生成高度细节化输出的能力，其在前端开发和网站构建方面表现尤为突出，在美学、创造力和技术实现上都达到了很高水平 [26][27] - 公司认为创新速度过快，以至于在发布新版本时，内部甚至还没来得及探索现有系统十分之一的潜力，最终往往是用户将模型能力发挥到远超内部测试的程度 [28] - 公司决定全力押注LLM是基于科学方法和实证证据的指引，当看到scaling开始显现效果时，便逐步将更多资源投入到这条研究路径上 [28][29] AGI的十年之约：还需关键突破 - 公司认为目前尚未达到AGI，但已相当接近，预计还需要五到十年的时间 [6][30] - 公司对AGI的标准设得相当高，定义为一个系统能够展现出人类所具备的全部认知能力（包括发明和创造），且在各个维度上都具备一致性，而非当前“锯齿状”的智能形态 [30] - 当前系统缺乏一些关键能力，如持续学习、在线学习、长期规划和推理能力，这些能力可能还需要一到两个关键性突破才能实现 [6][31] - 实现AGI的路径上，必须把现有系统的scaling能力推到极限，但公司更倾向于认为除了scaling之外，还需要一到两个类似Transformer或AlphaGo那样的范式级重大突破 [31] 其他洞察与展望 - 公司认为当前AI最令人震撼却被严重低估的一点是模型所具备的多模态理解能力，尤其是多模态视频理解，能够在概念层面理解视频中发生的事情 [23][24] - 公司对人类大脑的适应能力充满信心，认为人类大脑已成功从狩猎采集社会适应到现代文明，理应具备持续适应AI变革的能力，未来或可通过脑机接口等新技术保持竞争力 [34] - 体育领域拥有极其丰富的数据且追求极致精英表现，天然适合引入AI进行优化，例如在角球进攻中，AI系统可通过分析球员的精确站位来帮助进更多的头球 [37][38]

谷歌(US:GOOG)

AGI

Scientific Method

AGI

Scientific Method

Meta Joins the AI Video Race: Report. It Needs to Catch Google and OpenAI.

Barrons· 2025-12-19 23:42

行业竞争格局 - 谷歌的Veo和Nano Banana以及OpenAI的Sora构成了激烈的竞争关系 [1]

谷歌(US:GOOG)

Nano Banana

Sora

36氪· 2025-12-18 17:30

AI视频生成行业趋势与驱动力 - 2025年下半年AI视频生成成为全球AI行业最受关注的方向之一，热度以“病毒式”速率扩散[1] - 过去两年视频生成技术在画面质量、时序建模与可用性上持续进步，全球AI视频相关能力迭代节奏显著加快[1] - 当生成效果从“能看”跨越到“可用”、“好用”，并覆盖叙事能力、人物一致性、音画同步等工业化生产关键要素时，AI视频真正进入大众视野，成为极具想象空间的赛道[2] 内容产业的结构性难题与AI的变革作用 - 视频行业是全球增长最快、资本最密集、创新最活跃的领域之一，但内容生产被推向极限，更新周期被压缩至小时甚至分钟级[2] - 传统制作链路依赖的人力规模与制作周期，与高频、碎片化的内容需求形成明显错位，压力体现在影视广告、MCN电商、短剧及出海内容等多个领域[3] - AI视频生成显著拉低创作门槛，使个人与小团队具备接近工业化的生产能力，并催生了从创作工具到垂直解决方案的新中间层[3] - 内容生产从一次性创作转向可反复生成、快速验证、持续优化的过程性资产，成为可规模化运行的系统工程[3] - 技术突破与国内规模化需求汇合，使行业形成清晰判断：AI视频生成已成为下一代内容基础设施的重要组成部分[4] 主要参与者的差异化发展路径 - OpenAI的Sora策略偏向通用能力展示，通过高质量视频打开公众认知，推动AI视频进入大众文化与社交传播场景[5] - Google的Veo强调模型在长时序理解与复杂场景中的表达能力，体现为技术能力的前沿探索[5] - 国内公司更多从平台生态出发，将视频生成能力与内容分发、创作者体系结合，或赋能视频生产全流程以提升效率[5] - 路径差异本质基于对“好用还是好玩”、“B端还是C端”的认知不同：C端优先娱乐与表达，B端则要求确定性、一致性及规模化稳定输出[6] - 阿里巴巴选择将AI视频生成做成行业级基础设施，其通义万相模型试图回应行业从能生成走向可生产、从尝鲜迈向规模化落地的趋势[6] 通义万相2.6的核心技术突破与产品定位 - 将多镜头叙事能力提升为模型核心能力，强调在生成过程中对时间轴与镜头语言的整体建模，支持通过自然语言分镜指令直接调度多镜头叙事[8] - 将参考对象从图片升级为视频，支持输入约5秒参考视频，复刻主体外观、动作模式、表情变化与音色特征，实现声画一致的生成结果，显著降低商业场景制作门槛[11] - 将可控生成时长稳定在约15秒，支持1080P输出与声画同步，这段时长对广告、电商、短剧等商业场景是“刚好可用”的内容长度[15] - 文生图能力同步升级，引入对叙事结构的理解，支持图文混排输入，从简单提示自动拆解故事并生成分镜，结合多图参考与商业级一致性控制，使其从“灵感草图”走向可直接用于生产的生产工具[15] - 在中文语境与中式美学上持续投入，通过与美院等机构合作及引入大量中式审美素材进行迭代优化，使模型表现更贴近本土创作需求[17] - 模型演进遵循“效果好大于一切”的原则，在真实需求与技术突破的反馈循环中持续迭代[19] AI视频对内容生产流程与效率的重构 - AI视频生成介入创作前端，将编剧、导演、剪辑、美工等跨岗位协作工作压缩进同一界面，显著降低岗位交接成本，使创作者能围绕最终效果进行整体判断[20] - 内容生产从线性流程转向以模型为核心的并行与即时生成，效率提升最先发生在承受高频产出压力、对成本和周期高度敏感的场景，如短剧、电商内容、出海工具等领域[22] - 在广告和电商领域，AI使创意能更早转化为可视化内容用于内部讨论或A/B测试，显著压缩从想法到内容的距离[24] - 稳定、可规模化的视频生成能力催生了新的工具平台与创作社区，创作者置身于不断自我扩展的AI创作生态中[24] - 实践案例表明，稳定型AI视频基础设施显著降低小团队及个体创作者的创作门槛，使有限人力条件下仍能维持稳定叙事质量并持续输出体系化内容[25] - 案例：AI漫剧工具平台巨日禄通过调用通义万相模型，将AI使用门槛大幅降低，其创作智能体使效率提升5-8倍[24] - 案例：出海内容公司乐我无限利用万相的多模态生成能力，使其创作平台Ima Studio能支持海外创作者快速生成高质量AI视频，助力社区冷启动并构建“技术—内容—社区”正向循环[25] 从“好玩”到“好用”：产业级基础设施的关键 - 真正的分水岭在于能否进入稳定、可重复的生产流程，生成结果的可控性、稳定性及减少人工返工成本是关键，稳定性是进入生产流程的前提[26] - 通义万相并非孤立工具，可依托阿里云大模型服务与应用开发平台百炼嵌入企业既有内容生产与业务流程[26] - 能力的稳定可用得益于阿里云作为全球领先全栈人工智能服务商在算力供给、数据治理、模型服务及大规模并发调度等方面积累的成熟工程体系[26] - 阿里巴巴对AI的系统性投入可追溯至十多年前，长期技术积累使其能构建从模型训练、部署到服务化调用的完整链路，推动模型在稳定性、可控性与规模化能力上不断逼近真实生产需求[28] 行业长期展望：创作民主化与价值重塑 - AI视频生成将专业制作能力（如镜头语言、叙事节奏、美术风格）编码进模型，使创作所需技能从具体技法转向判断、创意与取舍本身[28] - 这种变化类似于从专业级影像软件走向大众化创作工具的历史拐点，将一整套专业制作能力压缩为可被普通人调用的基础设施[29] - 在降低门槛的同时，创作本身将具备更大规模与更长生命力[30] - 视频生成的终点并非替代创作者，而是让创作者将精力更多投入到真正有价值的部分——创意、叙事与判断本身[31]

36氪· 2025-12-18 17:26

AI视频生成技术成为行业焦点 - 2025年下半年AI视频生成成为全球AI行业最受关注的方向之一，热度以“病毒式”速率扩散[5] - 技术进步是核心驱动力，过去两年视频生成技术在画面质量、时序建模与可用性上持续进步，全球AI视频能力迭代节奏显著加快[5] - 当生成效果跨过“能看”门槛，开始接近“可用”、“好用”时，AI视频真正进入大众视野并成为极具想象空间的赛道[6] 视频行业面临结构性生产难题 - 视频是全球增长最快、资本最密集、创新最活跃的领域之一，已成为信息、娱乐与商业的核心表达形态[7] - 行业竞争加剧将内容生产推向极限，短剧、电商与广告进入“更快、更细、更大量”阶段，内容更新周期被压缩到小时级甚至分钟级[7] - 传统制作链路依赖的人力规模与制作周期，与新的内容生产节奏形成明显错位，压力在不同领域显现[7] AI视频正在重塑内容产业生态 - 创作门槛被显著拉低，个人创作者与小团队开始具备接近工业化的视频生产能力[9] - 围绕视频生成的新中间层正在出现，包括创作工具、工作流平台及面向广告、电商、短剧的垂直解决方案[9] - 视频生产从一次性创作转向可规模化运行的系统工程，内容成为可反复生成、快速验证、持续优化的过程性资产[10] - 国内外涌现大量AI视频产业链创业公司，技术突破与国内规模化需求汇合，AI视频生成被视为下一代内容基础设施的重要组成部分[10] 不同公司的技术路径与战略侧重 - OpenAI的Sora策略偏向通用能力展示，通过高质量视频生成推动AI视频进入大众文化与社交传播场景[12] - Google的Veo强调模型在长时序理解与复杂场景中的表达能力，体现为技术能力的前沿探索[12] - 国内公司更多从平台生态出发，将视频生成能力与内容分发、创作者体系结合，或赋能视频生产全流程以提升效率[12] - 市场存在C端（娱乐表达）与B端（商业生产）需求的分野，B端场景要求镜头、人物与风格长期保持一致，内容可控、可复用，并能稳定高频输出[13] - 阿里选择将AI视频生成做成行业级基础设施，其通义万相2.6模型试图回应行业从能生成走向可生产、从尝鲜迈向规模化落地的趋势[13] 通义万相2.6的核心技术能力突破 - 将多镜头叙事能力提升为模型核心能力，强调在生成过程中对时间轴与镜头语言的整体建模，支持自然语言分镜指令[15] - 将参考对象从图片升级为视频，支持输入约5秒参考视频，复刻主体外观、动作模式、表情变化与音色特征，实现声画一致生成[18] - 将可控生成时长稳定在约15秒，并支持1080P输出与声画同步，满足广告、电商、短剧等商业场景对“刚好可用”内容长度的需求[21] - 文生图能力同步升级，引入对叙事结构的理解，支持图文混排输入，从简单提示中自动拆解故事并生成分镜画面[21] - 在中文语境与中式美学上持续投入，使模型在人物气质、风格表达与文化细节上更贴近本土创作需求[23] AI视频带来的生产效率革命 - AI视频生成介入创作前端，将编剧、导演、剪辑、美工等跨岗位协作工作压缩进同一界面，显著降低岗位交接成本[27] - 内容生产从线性流程转向以模型为核心的并行与即时生成，效率提升最先影响短剧、漫剧、电商内容、出海创作工具等对成本和周期高度敏感的场景[29] - 在广告和电商领域，AI将创意验证环节前置，显著压缩从想法到可视化内容的距离，用于内部讨论、客户提案或A/B测试[31] - 稳定、可规模化的视频生成能力催生新的工具平台、创作社区与内容服务，形成不断自我扩展的AI创作生态[31] 行业实践案例展示生产力提升 - AI漫剧与短剧工具平台巨日禄通过调用通义万相模型，将图片与视频生成能力嵌入创作工具链，大幅降低使用门槛[32] - 通义万相2.6在主体一致性、指令遵循等方面的稳定性，使巨日禄可以全天候、规模化使用，其智能体效率提升5-8倍[32] - 出海社交与内容公司乐我无限利用万相的多模态生成能力，支持海外创作者快速生成高质量AI视频，提升社区内容密度与创作质量，并助力冷启动[32] - 稳定型AI视频基础设施正在显著降低小团队乃至个体创作者的创作门槛，使有限人力条件下仍能维持稳定叙事质量并持续输出体系化内容[33] 从“好玩”到“好用”的关键在于稳定与集成 - 企业和创作者关心的核心是生成结果是否可控、稳定，能否减少反复抽卡和人工返工成本，稳定性是进入生产流程的前提[36] - 通义万相依托阿里云大模型服务与应用开发平台百炼，可被嵌入企业既有内容生产与业务流程，并非孤立工具[37] - 阿里云作为全球领先的全栈人工智能服务商，在算力供给、数据治理、模型服务及大规模并发调度等方面的工程能力，保障了视频生成模型在真实生产环境中的稳定持续运行[37] - 阿里对人工智能的系统性投入可追溯至十多年前，长期技术积累使其能够构建从模型训练、部署到服务化调用的完整链路[39] AI视频生成降低门槛并重新定义创作 - 当镜头语言、叙事节奏、美术风格等专业能力被编码进模型，创作者所需掌握的技能正从具体技法转向判断、创意与取舍本身[39] - 这种变化类似于从专业级影像软件走向大众化创作工具的历史拐点，AI视频生成正在把一整套专业制作能力压缩为可被普通人调用的基础设施[40] - 在降低门槛的同时，创作本身将具备更大的规模与更长的生命力[41] - 视频生成的终点并非替代创作者，而是让创作者将精力更多投入到真正有价值的部分——创意、叙事与判断本身[42]

AI视频生成

通义万相2.6（Wan2.6）

Sora