可灵3.0 Omni - 财报，业绩电话会，研报，新闻

可灵3.0 Omni

搜索文档

腾讯研究院AI速递 20260210

腾讯研究院· 2026-02-10 00:03

生成式AI模型进展 - 神秘编程模型Pony Alpha在OpenRouter平台走红，无发布会无论文，但凭借超强编程能力引发开发者圈热议，有人连续编程3小时做出可玩的Pokemon Ruby [1] - 实测显示Pony Alpha能从零复刻《星露谷物语》，自主完成需求分析、架构设计到功能实现全流程，展现出系统级工程理解与长时间推理能力 [1] - 模型身世成谜，猜测可能是Anthropic Sonnet 5、DeepSeek-V4或智谱GLM-5，若为国内厂商作品，意味着国产模型在高阶编程领域已进入新阶段 [1] - 小红书正在内测AI视频剪辑应用OpenStoryline，采用"非线性编辑+对话驱动"模式，用户上传图片通过自然语言即可完成视频剪辑 [2] - 小红书OpenStoryline在技术上采用DeepSeek和Qwen 3开源模型，结合公司自有的dots.lm文本大模型和FireRedASR音频模型实现生态适配 [2] - 北京电影学院导演使用可灵3.0 Omni进行影视前期制作测试，生成的动态预览让摄影、美术、灯光部门在开机前就能统一视觉认知 [3] - 可灵3.0展现出电影级影调控制能力，能精准还原阴天散射光质感、雨滴折射光斑，并通过运镜节奏传达心理状态 [3] - 在多人物车内对话场景测试中，可灵3.0在角色一致性、音画同步、视线匹配方面表现出色，可直接作为排练素材和灯光方案参考 [3] - 前华为"天才少年"创立的Xmax AI发布全球首个虚实融合实时交互视频生成模型X1，实现毫秒级实时生成和手势交互 [4] - Xmax AI的X1模型核心玩法包括次元互动、世界滤镜、触控动图和表情捕手，用户上传角色图即可让其"脱屏而出"与现实互动 [4] - Xmax AI团队通过端到端流式重渲染架构将扩散采样速度提升百倍，并自主搭建虚实融合数据合成管线解决行业数据稀缺难题 [4] - Crypto.com创始人Kris Marszalek以7000万美元（约5亿人民币）购入AI.com域名，创下人类域名交易新纪录 [5] - AI.com定位为Personal AI Agent平台，承诺60秒内让普通人创建能帮忙发消息、操作App、交易股票的个人AI智能体 [5] - 此举呼应了Andrej Karpathy提出的"智能体工程"趋势，即人类正从直接编写代码转向协调和监督执行任务的AI智能体 [6] 前沿科技与机器人 - 英伟达GEAR实验室发布140亿参数世界动作模型DreamZero，机器人仅通过文本提示即可完成从未见过的任务，被称为机器人"GPT-2时刻" [7] - DreamZero模型通过联合预测视频与动作学习物理动力学，在新任务与新环境泛化上比最先进VLA提升超过2倍，实现7Hz实时闭环控制 [7] - 该模型仅需30分钟"玩耍数据"即可适配全新机器人并保持零样本泛化能力，代码已在GitHub开源 [7] - 智元机器人举办全球首个机器人晚会《机器人奇妙夜》，200多台机器人表演唱歌、跳舞、太极、小品、魔术等12个节目 [8] - 在晚会中，灵犀X2完成飞踢空翻、古典舞、醉拳等高难度动作，远征A2担任主持人，黄晓明携启元Q1亮相 [8] - 晚会本质是智元机器人产品展示，但节目编排用心，从音乐搭配到舞台设计完成度较高，展现了人形机器人的娱乐应用潜力 [8] 行业资本与战略动向 - 2026年Meta、亚马逊、微软、谷歌四家科技巨头AI基建支出预计超6000亿美元（约4.16万亿人民币），同比暴涨70%以上 [9] - 这一支出规模相当于瑞典或以色列全年GDP，占美国GDP约2.1%，仅次于1803年购买路易斯安那州 [9] - 苹果成为唯一"逆势而行"者，资本支出同比下降19%，选择与谷歌Gemini合作以低成本获取世界一流AI模型 [9] - 小红书近期成立Red&Live独立部门聚焦短视频与直播，试图以"视频化+AI"双引擎向3亿DAU目标冲刺，从图文社区向综合平台转型 [2]

生成式AI

智能体工程

Artificial Intelligence

Artificial Intelligence

Pony Alpha

OpenStoryline

可灵3.0 Omni

实测可灵3.0 - 属于每个人的导演时代。

数字生命卡兹克· 2026-02-05 10:23

核心观点 - 可灵视频生成模型从2世代升级至3世代，实现了跨越式进步，将AI视频模型能力提升至新的天花板水平 [1][3] - 可灵3.0是一个无短板的“超强水桶”，其核心能力升级主要体现在分镜能力和语言能力两个特殊方向上 [7] - 结合可灵3.0与可灵3.0 Omni模型，可以覆盖约百分之九十的视频生成场景，预示着AI视频生产力将迎来巨大提升，未来可能进入“属于每个人的导演时代” [51][52] 分镜能力 - 可灵3.0允许用户生成3到15秒内任意时长的视频，并可规定视频包含的分镜数量及每个分镜的时长 [8] - 提供“智能分镜”功能，用户仅需提供简单提示词并开启开关，模型即可自动生成一系列分镜，极大简化了创作流程 [8][9] - 提供“自定义分镜”功能，用户可详细设定每个镜头的景别、内容、时长及音效，实现对画面的精细化控制 [16][17] - 模型具备强大的“正反打”镜头生成能力，能够丝滑实现对话场景及网球比赛等场景的镜头切换，解决了此前视频模型的难点 [19][20][23] - 分镜能力可用于制作产品广告短片等视频demo，使展示效果比单纯的分镜图更为直观 [24][26] - 支持“故事板生视频”的新玩法，用户可先用AI生成故事板图像，再结合提示词让可灵3.0生成完整视频，效果良好 [26][28][29] 语言能力 - 可灵3.0具备强大的多语言处理能力，能精准处理包含五六个人物、多种语言的复杂对话场景，指令遵循能力精准 [5][7][31] - 语言能力支持根据不同的语境和故事切换语气、口音，使表达与意图完美融合 [31][39] - 基于其语言能力，衍生出“邪修背单词”等创新玩法，可生成将单词谐音与含义巧妙融入剧情的学习视频 [31][33][36][37] - 语言能力可与分镜能力结合使用，例如生成一系列角色与不同客人说不同语言的快速切换镜头 [39][41] 可灵3.0 Omni模型 - 可灵Omni模型从O1升级至3.0 Omni，其核心能力是对现有视频进行编辑和修改 [42][44] - 与主打生成的3.0模型不同，3.0 Omni在视频修改方面表现突出，例如能完美替换视频中的主角并还原人物动作 [44][45] - 3.0 Omni的参考视频时长需控制在3-10秒内，适用于视频改视频的场景 [49] - 3.0与3.0 Omni均支持“视频提取主体”功能，可从本地或历史视频中提取主体，并添加主体音色参考 [45][49] - 两个模型能力互补：有视频编辑或视频参考需求可优先使用3.0 Omni；倾向于文生视频、文加图生视频或首尾帧生成则可用3.0 [51] 行业影响与未来展望 - 此次更新是一次全盘升级，目前优先向“黑金会员”开放，类似GPT新模型优先面向Pro会员的策略，预计不久将全量开放 [52] - 未来AI视频创作将变得更简单、平权，并越来越向真正的影视制作靠拢，例如解决普通人难以处理的分镜问题 [52] - 用户生成视频后，可提取其中的主体和声音用于后续创作，并可用Omni模型直接修改视频局部，结合分镜功能可完成视频剪辑与配乐，这将带来AI视频生产力的巨大提升 [52] - AI视频创作领域在沉寂一段时间后，可能即将迎来下一个盛世 [52][53]