可灵数字人 - 财报，业绩电话会，研报，新闻

可灵数字人

搜索文档

腾讯研究院AI速递 20250916

腾讯研究院· 2025-09-16 00:01

生成式AI - Google Gemini凭借Nano Banana图像编辑功能登顶App Store免费榜超越ChatGPT [1] - Gemini集成画布、Veo3视频生成、Storybook故事板及Deep Research等多功能形成完整AI工具集 [1] - Google AI全家桶包括NotebookLM知识库支持最多上传300个文件 Flow视频生成支持1080p高清 AI Mode搜索和Gemini CLI本地助手 [1] AI模型性能突破 - xAI发布Grok 4 Fast模型生成速度达75 token/秒比标准版快10倍具有实时交互优势 [2] - 新模型在编程题和初中数学题任务中表现准确且快速能在不到2秒内解决LeetCode题目 [2] - Grok 4 Fast在速度领先的同时存在准确性妥协适合简单查询或工具使用场景 [2] 数字人技术进展 - 可灵AI推出新版数字人功能支持最长60秒单次输出 1080P/48帧规格提升面部识别和口型精度 [3] - 新功能支持提示词控制角色情绪和动作能准确执行"看提词卡"等特定动作 [3] - 可灵数字人在720P标准下价格为0.12元/秒约为Heygen同类产品三分之一接近业内最低价 [3] AI绘画技术优化 - 腾讯混元通过Direct-Align和语义相对偏好优化(SRPO)技术改进扩散模型训练 [4] - Direct-Align在整个扩散轨迹上进行优化避免传统方法只优化后期步骤造成的"奖励作弊"问题 [4] - SRPO训练的FLUX1.dev模型真实感和美学评分提高3倍以上仅需32块H20训练10分钟 [4] AI在政府治理应用 - 阿尔巴尼亚任命名为Diella的AI系统为"部长" 全面负责公共采购项目成为全球首例 [5] - Diella将评估招标和选聘人才以实现"公共招标100%廉洁"目标作为政府透明改革试金石 [5] - 该举措旨在解决公共招标腐败问题推动数字政府转型强调AI决策的客观公正性 [5] 企业战略调整 - xAI裁撤数据标注团队约500名员工占该团队三分之一受影响员工将获得薪资支付至11月底 [6] - 公司减少通用型AI导师将专业AI导师团队规模扩大10倍招聘STEM、金融、医学等领域人才 [7] - 裁员前xAI要求员工参加决定岗位去留的测试测试内容涵盖多个专业领域 [7] 前沿技术突破 - 加州大学洛杉矶分校开发几乎不消耗电能的光学生成模型研究成果发表于Nature [8] - 系统利用数字编码器生成静态噪声通过空间光调制器将噪声转化为图像 [8] - 能生成手写数字、时尚商品、梵高风格艺术作品等图像适用于VR、AR显示和可穿戴设备 [8] AI开发生态影响 - 95%开发者需额外时间修复AI生成代码 "氛围编程清理专家"成为新兴职业年薪可达10万美元 [9] - 资深开发者表示AI编程缺乏系统性思维容易引入安全漏洞 50%时间写需求 30-40%时间修复AI代码 [9] AI经济应用趋势 - Anthropic报告显示用户完整任务交给Claude的比例从27%增至39% [10] - AI使用与地区经济特点相关：华盛顿特区和犹他州人均使用最多夏威夷侧重旅游规划马萨诸塞用于科学研究 [10] - GDP越高地区AI使用率越高企业用户自动化率达77% 远高于个人用户 [10]

谷歌(US:GOOG)

Artificial Intelligence

Artificial Intelligence

从「对口型」到「会表演」，刚进化的可灵AI数字人，技术公开了

机器之心· 2025-09-15 20:19

技术框架 - 采用多模态大语言模型赋能的两阶段生成框架通过多模态导演模块将音频图像和文字提示组织成结构化故事线 [6][7][8] - 首先生成蓝图视频明确整体节奏和风格然后基于首尾帧条件并行生成子段落视频最后拼接完整视频 [10][11][12] - 引入音频对齐插帧策略保证口型与声学节奏的帧级同步并通过负向CFG抑制身份漂移模式 [12][17] 数据与训练 - 从演讲对话歌唱等语料库收集数千小时视频通过专家模型筛选嘴部清晰度音画同步等维度再经人工复核得到数百小时高质量训练数据 [14] - 构建包含375个"参考图-音频-文本提示"的测评基准涵盖多语言多情感多动作场景未来将开源 [14] 性能表现 - 在GSB测评体系中总体效果对比OmniHuman-1达2.39 对比HeyGen达1.37 在口型同步维度对比HeyGen达2.35 [16][24] - 在英语演讲场景对比OmniHuman-1的口型同步指标为1.00 中文演讲场景对比OmniHuman-1达3.90 [24] - 支持分钟级长视频生成总生成时间理论上与单段生成相当在1分钟视频中保持身份一致性和动态性 [28] 应用功能 - 能够准确还原高难度音节口型（如"truth"的[u:]发音）和高频语音中的静音段落口型状态 [25] - 精准响应情绪动作镜头三类文本控制包括"兴奋"情绪和"镜头缓慢上移"等指令 [26] - 已集成至可灵平台开启公测支持用户通过图像音频和文本生成数字人视频 [2][31]