可灵数字人

搜索文档
腾讯研究院AI速递 20250916
腾讯研究院· 2025-09-16 00:01
生成式AI - Google Gemini凭借Nano Banana图像编辑功能登顶App Store免费榜 超越ChatGPT [1] - Gemini集成画布、Veo3视频生成、Storybook故事板及Deep Research等多功能 形成完整AI工具集 [1] - Google AI全家桶包括NotebookLM知识库 支持最多上传300个文件 Flow视频生成支持1080p高清 AI Mode搜索和Gemini CLI本地助手 [1] AI模型性能突破 - xAI发布Grok 4 Fast模型 生成速度达75 token/秒 比标准版快10倍 具有实时交互优势 [2] - 新模型在编程题和初中数学题任务中表现准确且快速 能在不到2秒内解决LeetCode题目 [2] - Grok 4 Fast在速度领先的同时存在准确性妥协 适合简单查询或工具使用场景 [2] 数字人技术进展 - 可灵AI推出新版数字人功能 支持最长60秒单次输出 1080P/48帧规格 提升面部识别和口型精度 [3] - 新功能支持提示词控制角色情绪和动作 能准确执行"看提词卡"等特定动作 [3] - 可灵数字人在720P标准下价格为0.12元/秒 约为Heygen同类产品三分之一 接近业内最低价 [3] AI绘画技术优化 - 腾讯混元通过Direct-Align和语义相对偏好优化(SRPO)技术改进扩散模型训练 [4] - Direct-Align在整个扩散轨迹上进行优化 避免传统方法只优化后期步骤造成的"奖励作弊"问题 [4] - SRPO训练的FLUX1.dev模型真实感和美学评分提高3倍以上 仅需32块H20训练10分钟 [4] AI在政府治理应用 - 阿尔巴尼亚任命名为Diella的AI系统为"部长" 全面负责公共采购项目 成为全球首例 [5] - Diella将评估招标和选聘人才 以实现"公共招标100%廉洁"目标 作为政府透明改革试金石 [5] - 该举措旨在解决公共招标腐败问题 推动数字政府转型 强调AI决策的客观公正性 [5] 企业战略调整 - xAI裁撤数据标注团队约500名员工 占该团队三分之一 受影响员工将获得薪资支付至11月底 [6] - 公司减少通用型AI导师 将专业AI导师团队规模扩大10倍 招聘STEM、金融、医学等领域人才 [7] - 裁员前xAI要求员工参加决定岗位去留的测试 测试内容涵盖多个专业领域 [7] 前沿技术突破 - 加州大学洛杉矶分校开发几乎不消耗电能的光学生成模型 研究成果发表于Nature [8] - 系统利用数字编码器生成静态噪声 通过空间光调制器将噪声转化为图像 [8] - 能生成手写数字、时尚商品、梵高风格艺术作品等图像 适用于VR、AR显示和可穿戴设备 [8] AI开发生态影响 - 95%开发者需额外时间修复AI生成代码 "氛围编程清理专家"成为新兴职业 年薪可达10万美元 [9] - 资深开发者表示AI编程缺乏系统性思维 容易引入安全漏洞 50%时间写需求 30-40%时间修复AI代码 [9] AI经济应用趋势 - Anthropic报告显示用户完整任务交给Claude的比例从27%增至39% [10] - AI使用与地区经济特点相关:华盛顿特区和犹他州人均使用最多 夏威夷侧重旅游规划 马萨诸塞用于科学研究 [10] - GDP越高地区AI使用率越高 企业用户自动化率达77% 远高于个人用户 [10]
从「对口型」到「会表演」,刚进化的可灵AI数字人,技术公开了
机器之心· 2025-09-15 20:19
技术框架 - 采用多模态大语言模型赋能的两阶段生成框架 通过多模态导演模块将音频 图像和文字提示组织成结构化故事线 [6][7][8] - 首先生成蓝图视频明确整体节奏和风格 然后基于首尾帧条件并行生成子段落视频 最后拼接完整视频 [10][11][12] - 引入音频对齐插帧策略保证口型与声学节奏的帧级同步 并通过负向CFG抑制身份漂移模式 [12][17] 数据与训练 - 从演讲 对话 歌唱等语料库收集数千小时视频 通过专家模型筛选嘴部清晰度 音画同步等维度 再经人工复核得到数百小时高质量训练数据 [14] - 构建包含375个"参考图-音频-文本提示"的测评基准 涵盖多语言 多情感 多动作场景 未来将开源 [14] 性能表现 - 在GSB测评体系中总体效果对比OmniHuman-1达2.39 对比HeyGen达1.37 在口型同步维度对比HeyGen达2.35 [16][24] - 在英语演讲场景对比OmniHuman-1的口型同步指标为1.00 中文演讲场景对比OmniHuman-1达3.90 [24] - 支持分钟级长视频生成 总生成时间理论上与单段生成相当 在1分钟视频中保持身份一致性和动态性 [28] 应用功能 - 能够准确还原高难度音节口型(如"truth"的[u:]发音)和高频语音中的静音段落口型状态 [25] - 精准响应情绪 动作 镜头三类文本控制 包括"兴奋"情绪和"镜头缓慢上移"等指令 [26] - 已集成至可灵平台开启公测 支持用户通过图像 音频和文本生成数字人视频 [2][31]