腾讯研究院AI速递 20250829

大模型安全与性能评估 - OpenAI与Anthropic首次联合评估模型安全性双方互授API权限进行测试 [1] - Claude模型在幻觉控制方面表现优异拒绝70%不确定问题幻觉率显著低于OpenAI模型 [1] - 在越狱测试中OpenAI的o3和o4-mini模型略优于Claude 但在抵抗系统提示词提取方面Claude表现更稳定 [1] 多模态图像生成技术突破 - 谷歌Gemini团队推出原生图像生成模型Nano-Banana 实现质量飞跃支持一句话生成和编辑高清图像 [2] - 模型采用原生多模态架构支持连续多轮对话并记忆历史图像和指令实现像素级完美编辑 [2] - 单次生成5张高清图片仅需13秒创新交错生成技术可分解复杂指令文本渲染能力成为进步标尺 [2] 视频与音频生成技术进展 - 腾讯混元开源端到端视频音效模型HunyuanVideo-Foley 输入视频和文字即可生成电影级音效 [3] - 采用双流多模态扩散变换器架构实现多模态语义均衡响应在泛化能力、语义响应和音频保真度达业界领先 [3] - 字节跳动推出OmniHuman-1.5视频模型首次实现双人音频驱动功能支持两个数字人实时对戏 [4][5] - 模型精准还原口型表情解析语音情绪并匹配肢体语言支持文本控制风格动作维持一分钟以上时序连贯性 [4][5] AI自动化平台商业化 - 工作流自动化工具n8n在8个月内营收增长4倍估值达23亿美元活跃用户超23万 [6] - 平台升级为AI应用编排层通过可视化方式连接应用和数据库支持构建Agent处理复杂任务 [6] - 采用Fair-Code许可模式比传统开源更利于商业化支持高度定制化工作流部署 [6] AI科学计算应用 - 华盛顿大学利用AI将气候模拟时间从数月缩短至12小时成功实现1000年数据模拟 [7] - 深度学习模型替代传统物理方程计算在保持高精度同时大幅提升效率助力极端天气预测研究 [7] 行业竞争格局变化 - AI百大榜单显示ChatGPT首次失去榜首位置开源模型与闭源模型差距明显缩小 [8][9] - 多家中国公司模型进入前20强评测维度从基础能力扩展至实际应用效果和商业价值 [8][9] AI安全与治理前瞻 - Geoffrey Hinton预警超级AI可能在10年内出现具备创造力、自主意识和自我改进能力 [10] - 提出人类需接受被AI抚养的"婴儿假说" 呼吁延迟AI训练5年直至安全保障措施完善 [10] - Anthropic CEO指出AI存在无序风险需构建可靠可理解的系统公司正组建安全评估团队 [11]