Conversational AI 2.0

搜索文档
腾讯研究院AI速递 20250603
腾讯研究院· 2025-06-02 23:08
生成式AI 一、 Mamba作者之一 提出2种专为推理量身定制的注意力机制 1. Mamba核心作者提出两种专为推理定制的注意力机制GTA和GLA,可将解码速度和吞吐量 最高提升2倍; 2. GTA是GQA的替代品,能减少约50%KV缓存使用,而GLA比DeepSeek使用的MLA解码 速度更快; 3. 这些机制通过优化内存使用和计算逻辑,在不牺牲模型生成质量前提下提升大语言模型推 理效率。 https://mp.weixin.qq.com/s/61k_W7m21hWBYv2Er00E9A 2. 其核心优势包括出色的角色一致性保持、快速生成速度(10秒左右)和良好的风格迁移能 力,可用于物体修改、背景替换等多种场景; 3. 目前存在的局限包括多轮编辑后质量退化、无法参考多图像、改变元素过多会报错,使用 时应遵循"明确保留内容"的提示词原则。 https://mp.weixin.qq.com/s/iLt00rVtArp9fW95X0NTmA 二、 Flowith的Agent Neo已全面开放, 首个无限执行 Agent 1. Flowith推出Agent Neo,声称是全球首个支持无限执行、无限产出的AI Ag ...