谷歌Gemini Live
搜索文档
腾讯研究院AI速递 20251114
腾讯研究院· 2025-11-14 00:03
生成式AI模型发布与升级 - OpenAI发布GPT-5.1系列模型,包含更温暖智能、善于遵循指令的GPT-5.1 Instant模型,以及在复杂任务上更持久、更易理解的高级推理模型GPT-5.1 Thinking [1] - 百度正式发布文心5.0,该模型为原生全模态模型,总参数规模超2.4万亿,激活比例低于3%,在LMArena文本排行榜得分1432 [5] - 腾讯混元图像3.0上线,具备世界知识推理能力,可生成带逻辑的连续性内容,支持千字级复杂提示词,美学效果接近商业级模型 [5] - 新浪微博发布并开源VibeThinker-1.5B模型,仅15亿参数,训练成本不足8000美元,在顶级数学竞赛基准上击败近万亿参数模型 [6][7] AI多模态与3D内容生成 - 李飞飞团队World Labs开放3D世界生成模型Marble,支持文本、图像、视频、3D布局等多模态输入,并首创AI原生编辑工具进行局部替换和结构调整 [2] - Marble模型提供从免费版(每月7000点数)至旗舰版(每月120000点数)的四档订阅,支持多种导出格式可直接导入游戏引擎 [2] AI基础设施与战略合作 - Anthropic与英国云服务商Fluidstack达成500亿美元数据中心合作协议,将在得克萨斯州和纽约州建设定制化设施,符合其预计到2028年实现700亿美元收入和170亿美元正向现金流的内部预测 [3] AI语音交互技术 - 谷歌Gemini Live语音功能升级,支持实时语速调节、情绪化语气响应及风格化语音,基于Gemini2.5 Flash模型深度优化语音引擎,提升对语调、重音等微变的建模能力 [4] - 升级后的语音功能可无缝融入Google生态,在Maps中可直接查询,靠近Pixel Watch可无声启动对话,所有语音数据默认不存储 [4] AI前沿研究与性能评估 - Google DeepMind的AlphaProof系统技术细节公开,其在2024年IMO中获得28分银牌,核心创新在于将Lean形式化语言与强化学习结合,并采用"测试时强化学习"技术 [8] - LMArena发布新世代大模型编码评估系统Code Arena,国产模型智谱GLM-4.6在榜单中登顶,其代码修改成功率达94.9%,与顶尖闭源模型差距缩小到基点级别 [9]