Workflow
腾讯研究院AI速递 20250516

高端GPU管制 - 美参议员提出法案要求英伟达、AMD等厂商在高端GPU和AI芯片中植入地理追踪功能 6个月后生效 [1] - 管制范围包括AI处理器、高性能服务器及RTX 5090等高端显卡 目的是防止战略硬件流入未授权国家 [1] - 芯片厂商需承担产品追踪责任 法案要求进行为期三年的年度评估 或将实施更多限制措施 [1] GPT-4.1上线 - OpenAI在ChatGPT中正式上线GPT-4.1模型 Plus、Pro和Team用户可直接使用 企业版和教育版用户将在未来几周获得访问权限 [2] - GPT-4.1在编码任务和指令遵循方面表现优异 生成速度显著提升 是o3和o4-mini的理想替代品 [2] - ChatGPT版本的GPT-4.1上下文窗口仅为128k token 未能实现API版本中承诺的100万token长度 [2] Claude模型升级 - Anthropic将在未来几周推出新版Claude Sonnet和Opus 最大亮点是"极限推理"功能 能在推理和工具使用间建立动态循环 [3] - 新模型能够自主暂停、重新评估问题并调整策略 在代码生成任务中可自动测试和修正错误 [3] - 正在测试代号为Neptune的新模型 最大支持128k tokens上下文长度 [3] 语音模型突破 - MiniMax新一代语音模型Speech-02在Artificial Analysis榜单上超越OpenAI和ElevenLabs 在字错率和说话人相似度等指标上达到SOTA水平 [4] - Speech-02实现真正的零样本语音克隆 采用创新的Flow-VAE架构 只需几秒音频即可高度还原说话人音色、语调和节奏 [5] - 该模型支持32种语言 可实现任意音色灵活控制和情感调节 成本仅为ElevenLabs竞品的1/4 [5] 腾讯元宝插件 - 腾讯元宝浏览器插件在Chrome应用商店上线 支持网页划词提问、内容总结、外文网页翻译和一键收藏等功能 [6] - 插件在页面右侧设有悬浮球和侧边栏 方便用户进行截图提问、上传文件和搜索内容 [6] - 该插件基于腾讯混元与DeepSeek大模型 目前仅在Chrome可用 更多版本将推出 [6] 音频生成模型 - Stability AI与Arm合作推出Stable Audio Open Small音频生成模型 可在手机端离线运行 8秒内生成11秒音频 [7] - 该模型拥有3.41亿参数 专为生成短音频和音效设计 训练数据来自免版权的Free Music Archive和Freesound [7] - 模型对年收入低于100万美元的用户免费开放 但无法生成逼真人声和高质量歌曲 [7] 视频生成模型 - 阿里开源Wan2.1-VACE视频生成与编辑统一模型 支持文生视频、图像参考生成、重绘、局部编辑等6大任务 [8] - 模型分为1.3B(支持480P、可用消费级显卡)和14B版本(支持720P) 采用创新的视频条件单元VCU统一四大输入形态 [8] - 该模型可一次性完成画幅扩展、时长延展和图像参考等多项任务 GitHub获得1.1万star [8] 腾讯混元应用 - 腾讯混元大模型为《碧优蒂的世界》打造智能NPC系统 支持自主行动、个性化交互、情感表达和记忆推理等功能 [10] - BUD利用腾讯混元角色扮演专属模型和Turbo S快思考模型 实现NPC与玩家的立体互动 3个月内AI对话数超两千万次 [10] - 游戏通过Dify无代码开发和腾讯云向量数据库支持 大幅缩短开发周期 混元图像2.0将于5月16日发布 [10] AlphaEvolve突破 - DeepMind发布基于Gemini驱动的AlphaEvolve智能体 能够演化整个代码库 实现算法发现和优化 陶哲轩参与合作 [11] - AlphaEvolve通过"生成-评估-进化"循环机制工作 结合LLM创造力与自动评估系统 显著减少了AI幻觉问题 [11] - 该系统已应用于优化谷歌数据中心效率(提升0.7%) 改进TPU芯片设计 在75%的开放性数学问题上重现最优解 [11] AI应用层机遇 - 红杉资本认为AI正同时颠覆软件和服务两大盈利池 应用层是最大价值所在 95%的AI创业与传统创业无异 [12] - 智能体经济正在形成 AI系统能进行交易、追踪关系、建立信任 最终将形成人机深度协同的嵌套经济网络 [12] - 行业面临三大技术挑战:智能体的持久身份认证、无缝通信协议构建和安全性保障 [12]