腾讯研究院AI速递 20260119
腾讯研究院·2026-01-19 00:01

超大规模计算基础设施与能源挑战 - 马斯克旗下xAI的Colossus 2超算集群正式投入运行,成为全球首个功率达到1吉瓦(GW)的超算集群,计划于4月升级至1.5吉瓦,最终装机容量将达到2吉瓦 [1] - 该集群完工后将内置55.5万张GPU,远超Meta和微软的规模,全部专用于Grok模型,预计将支撑6万亿参数的Grok 5模型训练 [1] - 数据中心用电激增对美国电网构成压力,导致PJM电网区域6700万居民可能面临轮流停电风险,xAI已部署168个特斯拉Megapack储能系统以缓解对电网的冲击 [1] 大模型产品商业化与市场策略 - OpenAI正式启动广告业务,计划在美国的免费版和新推出的ChatGPT Go订阅服务中测试广告,广告将出现在回答底部并明确标记,而Pro、Business和Enterprise版本则无广告 [2] - OpenAI推出低价订阅服务ChatGPT Go,价格为每月8美元,提供GPT-5.2 Instant版本,其消息量和图像创建量是免费版的10倍 [2] - OpenAI承诺广告不影响回答内容,不向广告商出售用户数据,用户可关闭个性化广告并随时清除相关数据 [2] 翻译工具与多语言模型竞争 - OpenAI低调上线ChatGPT Translate翻译工具,支持50多种语言,并提供一键调整译文语气(如“商务正式”、“学术风格”)的功能 [3] - 谷歌强势回应,开源了TranslateGemma模型,支持55种语言,其120亿(12B)参数版本性能超越270亿(27B)参数的基线模型,40亿(4B)参数版本可在手机端运行 [3] - TranslateGemma模型保留了多模态能力,可以翻译图像中的文字,其4B版本采用Apache 2.0许可证,支持商业使用 [3] 高效开源图像生成与编辑模型 - Black Forest Labs开源了FLUX.2 Klein模型,包含40亿(4B)和90亿(9B)参数两个版本,在现代硬件上实现了端到端推理时间低于0.5秒,统一了文生图和图像编辑能力 [4] - 4B模型仅需13GB显存即可在消费级GPU上运行,9B版本性能可与参数规模为其5倍的模型匹敌,4B版本采用Apache 2.0许可证 [4] - 模型提供了FP8和NVFP4量化版本,在RTX GPU上分别实现了最高1.6倍和2.7倍的推理加速,显存占用降低了40%至55% [4] 3D内容生成技术升级 - 混元3D Studio 1.2全面开放公测,其组件生成能力升级为PartGen 1.5,拆分精度从1024³提升至1536³分辨率,并支持笔刷交互进行拆分控制 [5] - 基础模型升级为混元3D 3.1版本,几何细节和纹理颜色还原度大幅提升,支持通过八视角图像输入生成3D模型 [5] - 新版本引入了全尺度组件精细化处理和分割掩码控制,实现了更完整的复杂物体拆分和专业可控的组件生成 [5] 大模型智能体能力与训练方法创新 - 美团发布了5600亿参数的LongCat-Flash-Thinking-2601模型,引入了“重思考”模式,可同时启动8路并行思考后汇总得出结论 [7] - 该模型的智能体能力获得重大提升,在工具调用和搜索等基准测试中达到顶尖水平,团队还提出了自动化环境规模扩展的泛化能力评测方法 [7] - 模型采用环境规模扩展与多环境强化学习进行训练,并引入了面向噪声环境的课程式稳健训练,显著提升了在分布外场景的适应能力 [7] OpenAI内部争议与法律诉讼 - 法庭解封了超过100份与马斯克诉OpenAI案相关的证词文件,文件显示奥特曼通过YC基金间接持有OpenAI股份,同时秘密拥有OpenAI创业基金,与其公开声明存在矛盾 [8] - 文件曝光了Brockman 2017年的日记,其中承认想把OpenAI转为营利公司并踢出马斯克,称“这是摆脱埃隆的唯一机会” [8] - OpenAI反驳称马斯克曾要求获得50%-60%的股权和CEO职位但被拒绝,法官认为证据争议较大,适合由陪审团裁决,审判定于4月27日开始 [8] 脑机接口技术进展与升级路径 - Neuralink首位受试者Noland揭秘,其大脑芯片可通过三种方式升级:Telepathy应用更新、植入体固件OTA无线更新以及硬件迭代 [8] - 此前85%的电极发生脱离后,团队通过软件算法更新让剩余15%的电极性能反超完好状态,实现了不开颅修复问题 [8] - 下一代计划采用“双芯配置”,在大脑和脊髓各植入一枚芯片以搭建“数字桥梁”,目标是让瘫痪者重新行走;奥特曼投资的Merge Labs也已入局脑机接口领域 [8] 行业对AGI发展的判断与预测 - 红杉资本合伙人联合发布博客,指出AGI(通用人工智能)已经到来,其功能性定义为“能把事情搞清楚的能力”,认为长周期智能体已具备形成假设、验证、调整直至找到答案的能力 [9] - 文章举例说明,智能体能在31分钟内自主完成一项招聘任务:从LinkedIn搜索到YouTube筛选演讲者,再交叉比对Twitter找出倦怠信号,最终锁定精准候选人 [9] - 长周期智能体的能力被认为每7个月翻一番,预计到2028年能完成人类专家一天的工作,到2034年能完成一年的工作,并称“你对2030年的梦想,2026年就能实现” [9] 大模型能力演进与个性化方向 - OpenAI后训练负责人表示,GPT-5.1首次让所有聊天模型都变成了推理模型,模型可根据问题难度自主决定思考时长,实现更智能的资源分配 [10] - 团队重点改进了模型的上下文记忆、自动模型切换的风格一致性和指令遵循能力,并新增了“风格与特质”个性化功能,允许用户自定义模型的表达方式 [11] - 未来模型将更加可定制,记忆功能让模型能记住用户背景和偏好,真正的方向是模型主动理解用户,但用户始终掌握主导权 [11] AI对工作效率的影响与潜在风险 - Anthropic发布的新《经济指数报告》显示,任务越复杂,AI带来的效率提升越惊人:完成高中学历水平的任务速度提升9倍,完成大学学历水平的任务速度提升达12倍,颠覆了“AI只擅长简单劳动”的认知 [12] - 报告发现,人机协作能将AI处理任务的时长上限从基准测试的2小时推高至19小时,接近10倍提升,人类学会拆解任务和提供反馈修正是关键 [12] - 报告警示存在“去技能化”风险,AI正系统性剔除工作中的高智力部分,当前AI覆盖的任务平均需要14.4年的教育背景,高于经济活动平均所需的13.2年 [12]