腾讯研究院AI速递 20251021

AI基础设施与算力 - 甲骨文推出全球最大云端AI超级计算机OCI Zettascale10，由80万块NVIDIA GPU组成，峰值算力达16 ZettaFLOPS，计划于2026年下半年向客户提供服务[1] - 该超算采用独创Acceleron RoCE网络架构，通过每块GPU的NIC充当小型交换机连接多个隔离网络平面，以降低通信延迟并确保故障时自动切换路径[1] 大语言模型进展 - 谷歌Gemini 3.0疑似以lithiumflow（Pro版）和orionmist（Flash版）马甲上线评测，Gemini 3 Pro成为首个能精确识别钟表时间的AI模型，在SVG绘制和音乐作曲方面表现出色[2] - 谷歌向所有开发者开放Gemini API调用谷歌地图工具功能，可整合2.5亿个地点的位置感知，按每1000条有事实依据的提示收费25美元，支持路线规划等场景[7] - DeepSeek开源3B参数OCR模型DeepSeek-OCR，通过光学二维映射技术实现长文本上下文压缩，压缩率小于10倍时OCR精度达97%[3] AI应用与产品创新 - 元宝AI录音笔推出新功能，基于腾讯天籁降噪技术实现录音转写，并具备“内心OS”功能解读发言人弦外之音，支持多人发言智能拆分[4] - Vidu Q2参考生功能正式上线，推理速度比Q1版本快3倍，支持多主体一致性生成，免费用户可生成最长30秒视频，付费用户最长可延长至5分钟[5][6] - 宇树发布180cm仿生人形机器人H2，体重70kg，关节总数31个比前代增加约19%，可跳芭蕾舞和表演武术，应用场景扩展至娱乐演示和陪伴服务[9] AI性能评测与市场表现 - 实盘交易实验显示DeepSeek V3.1在1万美元本金下盈利超3500美元排名第一，仅进行5次交易，而Gemini 2.5 Pro进行45次交易成为赔钱最多的模型[8] - DeepSeek-OCR模型在OmniDocBench测试中仅用100个视觉token超越GOT-OCR2.0，单张A100-40G GPU每天可生成超20万页训练数据[3] 行业专家观点 - Karpathy预测AGI仍需十年时间，认为强化学习效率极低像“通过吸管吸取监督信号”，需要新的学习机制[10] - 提出“认知核心”概念，建议通过精简LLMs和提高泛化能力，预测未来模型将先变大再变小，最终收敛向更小更专注的认知内核[11]