Grok-4模型性能曝光 - Grok-4在HLE评估中基础得分35%,开启推理功能后提升至45%,显著领先OpenAI o3和Google Gemini系列[1] - 在GPQA测试中得分达87%-88%,代码能力评测SWE Bench得分72%-75%[2] - 新版本支持多模态输入、130k token上下文、结构化输出、数学推理和函数调用等功能[3] - Grok 4 Code将深度集成在Cursor编辑器,具备智能补全、调试和执行功能[3] 华为盘古模型开源争议 - 华为开源盘古7B稠密模型及72B混合专家模型,被质疑与阿里云通义千问Qwen-2.5 14B高度相似[4] - 华为声明盘古Pro MoE模型基于昇腾硬件平台独立开发,采用创新MoGE架构解决分布式训练负载均衡难题[5] - 承认部分基础组件代码参考业界开源实践,但严格遵循开源许可证要求[5] Cluely公司ARR快速增长 - AI面试辅助工具Cluely企业版推出后ARR一周内翻番至700万美元[7] - 产品实时分析用户在线对话生成隐蔽提示,应用于销售、客服和远程教学等场景[7] - 面临免费开源竞品Glass的挑战,增长持续性存疑[9] 特斯拉Optimus项目调整 - 暂停人形机器人零部件采购进行设计调整,预计耗时2个月[10] - 硬件存在关节电机过热、灵巧手负载低等问题,软件计划增加合成数据训练[12] - 原计划年产5000台目标恐难达成,目前仅完成约1000台[13] 百度搜索重大升级 - 搜索框升级为"智能框",支持超1000字文本输入和多模态交互[16] - 集成文心大模型和视频生成技术,可快速生成电影级短视频[17] AI基础设施投资热潮 - Amazon新建1200英亩数据中心与Anthropic合作,目标训练全球最大AI系统[21] - Oracle通过去中心化策略建立高效AI云基础设施[21] - 行业预计新建数据中心总投资超3200亿美元,年耗电量相当于百万家庭需求[23] Meta成立超级智能实验室 - 整合FAIR、大语言模型开发和AI产品团队,由Scale AI前CEO Alexandr Wang领导[24] - 吸引多位来自OpenAI、DeepMind和Anthropic的核心人才加入[26] - 计划未来几年投入数千亿美元发展AI基础设施和模型研发[26] 开源模型进展 - 百度文心4.5系列开源10款模型,包含47B和3B MoE模型及0.3B稠密模型[30] - 苹果开源DiffuCoder-7B-cpGRPO代码生成模型,EvalPlus基准性能提升4.4%[36] - B站开源AniSora V3动画视频生成模型,支持多种风格一键生成[34]
DeepSeek给王一博道歉被当真,年度AI幻觉/马斯克Grok 4跑分曝光/华为盘古团队回应模型争议|Hunt Good周报