跨领域知识迁移
搜索文档
马斯克预测Grok 5实现AGI概率达10%
环球网资讯· 2025-10-21 12:05
来源:环球网 在回应网友提问时,马斯克以调侃语气称,Grok 5在AI工程领域的表现已超越加拿大深度学习专家安德 烈·卡帕斯(曾主导Meta AI实验室研究)。卡帕斯团队曾提出"模型规模即性能"的范式,而xAI通过优 化训练堆栈(基于Kubernetes、Rust和JAX的自定义框架),在资源利用率上实现突破。(青山) 这一目标与xAI此前发布的Grok系列模型形成鲜明对比。2023年11月推出的Grok-1以330亿参数实现接近 LLaMA 2(70B)的性能,仅用一半训练资源;2024年4月发布的多模态大模型Grok-1.5V已能通过视觉 信息生成Python代码,在RealWorldQA基准测试中超越同类模型。而Grok 5被视为xAI技术跃迁的关键节 点,其全新架构设计或突破现有模型对海量数据的依赖,通过更高效的自我学习系统降低训练成本。 【环球网科技综合报道】10月21日消息,特斯拉与SpaceX首席执行官埃隆·马斯克在社交平台上发布预 测,称其旗下人工智能公司xAI正在研发的Grok 5大型语言模型有10%的概率实现通用人工智能 (AGI),且该概率呈持续上升趋势。 马斯克将AGI定义为"能够完成 ...
混合数学编程逻辑数据,一次性提升AI多领域强化学习能力
36氪· 2025-08-14 16:05
AI大模型多领域推理研究 核心观点 - AI大模型在数学、编程和逻辑推理领域的跨领域协同训练显著提升整体性能,三领域联合训练使模型平均性能达到56.57,优于双领域组合[3][18][24] - 可验证强化学习(RLVR)技术通过定制化奖励策略和课程学习优化,展现出在多领域推理中的潜力,但需解决领域间冲突和模板一致性问题[6][21][23] 领域协同效应 - **数学与逻辑谜题的协同**:数学训练使Base模型在CountDown任务准确率提升75个百分点,同时逻辑谜题训练可迁移提升数学能力[10][15] - **代码训练的跨域泛化**:Instruct模型在代码训练后展现更强跨域能力,HumanEval任务准确率达82.93,而Base模型在域外任务性能下降[12][16] - **三领域联合优势**:Math+Code+Puzzle组合避免单领域性能塌陷,Math任务表现达49.72,Code任务达75.06,优于多数双领域组合[16][18] 训练方法与优化 - **奖励设计差异化**:二元奖励在简单任务KK上最优(准确率99.14),而复杂任务LPB需格式奖励或重缩放奖励[26] - **课程学习策略**:Policy Refresh策略使模型在6PPL阶段准确率达97.43,最终达99.71,超越标准课程学习的97.29[23][29] - **模板一致性关键**:不匹配模板导致CountDown准确率从19.36暴跌至0,R1模板下Base模型平均性能达47.84[21][24] 数据与模型表现 - **数据集规模**:实验使用Math(20k)、Code(12k)、Puzzle(7.8k)数据,采用二进制和比例奖励策略[8] - **性能对比**:Instruct模型在KK数据集准确率99.14,Zebra任务达36.20;Base模型数学单领域训练后CountDown准确率76.61[11][15] - **语言影响**:中文训练模型性能低于英文,显示语言敏感性[6]