跨领域知识迁移
搜索文档
马斯克预测Grok 5实现AGI概率达10%
环球网资讯· 2025-10-21 12:05
公司技术进展 - xAI公司正在研发的Grok 5大型语言模型有10%的概率实现通用人工智能,且该概率呈持续上升趋势 [1] - Grok 5被视为xAI技术跃迁的关键节点,其全新架构设计或突破现有模型对海量数据的依赖,通过更高效的自我学习系统降低训练成本 [3] - xAI通过优化基于Kubernetes、Rust和JAX的自定义训练堆栈框架,在资源利用率上实现突破 [4] 公司产品迭代 - 2023年11月推出的Grok-1模型以330亿参数实现接近LLaMA 2(700亿参数)的性能,仅用一半训练资源 [3] - 2024年4月发布的多模态大模型Grok-1.5V能通过视觉信息生成Python代码,在RealWorldQA基准测试中超越同类模型 [3] 行业技术定义与对比 - 通用人工智能被定义为能够完成人类通过计算机辅助实现的所有任务的智能系统,其能力上限不会超越全体人类与计算机协同工作的总体水平 [3] - 当前主流AI模型多聚焦于特定任务优化,而通用人工智能需具备跨领域知识迁移、自主学习及创造性思维等人类核心能力 [3] - Grok 5在AI工程领域的表现被称已超越Meta AI实验室前研究负责人安德烈·卡帕斯团队提出的模型规模即性能范式 [4]
混合数学编程逻辑数据,一次性提升AI多领域强化学习能力
36氪· 2025-08-14 16:05
AI大模型多领域推理研究 核心观点 - AI大模型在数学、编程和逻辑推理领域的跨领域协同训练显著提升整体性能,三领域联合训练使模型平均性能达到56.57,优于双领域组合[3][18][24] - 可验证强化学习(RLVR)技术通过定制化奖励策略和课程学习优化,展现出在多领域推理中的潜力,但需解决领域间冲突和模板一致性问题[6][21][23] 领域协同效应 - **数学与逻辑谜题的协同**:数学训练使Base模型在CountDown任务准确率提升75个百分点,同时逻辑谜题训练可迁移提升数学能力[10][15] - **代码训练的跨域泛化**:Instruct模型在代码训练后展现更强跨域能力,HumanEval任务准确率达82.93,而Base模型在域外任务性能下降[12][16] - **三领域联合优势**:Math+Code+Puzzle组合避免单领域性能塌陷,Math任务表现达49.72,Code任务达75.06,优于多数双领域组合[16][18] 训练方法与优化 - **奖励设计差异化**:二元奖励在简单任务KK上最优(准确率99.14),而复杂任务LPB需格式奖励或重缩放奖励[26] - **课程学习策略**:Policy Refresh策略使模型在6PPL阶段准确率达97.43,最终达99.71,超越标准课程学习的97.29[23][29] - **模板一致性关键**:不匹配模板导致CountDown准确率从19.36暴跌至0,R1模板下Base模型平均性能达47.84[21][24] 数据与模型表现 - **数据集规模**:实验使用Math(20k)、Code(12k)、Puzzle(7.8k)数据,采用二进制和比例奖励策略[8] - **性能对比**:Instruct模型在KK数据集准确率99.14,Zebra任务达36.20;Base模型数学单领域训练后CountDown准确率76.61[11][15] - **语言影响**:中文训练模型性能低于英文,显示语言敏感性[6]