开源科学

搜索文档
一场聚焦AI“前世今生与未来”的对话
中国青年报· 2025-07-22 07:14
行业动态 - 第三届链博会在北京举办先进制造主题活动,AI成为展会焦点之一 [2][3] - 英伟达CEO黄仁勋出席链博会开幕式并首次尝试中文演讲,强调中国供应链是"奇迹",美国企业扎根中国市场至关重要 [2] - 黄仁勋与王坚在链博会进行AI围炉对话,成为活动最受期待环节 [4] AI技术发展 - AI技术从依赖人工编程转向通过海量数据机器学习,2012年深度学习成为有效工具,计算机视觉、语音识别和自然语言处理实现突破 [4] - 生成式AI实现跨模态信息转换,突破单一媒介限制,当前技术焦点转向推理智能 [4] - 物理AI将成为下一波浪潮,指能感知、理解并直接在现实世界执行复杂操作的自主系统,通常嵌入机器人或自动驾驶车辆 [5] - 过去十年英伟达算力提高十万倍,能处理更多数据使机器学习更有效 [7] - AI从人工强化训练转向自主思考、生成数据、推理和实践 [7] 中国AI发展 - 中国孕育并开源共享DeepSeek、通义千问、混元、文心一言、Kimi等世界级大模型 [7] - 中国研究者发布的AI论文数量全球占比最高,推动开源科学发展 [8] - 开源是保障AI安全的关键,有助于推动国际社会在技术标准、性能基准和安全防护措施方面的协作 [8] - 中国开源AI是推动全球进步的催化剂,让各国和各行业有机会参与AI革命 [8] AI应用前景 - AI将重塑科学范式,在药物设计领域可解析蛋白质结构,在气候模拟方面可浓缩海洋、大气、冰盖物理特性进行预测 [9] - AI是最强大的"平等器",农民、老人、孩子都能用它赋能 [9] - AI领域机会广阔,可能成为个人终身机会 [9]
完全开源的7B模型,性能比肩主流LLM,训练成本仅16万美元,复现DeepSeek的强化学习!
AI科技大本营· 2025-05-14 17:31
生成式AI行业现状 - 全球科技圈因GPT-3等生成式AI技术爆发而加速发展,但主流闭源模型(如GPT-4、Claude 3)的运作机制不透明,商业化受限且API费用高昂[1][6] - 开源模型普遍仅公开权重,关键训练代码、数据集和配置被隐藏,阻碍学术研究与商业应用[6] Moxin-7B的核心突破 - 采用全透明开源策略,公开从数据清洗到强化学习的全流程细节,包括预训练代码、超参数配置、数据处理脚本等[2][5][7] - 数据集透明度高:预训练使用SlimPajama(627B tokens)和DCLM-BASELINE,指令微调采用Tulu 3和Infinity Instruct,强化学习数据来自OpenThoughts和OpenR1-Math-220k[7][8] - 高性能低成本:7B参数模型在零样本任务(ARC-C 58.64%)、数学推理(MATH-500 68%)超越更大规模模型(如70B参数的Llama-3-Instruct)[9][21] 技术创新与架构优化 - 基于Mistral-7B增强:36层Transformer(原版32层),4096维隐藏层,GQA+SWA支持32K长文本处理,推理速度更快且内存占用更低[14][17] - 数据策略严格:通过MinHash-LSH技术去重(相似度阈值0.8),清洗后保留627B Token(RedPajama原版的49%),代码数据来自The Stack-dedup(6TB开源代码)[15] - 训练成本仅16万美元(GPT-3训练成本460万美元),采用混合精度训练和滚动缓存机制优化效率[15][17] 评测表现对比 - Base模型:Moxin-7B-Enhanced在HellaSwag(80.03)、ARC-C(58.64%)等任务上超越LLaMA 3.1-8B、Qwen2-7B等同类模型[20] - Instruct模型:Moxin-7B-DPO在GSM8K(81.19)、MATH(36.42)等任务表现优于Qwen2.5-7B-Instruct[20] - Reasoning模型:Moxin-7B-Reasoning在MATH-500(68.6%)超越Llama-3.1-70B-Instruct(64.6%),验证小模型强化学习效果[21] 开源生态价值 - 提供完整开源资源:包括Base/Instruct/Reasoning模型权重、训练框架DeepScaleR和AReal,支持社区复现[12][23] - 为中小企业和研究团队提供可控AI解决方案,降低技术门槛[23]