开源科学 - 财报，业绩电话会，研报，新闻

开源科学

搜索文档

中国青年报· 2025-07-22 07:14

行业动态 - 第三届链博会在北京举办先进制造主题活动，AI成为展会焦点之一 [2][3] - 英伟达CEO黄仁勋出席链博会开幕式并首次尝试中文演讲，强调中国供应链是"奇迹"，美国企业扎根中国市场至关重要 [2] - 黄仁勋与王坚在链博会进行AI围炉对话，成为活动最受期待环节 [4] AI技术发展 - AI技术从依赖人工编程转向通过海量数据机器学习，2012年深度学习成为有效工具，计算机视觉、语音识别和自然语言处理实现突破 [4] - 生成式AI实现跨模态信息转换，突破单一媒介限制，当前技术焦点转向推理智能 [4] - 物理AI将成为下一波浪潮，指能感知、理解并直接在现实世界执行复杂操作的自主系统，通常嵌入机器人或自动驾驶车辆 [5] - 过去十年英伟达算力提高十万倍，能处理更多数据使机器学习更有效 [7] - AI从人工强化训练转向自主思考、生成数据、推理和实践 [7] 中国AI发展 - 中国孕育并开源共享DeepSeek、通义千问、混元、文心一言、Kimi等世界级大模型 [7] - 中国研究者发布的AI论文数量全球占比最高，推动开源科学发展 [8] - 开源是保障AI安全的关键，有助于推动国际社会在技术标准、性能基准和安全防护措施方面的协作 [8] - 中国开源AI是推动全球进步的催化剂，让各国和各行业有机会参与AI革命 [8] AI应用前景 - AI将重塑科学范式，在药物设计领域可解析蛋白质结构，在气候模拟方面可浓缩海洋、大气、冰盖物理特性进行预测 [9] - AI是最强大的"平等器"，农民、老人、孩子都能用它赋能 [9] - AI领域机会广阔，可能成为个人终身机会 [9]

完全开源的7B模型，性能比肩主流LLM，训练成本仅16万美元，复现DeepSeek的强化学习！

AI科技大本营· 2025-05-14 17:31

生成式AI行业现状 - 全球科技圈因GPT-3等生成式AI技术爆发而加速发展，但主流闭源模型（如GPT-4、Claude 3）的运作机制不透明，商业化受限且API费用高昂[1][6] - 开源模型普遍仅公开权重，关键训练代码、数据集和配置被隐藏，阻碍学术研究与商业应用[6] Moxin-7B的核心突破 - 采用全透明开源策略，公开从数据清洗到强化学习的全流程细节，包括预训练代码、超参数配置、数据处理脚本等[2][5][7] - 数据集透明度高：预训练使用SlimPajama（627B tokens）和DCLM-BASELINE，指令微调采用Tulu 3和Infinity Instruct，强化学习数据来自OpenThoughts和OpenR1-Math-220k[7][8] - 高性能低成本：7B参数模型在零样本任务（ARC-C 58.64%）、数学推理（MATH-500 68%）超越更大规模模型（如70B参数的Llama-3-Instruct）[9][21] 技术创新与架构优化 - 基于Mistral-7B增强：36层Transformer（原版32层），4096维隐藏层，GQA+SWA支持32K长文本处理，推理速度更快且内存占用更低[14][17] - 数据策略严格：通过MinHash-LSH技术去重（相似度阈值0.8），清洗后保留627B Token（RedPajama原版的49%），代码数据来自The Stack-dedup（6TB开源代码）[15] - 训练成本仅16万美元（GPT-3训练成本460万美元），采用混合精度训练和滚动缓存机制优化效率[15][17] 评测表现对比 - Base模型：Moxin-7B-Enhanced在HellaSwag（80.03）、ARC-C（58.64%）等任务上超越LLaMA 3.1-8B、Qwen2-7B等同类模型[20] - Instruct模型：Moxin-7B-DPO在GSM8K（81.19）、MATH（36.42）等任务表现优于Qwen2.5-7B-Instruct[20] - Reasoning模型：Moxin-7B-Reasoning在MATH-500（68.6%）超越Llama-3.1-70B-Instruct（64.6%），验证小模型强化学习效果[21] 开源生态价值 - 提供完整开源资源：包括Base/Instruct/Reasoning模型权重、训练框架DeepScaleR和AReal，支持社区复现[12][23] - 为中小企业和研究团队提供可控AI解决方案，降低技术门槛[23]

生成式 AI

开源科学

Artificial Intelligence

Artificial Intelligence

Moxin-7B

GPT-4

Claude