课程概述 - 斯坦福大学2025年春季CS336课程「从头开始创造语言模型」已全面上线网络 提供完整课程视频和主页链接[2][4] - 课程目标为引导学生从零开发语言模型 覆盖预训练数据收集 Transformer构建 模型训练及部署评测全流程[5] 师资团队 - 核心讲师Tatsunori Hashimoto为斯坦福计算机科学系助理教授 研究成果累计引用超3万次 研究方向聚焦机器学习模型性能权衡[3] - 联合讲师Percy Liang为斯坦福副教授兼基础模型研究中心主任 学术引用量超10万 主导多项AI领域研究项目[3] 课程模块 - 五大模块涵盖基础 系统 扩展 数据 对齐和推理强化学习 强调实践操作与深度技术掌握[7] - 实践要求包括Python编程能力 PyTorch熟练度 系统优化经验及数学基础(线性代数 概率统计等)[7] 实践作业 - 作业1要求实现BPE分词器 Transformer架构和Adam优化器 仅允许使用PyTorch原语进行模型训练[8] - 作业2聚焦GPU加速 需在Triton中实现Flash Attention 2及分布式并行优化[8] - 作业3涉及Scaling Law拟合 学生需在有限计算预算内通过训练API收集数据点[8] - 作业4侧重数据工程 要求完成Common Crawl数据清洗 去重及有害内容过滤[8] - 作业5要求实现监督微调 专家迭代等对齐技术 在Qwen 2 5 Math 1 5B模型上运行强化学习[8] 课程安排 - 18周课程包含16次讲座和2次嘉宾分享 内容覆盖分词 GPU并行 混合专家系统 推理优化等核心技术[9] - 作业周期与课程紧密衔接 例如第5周完成作业1提交后立即发布作业2 强化学习实践贯穿后期课程[9]
大佬面对面!斯坦福2025 CS336课程全公开:从零开始搓大模型~
自动驾驶之心·2025-06-24 19:47