LLM101n课程 - 财报，业绩电话会，研报，新闻

LLM101n课程

搜索文档

36氪· 2026-02-27 07:31

Fermi.ai公司概况 - 前谷歌副总裁兼总经理、Flipkart前首席技术官皮尤什·兰詹于2026年创立AI教育平台Fermi.ai，总部位于新加坡，已在美国和印度落地产品 [1] - 公司定位为“AI学习导师”，核心理念是“支持思考而非取代思考”，旨在逆转“重答案、轻思考”的学习误区 [1][8] - 公司由Meraki Labs（皮尤什·兰詹与Flipkart联合创始人穆克什·班萨尔联合创办的工作室）孵化，产品当前免费开放，计划在未来六个月内启动首轮融资 [7] 产品与市场定位 - 首批上线数学、物理、化学三大STEM核心学科，精准切中中学生理科学习刚需市场 [2] - 核心服务覆盖学生与教育工作者两大群体，构建从学习练习到教学诊断的全链路解决方案 [2] - 平台基于云端开发，可在笔记本电脑、平板电脑、智能手机等多终端运行，后续计划拓展更多学科领域 [6] 核心功能与特色 - 针对学生提供作业辅助、个性化练习和针对性复习三大核心功能，支持手写记录解题步骤，平台实时分析推理过程并精准指出思维漏洞 [3] - 针对教育工作者输出课堂层面的整体学习洞察，帮助教师精准定位学生的学科薄弱环节 [3] - 四大特色功能协同发力：自适应实时辅导以循序渐进的指导鼓励学生独立解决难题；以手写为主的智能画布支持触控笔输入完成方程式演算、受力图绘制等；基于概念图的题库深度对接AP、IB、印度JEE等主流考试；诊断与分析功能为师生双向提供推理错误的精准归因 [5] - 平台采用“苏格拉底式”引导，当学生解题卡住时，通过层层提问引导学生自主梳理思路，而非直接给出答案 [9] 市场验证与初期效果 - 在正式上线前的三个月试点项目中，79名学生完成了超过15000次概念测试 [6] - 初期得分较低（≤2/10）的学生在最终测试中平均提高了4.68分，整体学科掌握度提升2.6分，且对平台提示的依赖程度下降21% [6] - 公司计划邀请全球教育工作者和学校加入2026年试点项目，进一步扩大市场覆盖 [6] 行业趋势与竞争格局 - 2026年初，多位科技大厂前高管扎堆入局AI教育赛道，成为推动行业创新的重要力量 [10] - 例如，三位谷歌前员工联合创立的Sparkli完成500万美元种子前轮融资，专注于5-12岁儿童的创造力与综合素养培养；OpenAI前核心成员Karpathy创办的Eureka Labs，打造AI原生教育场景 [10] - 大厂前高管入局得益于其积累的技术研发能力、产品打磨经验、行业洞察力以及人脉资本资源，能够更精准地把握AI技术趋势并捕捉教育市场真实需求 [11] - 当前AI教育赛道正迎来政策、技术、市场的三重红利叠加：全球多国将AI通识教育纳入课程；生成式AI全模态交互技术日趋成熟；学生和家长对优质教育资源的需求持续爆发 [12] - 大厂前高管的创业实践（如Fermi.ai的苏格拉底式教学、Sparkli的探险式学习等）正在推动行业从“野蛮生长”向“精耕细作”转型，重新梳理AI与教育的关系 [12]

卡帕西8000行代码手搓ChatGPT，成本仅100美元，训练12小时CORE表现超越GPT-2，手把手教程来了

36氪· 2025-10-14 11:40

项目概述 - 项目nanochat是一个极简、从零开始构建的全栈训练/推理pipeline，用最少量依赖的单一代码库实现了简易版ChatGPT [1] - 项目整体约8000行代码，基于Rust语言实现，可实现训练分词器、预训练大语言模型、指令微调、强化学习及高效推理等功能 [2] - 在8×H100 GPU上训练约4小时，整体成本仅需约100美元，即可训练出一个可进行基础对话、创作故事诗歌、回答简单问题的模型 [1][2] 技术架构与流程 - 训练流程始于在FineWeb-EDU数据集上预训练Transformer架构模型，该数据集被重新打包为简单、完全打乱的分片，总计约24GB [15][16] - 项目训练了自定义分词器，词汇表大小为65,536个tokens，在训练集包含2B字符上训练约1分钟，实现了约4.8的压缩比 [16][18] - 预训练后进行了中期训练，在SmolTalk对话数据集和多项选择题数据集上微调，使模型适应对话格式并理解多选题机制，此过程约8分钟 [35][36][37] - 随后进行监督微调（SFT）以提升对话质量，并可选地进行强化学习（RL）训练，针对GSM8K数学数据集使用简化的GRPO算法优化模型答案正确率 [41][46][48] 性能表现 - 模型在预训练后CORE指标达到0.2219，略高于GPT-2 large（0.21）但略低于GPT-2 xl（0.26） [3][32] - 经过中期训练和监督微调后，模型在多项基准测试上表现提升：ARC-Easy从0.3561提升至0.3876，GSM8K从0.0250提升至0.0455，HumanEval从0.0671提升至0.0854 [3][52] - 进行强化学习训练后，模型在GSM8K数据集上的表现进一步提升至0.0758 [3][52] - 训练深度为30的模型24小时后（算力消耗为GPT-3的千分之一），在MMLU数据集上可达40多分，在ARC-Easy上达70多分，在GSM8K上达20多分 [6] 项目特点与影响 - 项目代码完全手写，作者尝试使用AI编程助手但效果不佳，最终产出约8000行代码，旨在提供统一、极简、易读、可修改的技术栈 [9][7] - 项目作为LLM101n课程的压轴项目，有潜力发展为研究工具框架或基准测试工具，类似之前的nanoGPT项目 [7] - 项目发布后迅速获得社区关注，GitHub Star数飙升至4.8k，被评论为具有高教育价值和可理解智慧 [8] 成本与效率 - 使用云服务（如Lambda GPU Cloud）启动一台8卡H100服务器，每小时成本约24美元，总训练时间约4小时，成本约100美元 [10][53] - 若将成本提升至约1000美元（训练约41.6小时），模型表现显著提升，能解决简单的数学/代码问题及多项选择题 [4] - 到监督微调阶段为止的总用时为3小时51分钟，总成本约为92.4美元 [53]

大语言模型

强化学习

监督微调

Artificial Intelligence

Artificial Intelligence

nanochat

LLM101n课程