千人千面的真人级AI名师，劈开教育「不可能三角」

公司核心产品与市场表现 - 公司“与爱为舞”开发了一款名为“爱学”的AI教育应用，其AI导师能够提供自然、互动性强的真人级讲课体验，并实现一对一个性化教学[1][2] - 该应用自年初上线以来，已累计服务百万级用户，学员分布在全国342个城市[3][101] 解决教育行业“不可能三角”的技术路径 - 公司通过“模型+语音+工程”三大核心技术组件，旨在破解教育行业规模、质量与成本难以兼得的“不可能三角”[4][5][6] 模型能力：从“知道”到“会教” - 通用大模型虽能解决复杂问题（如获奥赛金牌），但其设计初衷并非教育，往往直接给出答案和枯燥解析，缺乏教学引导[7][8][12][15] - 公司训练AI导师分为“知”与“行”两个层面：“知”包括掌握学科知识图谱、考点及名师授课方法论；“行”则通过海量真实数据与实践让AI学会应用[17][18][19] - 公司积累了约百万小时的音视频互动数据（含顶级名师授课视频），并通过构建“虚拟学员”与AI对练，每周生成数万小时的合成数据用于训练[21] - 训练过程结合专业教研：教师将教学经验具象化为思维链，形成“好老师红宝书”指导AI，后期该标注环节实现自动化[23][25] - 模型训练分两步：首先通过微调模仿教师思维链，固化基本教学方法以保障教学质量下限；随后通过强化学习（奖励函数围绕教学路径、有效性、灵活性设计），使AI能灵活调整教学策略[27][28][30][33][34][35] - 模型通过模拟课堂和直连真实教学一线进行测试与迭代，最终基于学员专属档案库实现千人千面的个性化课程定制[38][40][44][45] 语音交互：实现“真人级”互动体验 - 公司自研多模态语音理解大模型，结合教学上下文理解，解决真实课堂中噪音、方言及同音字（如“极限”与“极线”）的识别难题，将句准确率从行业约80%提升至95%以上[52][53][54] - 自研声纹降噪模型，能区分学员与家长的声音[54] - 语音合成采用LLM+Flow方案，结合强化学习优化语调节奏，并使用真实课堂数据建模不同教师的讲课风格，使发音更自然、情感表现更好[61][62][63][65] - 研发流式语义VAD和打断模型，使AI能实时识别学员打断意图，识别准确度达90%以上，支持双向实时交互[66] - 为AI导师配套设计了口型、表情与动作高度同步的逼真数字人形象，增强信任感与沉浸感[67][69] 系统工程：支撑大规模并发落地 - 通过优化服务链路，将AI思考与响应延迟压缩：简单问题走快速通道，复杂问题并行处理，使模型回复延迟控制在100ms以内，整条响应链路稳定在1–1.5秒；被打断时响应时间控制在100–200ms，整条链路不超过1.6秒[77][78][80] - 通过“提前缓存”优化性能：将Prompt结构化，减少模型重复阅读；缓存常见知识点的讲解结果，避免重复生成[86][89] - 通过链路优化与缓存组合，将整个交互流程控制在1秒至1.6秒之间[90] - 在单机层面优化显存规划与共享，并对GPU算子进行专项加速，使单卡有效吞吐能力提升约5倍，可支撑几十路真人级数字人推理[91] - 在集群层面从多数字人统一调度、系统抽象、并行计算、预留容量、保险机制五个维度加固系统，成为业界首个支持万人并发的真人级AI教学系统[92][94] 公司理念与行业愿景 - 公司不将AI视为简单工具，而是一场对个体工作逻辑与组织管理范式的深层重塑，提出“全员皆超级个体”理念，让个人能调度智能体军团实现创新[95][96][99] - 公司产品实践旨在通过AI技术，实现“有教无类、因材施教”的教育愿景[103]