人均不到3元!被AI作弊逼急的教授玩“邪修”:“花105元,给全班36人办了场AI口试”
猿大侠·2026-01-10 12:11

文章核心观点 - 生成式AI的普及导致传统课后作业和笔试等评估方式失效,教育行业面临评估模式变革的迫切需求[2] - 利用语音AI代理进行规模化口试,是应对上述挑战的有效且经济可行的创新解决方案[4][5] - AI口试系统不仅能以极低成本实现大规模实时评估,还能通过多模型评审和结构化反馈,更精准地检验学生的真实理解与能力,并反哺教学改进[13][14][29][30] AI对传统教育评估的冲击与挑战 - 学生利用LLM(大语言模型)完成作业的质量异常提升,但被随机提问时却无法解释自己的作业内容,表明传统书面作业已无法有效评估真实能力[1] - 在小组项目中,学生可利用Gemini 3.0、NotebookLM等工具生成无破绽的演示文稿,即使未参与项目也能进行完美展示,教师难以分辨[2] - 传统通过课后作业衡量学生理解程度的旧模式已经彻底失效[2] 口试作为评估新方案的价值与障碍 - 口试能要求学生进行实时推理、灵活应用知识并为自己决策辩护,且没有LLM辅助,能更真实反映学生水平[3] - 口试规模化落地的核心障碍是后勤协调困难,例如协调36名学生的考试时间已具挑战,班级规模扩大十倍后问题将更严峻[4] AI口试系统的设计与实施 - 采用ElevenLabs的对话式AI平台构建“语音口试智能体”,其基础版AI考官仅需几分钟即可搭建上线[5] - 系统关键功能包括:利用动态变量传入学生个性化信息实现“个性化口试”[6];采用多子Agent协作的工作流设计,防止对话偏离轨道并使调试可控[7][12] - 具体口试流程分为两部分:围绕学生结课项目细节提问[9];随机抽取课程案例进行现场分析提问[10] - 工作流由三个子Agent组成:身份验证Agent、项目讨论Agent、案例讨论Agent[11][12] AI口试的成本与效果数据 - 在36名学生的实践中,总成本为15美元,人均成本0.42美元(约人民币2.9元)[13][14] - 若采用纯人工口试,需2名考官,总工时30小时,按助教时薪25美元计算成本高达750美元,教授时薪成本更高[14] - 9天内完成全部口试,平均耗时25分钟,每场对话平均交互65轮[13] - 三个AI模型评分一致度达89%(误差在1分以内)[13] - 口试时长与得分完全不相关(相关系数r = -0.03),耗时最短的9分钟考试获得最高分19分(满分20分),耗时最长的64分钟考试仅得12分[13][31][32] 多模型评分委员会机制与效果 - 采用Claude、Gemini、ChatGPT组成“LLM评分委员会”,模型先独立评分,再互相参考评分和理由进行修正,最后由Claude担任主考官生成最终评分[22] - 第一轮评分一致性差:三个模型评分完全一致为0%,仅23%的评分误差在2分以内,最大平均误差接近4分[22] - 模型初始打分风格差异大:Gemini平均分17.0,Claude平均分13.4,OpenAI平均分14.0[22][23] - 进入审议环节后,评分一致性飞跃,Gemini在参考其他模型依据后平均分下调2.0分至15.0分[23][24] - 在不同考核维度上,模型评分一致率不同:“问题框架设计”和“评估指标选择”维度一致率达100%,“实验设计”维度一致率仅57%,后者反映了学生回答本身存在模糊性[26][28] AI口试系统的优势与教学反馈 - AI系统能自动生成包含“优点/不足/改进行动”的三段式结构化反馈,并直接引用学生原话作为证据,其反馈质量远超人类水平[29][30] - 通过考点成绩分析,精准暴露教学漏洞,例如“实验设计”考点平均分仅1.94分(满分4分),远低于“问题框架设计”考点的3.39分,促使教师意识到课程中A/B测试方法论讲解过于仓促[30][31] - 具体分数分布显示:8%的学生(3名)在“实验设计”考点得0分,42%的学生(15名)得2分,无人得满分4分[31] 实践中的问题与优化 - 初期选用声音过于“吓人”,优化方向是进行A/B测试,优化理解体验而非强调权威感[16][17] - AI曾一次性提出包含4个问题的复合问题,增加学生认知负荷,优化方案是在Prompt中规定一次只提一个问题[18] - AI在重复问题时擅自改写问题,导致题目变更,解决方案是要求AI在重复时必须逐字复述[19] - AI不给学生思考时间,将短暂沉默视为没听懂,优化措施是延长触发追问的超时等待时间从5秒至10秒[20] - LLM无法保证真正的随机性,例如在案例选择中“Zillow”被选中的概率异常高达8%,解决方案是将随机性逻辑从Prompt转移至代码层面实现[21] 学生反馈与未来展望 - 学生问卷调查显示:仅13%的学生更喜欢AI口试,57%倾向于传统笔试,83%认为AI口试比笔试更有压力[33] - 但同时,70%的学生认同AI口试能更准确地检验他们的真实理解水平,这是所有调查选项中认可度最高的一项[33] - 课后作业时代已经落幕,退回传统线下考试是技术倒退,教育需要能奖励真正理解、决策和实时推理能力的评估方式[35] - AI使得曾经因规模问题被淘汰的口试重新变得规模化、可落地,且系统可开放给学生用于反复练习,因为考题是实时生成的[36] - 核心思路可行,但执行细节仍需迭代优化[35]

人均不到3元!被AI作弊逼急的教授玩“邪修”:“花105元,给全班36人办了场AI口试” - Reportify