Workflow
教学评估体系
icon
搜索文档
港科大教授实测AI眼镜“作弊”:30分钟碾压95%的学生,把传统教学评估体系整破防了
猿大侠· 2026-01-07 12:11
实验概述与核心结果 - 香港科技大学教授团队进行了一项实验,让一副搭载ChatGPT-5.2模型的AI眼镜(Rokid Glasses)参加《计算机网络原理》本科期末考试,并在复刻真实考试条件下完成答卷[1][2][7][8] - AI眼镜在30分钟内交卷,取得92.5分,在百余人排名中位列前五,轻松超过了95%的人类考生[4] - 学生最高分为97.5分,平均分为72分,AI成绩显著高于平均线[4] 实验设计与技术选型 - 硬件方面,研究团队系统评估了12款主流商业智能眼镜,最终选择乐奇Rokid眼镜,因其同时具备内置摄像头和集成显示屏,且SDK更丰富、生态更完善,开发自由度更高[9][11][12] - 大模型方面,团队对比多款主流模型后,选择了OpenAI最新的ChatGPT-5.2,因其响应速度和通用知识能力较强[12] - 考试流程顺畅:学生低头看卷,眼镜摄像头拍摄题目,图像经“眼镜—手机—云端”链路传输至远程大模型推理,答案返回并显示在眼镜屏幕上供学生抄录[13] AI表现的具体分析 - 在多项选择题和单页短答题中,AI眼镜均获得满分(分别为29分和18分)[14] - 在难度更高的跨页短答题中,AI获得45.5分(满分53分),展现了极强的推理连贯性,即便复杂计算偶有偏差,中间步骤也非常完整[14][15] - 实验表明,只要题目规则清晰、评价目标单一,AI就能稳定跑完读题、理解、推理、作答的完整流程[29][30] 暴露的技术瓶颈与挑战 - **功耗问题**:在持续高分辨率图像传输和Wi-Fi连接下,30分钟内眼镜电量从100%迅速降至58%,全天候长时间使用的功耗控制和连接稳定性是工程瓶颈[19] - **摄像头清晰度限制**:摄像头清晰度直接决定AI“视力”,题目模糊、反光或拍摄角度偏差会导致AI在不完整信息上推理,答题稳定性明显下滑[20] 对传统教学评估体系的冲击与反思 - 实验凸显了一个根本问题:当教学评估主要关注能否交出“标准答案”时,这恰好落在AI最擅长且最稳定的能力区间内[22] - 以知识点掌握和标准解题路径为核心的传统评估方式,在AI时代显得吃力,其评估的有效性受到质疑[6][22][33] - 英国雷丁大学的一项研究发现,AI生成的答卷混入考试后,有高达94%成功蒙混过关,且AI平均成绩明显高于真实学生[31] 教育评估的未来方向探讨 - 传统笔试难以评估提出好问题、在信息不完整时做判断、在多种方案间权衡取舍、理解现实情境与他人立场等关键能力,而这些正是AI难以替代、最能区分学生真实素养的地方[34][35][36][37][39] - 评估重心需要从“交答案”转向“交思路”,关注学习过程、思考路径和决策质量[38][39] - 一些新的评估尝试已经出现,例如纽约大学商学院推出的由AI支撑的口试评估,要求学生解释决策依据和思路,AI充当考官进行追问并参与评分,旨在评估理解本身[44][45] - 国外部分高校开始引入口试、展示型作业等形式,让学生的思考过程变得可见[45] - 更现实的挑战是如何引导学生将AI用于信息整理、方案推演和假设验证,而将人的精力集中于无法被“外包”的判断、理解和选择环节[49]
港科大教授实测 AI 眼镜考试“作弊”:30 分钟交卷,碾压 95% 的学生
新浪财经· 2026-01-07 05:22
实验概述与核心发现 - 香港科技大学教授团队进行了一项实验,让一副搭载ChatGPT-5.2模型的AI眼镜参加《计算机网络原理》本科期末考试,在30分钟内完成试卷并获得92.5分,成绩超过95%的人类考生,排名进入前五[1] - 实验结果表明,在规则清晰、目标单一的标准化考试中,AI能够稳定地完成读题、理解、推理、作答的全流程,这使传统以笔试为核心、衡量知识点掌握程度的教学评估体系面临根本性质疑[1][13][16] 实验硬件选择与评估 - 研究团队系统评估了12款主流商业智能眼镜,包括Meta、小米、乐奇Rokid等品牌,筛选标准是同时具备内置摄像头和集成显示屏[3][4] - 首轮筛选后,符合硬件条件的候选产品主要为Meta Ray-Ban、Frame和乐奇Rokid[4] - 由于Meta未开放对显示内容的直接控制接口,而乐奇Rokid的SDK更丰富、生态更完善、开发自由度更高,同时考虑到Frame相机画质的限制,团队最终选择乐奇Rokid AI眼镜作为实验硬件[4][5] 实验软件与流程 - 实验选用的大模型是OpenAI最新的ChatGPT-5.2,因其响应速度和通用知识能力较强[7] - 考试流程为:学生低头看卷,眼镜摄像头拍摄题目,图像经“眼镜—手机—云端”链路传输至远程大模型推理,生成的答案返回并显示在眼镜屏幕上供学生抄录[9] AI考试表现与能力分析 - 搭载GPT-5.2的乐奇Rokid AI眼镜在期末考试中总分为92.5分(满分100分)[9] - 在多项选择题(满分29分)和单页短答题(满分18分)中均获得满分,在难度更高的跨页短答题(满分53分)中获得45.5分[9] - 即便在处理跨页、依赖上下文逻辑的复杂问题时,AI也展现出极强的推理连贯性,中间步骤完整[9] - 类似案例显示,在英国雷丁大学的研究中,AI生成的答卷混入考试后有高达94%未被发现,且平均成绩明显高于真实学生[20] 现有AI眼镜的技术瓶颈 - 功耗是主要问题:在持续进行高分辨率图像传输的30分钟考试中,眼镜电量从100%迅速降至58%,全天候长时间使用的功耗控制和连接稳定性是工程瓶颈[12] - 摄像头清晰度直接影响AI表现:题目图像若出现模糊、反光或角度偏差,会导致AI基于不完整信息推理,答题稳定性下降[12] 对教育评估体系的冲击与反思 - 传统教学评估高度依赖最终的标准答案,而这恰好落在AI最擅长且稳定的能力区间内[13] - 以知识点掌握和标准解题路径为核心的评估方式,在AI时代显得吃力,因为它难以评估提出好问题、在信息不完整时做判断、在多种方案间权衡取舍、理解现实情境和他人立场等关键能力[14][23][24] - 人类智能是多维的(如语言、逻辑数学、空间、人际、创造力等),而传统笔试只集中评估了其中非常狭窄的一段,这解释了为何一些标准化测试不突出的学生可能在真实世界中展现出更强的综合能力[25][27] 教育评估体系的可能演进方向 - 评估重心需要从“交答案”转向“交思路”,关注推理路径、探究过程、跨学科整合与创造性解题能力[25] - 已有尝试引入新的评估形式,例如纽约大学商学院教授推出由AI支撑的口试,学生需当场解释决策依据和思路,AI模型(如Claude、Gemini、ChatGPT)会对口试转录进行独立评分和交叉审查,以判断真实理解程度[27] - 国外部分高校开始引入口试、展示型作业等形式,旨在让学生的思考过程变得可见[29]