港科大教授实测AI眼镜“作弊”:30分钟碾压95%的学生,把传统教学评估体系整破防了
36氪·2026-01-06 19:20

实验概述与核心发现 - 香港科技大学教授团队进行了一项实验,让一副搭载ChatGPT-5.2模型的AI眼镜参加《计算机网络原理》本科期末考试,在30分钟内完成试卷并获得92.5分,成绩超过95%的人类考生,排名进入前五[1][3] - 实验旨在测试AI在真实考场环境下完成整套考试流程的能力,结果显示AI能够稳定执行读题、理解、推理、作答的完整流程,对传统以标准答案为核心的教学评估体系构成了挑战[3][4][16] 实验硬件选择与评估 - 研究团队系统评估了12款主流商业智能眼镜,最终选择乐奇Rokid Glasses作为硬件平台,主要因其同时具备内置摄像头和集成显示屏,且SDK更丰富、生态更完善,开发自由度显著高于Meta Ray-Ban等竞品[6][7][8] - 硬件筛选标准包括摄像头和显示屏的共存性、二次开发能力以及相机画质,Frame等产品因相机画质限制或接口开放不足而被排除[7][8] 实验软件与性能表现 - 软件核心采用OpenAI最新的ChatGPT-5.2模型,因其在响应速度和通用知识能力方面表现较强[10] - AI眼镜通过“眼镜—手机—云端”链路工作:摄像头拍摄题目,图像传输至云端大模型推理,答案返回并显示在眼镜屏幕上供抄录[12] - 具体得分表现:多项选择题(29/29满分)、单页短答题(18/18满分)、跨页短答题(45.5/53分),总分92.5/100[12][13] - 即便在复杂的跨页短答题中,AI也展现出极强的推理连贯性,中间步骤完整[13] 技术瓶颈与产品短板 - 功耗是主要瓶颈:在持续开启Wi-Fi进行高分辨率图像传输的高压场景下,30分钟内眼镜电量从100%降至58%[15] - 摄像头清晰度直接影响AI表现:题目图像若出现模糊、反光或角度偏差,会导致AI基于不完整信息推理,答题稳定性明显下滑[15] 对教育评估体系的冲击与反思 - 实验表明,当教学评估只关注交出“标准答案”时,这恰好落在AI最擅长且最稳定的能力区间内,使得传统以知识点掌握和标准解题路径为核心的评估方式显得吃力[3][15][17] - 英国雷丁大学的研究发现,AI生成的答卷混入考试后,有94%成功未被察觉,且AI平均成绩明显高于真实学生[22] - 传统笔试难以评估提出好问题、在信息不完整时做判断、在多种方案间权衡取舍等关键能力,而这些正是AI难以替代、最能区分学生真实素养的地方[25][26] 教育评估体系的演进方向 - 评估重心需要从“交答案”转向“交思路”,关注推理路径、探究过程和创造性解题能力[26][30] - 一些新的评估尝试正在出现,例如纽约大学商学院教授推出的AI支撑口试,学生需解释决策依据,由多个AI模型对转录进行独立评分与交叉审查,以判断真实理解程度[29] - 国外部分高校已开始引入口试、展示型作业等形式,旨在让学生的思考过程变得可见[30] - 更现实的挑战是如何引导学生将AI用于信息整理和方案推演,而将人的精力集中于无法被外包的判断、理解和选择环节[30]