港科大教授实测 AI 眼镜考试“作弊”：30 分钟交卷，碾压 95% 的学生

实验概述与核心发现 - 香港科技大学教授团队进行了一项实验，让一副搭载ChatGPT-5.2模型的AI眼镜参加《计算机网络原理》本科期末考试，在30分钟内完成试卷并获得92.5分，成绩超过95%的人类考生，排名进入前五[1] - 实验结果表明，在规则清晰、目标单一的标准化考试中，AI能够稳定地完成读题、理解、推理、作答的全流程，这使传统以笔试为核心、衡量知识点掌握程度的教学评估体系面临根本性质疑[1][13][16] 实验硬件选择与评估 - 研究团队系统评估了12款主流商业智能眼镜，包括Meta、小米、乐奇Rokid等品牌，筛选标准是同时具备内置摄像头和集成显示屏[3][4] - 首轮筛选后，符合硬件条件的候选产品主要为Meta Ray-Ban、Frame和乐奇Rokid[4] - 由于Meta未开放对显示内容的直接控制接口，而乐奇Rokid的SDK更丰富、生态更完善、开发自由度更高，同时考虑到Frame相机画质的限制，团队最终选择乐奇Rokid AI眼镜作为实验硬件[4][5] 实验软件与流程 - 实验选用的大模型是OpenAI最新的ChatGPT-5.2，因其响应速度和通用知识能力较强[7] - 考试流程为：学生低头看卷，眼镜摄像头拍摄题目，图像经“眼镜—手机—云端”链路传输至远程大模型推理，生成的答案返回并显示在眼镜屏幕上供学生抄录[9] AI考试表现与能力分析 - 搭载GPT-5.2的乐奇Rokid AI眼镜在期末考试中总分为92.5分（满分100分）[9] - 在多项选择题（满分29分）和单页短答题（满分18分）中均获得满分，在难度更高的跨页短答题（满分53分）中获得45.5分[9] - 即便在处理跨页、依赖上下文逻辑的复杂问题时，AI也展现出极强的推理连贯性，中间步骤完整[9] - 类似案例显示，在英国雷丁大学的研究中，AI生成的答卷混入考试后有高达94%未被发现，且平均成绩明显高于真实学生[20] 现有AI眼镜的技术瓶颈 - 功耗是主要问题：在持续进行高分辨率图像传输的30分钟考试中，眼镜电量从100%迅速降至58%，全天候长时间使用的功耗控制和连接稳定性是工程瓶颈[12] - 摄像头清晰度直接影响AI表现：题目图像若出现模糊、反光或角度偏差，会导致AI基于不完整信息推理，答题稳定性下降[12] 对教育评估体系的冲击与反思 - 传统教学评估高度依赖最终的标准答案，而这恰好落在AI最擅长且稳定的能力区间内[13] - 以知识点掌握和标准解题路径为核心的评估方式，在AI时代显得吃力，因为它难以评估提出好问题、在信息不完整时做判断、在多种方案间权衡取舍、理解现实情境和他人立场等关键能力[14][23][24] - 人类智能是多维的（如语言、逻辑数学、空间、人际、创造力等），而传统笔试只集中评估了其中非常狭窄的一段，这解释了为何一些标准化测试不突出的学生可能在真实世界中展现出更强的综合能力[25][27] 教育评估体系的可能演进方向 - 评估重心需要从“交答案”转向“交思路”，关注推理路径、探究过程、跨学科整合与创造性解题能力[25] - 已有尝试引入新的评估形式，例如纽约大学商学院教授推出由AI支撑的口试，学生需当场解释决策依据和思路，AI模型（如Claude、Gemini、ChatGPT）会对口试转录进行独立评分和交叉审查，以判断真实理解程度[27] - 国外部分高校开始引入口试、展示型作业等形式，旨在让学生的思考过程变得可见[29]