港科大教授实测AI眼镜“作弊”：30分钟碾压95%的学生，把传统教学评估体系整破防了

实验概述与核心结果 - 香港科技大学教授团队进行了一项实验，让一副搭载ChatGPT-5.2模型的AI眼镜（Rokid Glasses）参加《计算机网络原理》本科期末考试，并在复刻真实考试条件下完成答卷[1][2][7][8] - AI眼镜在30分钟内交卷，取得92.5分，在百余人排名中位列前五，轻松超过了95%的人类考生[4] - 学生最高分为97.5分，平均分为72分，AI成绩显著高于平均线[4] 实验设计与技术选型 - 硬件方面，研究团队系统评估了12款主流商业智能眼镜，最终选择乐奇Rokid眼镜，因其同时具备内置摄像头和集成显示屏，且SDK更丰富、生态更完善，开发自由度更高[9][11][12] - 大模型方面，团队对比多款主流模型后，选择了OpenAI最新的ChatGPT-5.2，因其响应速度和通用知识能力较强[12] - 考试流程顺畅：学生低头看卷，眼镜摄像头拍摄题目，图像经“眼镜—手机—云端”链路传输至远程大模型推理，答案返回并显示在眼镜屏幕上供学生抄录[13] AI表现的具体分析 - 在多项选择题和单页短答题中，AI眼镜均获得满分（分别为29分和18分）[14] - 在难度更高的跨页短答题中，AI获得45.5分（满分53分），展现了极强的推理连贯性，即便复杂计算偶有偏差，中间步骤也非常完整[14][15] - 实验表明，只要题目规则清晰、评价目标单一，AI就能稳定跑完读题、理解、推理、作答的完整流程[29][30] 暴露的技术瓶颈与挑战 - 功耗问题：在持续高分辨率图像传输和Wi-Fi连接下，30分钟内眼镜电量从100%迅速降至58%，全天候长时间使用的功耗控制和连接稳定性是工程瓶颈[19] - 摄像头清晰度限制：摄像头清晰度直接决定AI“视力”，题目模糊、反光或拍摄角度偏差会导致AI在不完整信息上推理，答题稳定性明显下滑[20] 对传统教学评估体系的冲击与反思 - 实验凸显了一个根本问题：当教学评估主要关注能否交出“标准答案”时，这恰好落在AI最擅长且最稳定的能力区间内[22] - 以知识点掌握和标准解题路径为核心的传统评估方式，在AI时代显得吃力，其评估的有效性受到质疑[6][22][33] - 英国雷丁大学的一项研究发现，AI生成的答卷混入考试后，有高达94%成功蒙混过关，且AI平均成绩明显高于真实学生[31] 教育评估的未来方向探讨 - 传统笔试难以评估提出好问题、在信息不完整时做判断、在多种方案间权衡取舍、理解现实情境与他人立场等关键能力，而这些正是AI难以替代、最能区分学生真实素养的地方[34][35][36][37][39] - 评估重心需要从“交答案”转向“交思路”，关注学习过程、思考路径和决策质量[38][39] - 一些新的评估尝试已经出现，例如纽约大学商学院推出的由AI支撑的口试评估，要求学生解释决策依据和思路，AI充当考官进行追问并参与评分，旨在评估理解本身[44][45] - 国外部分高校开始引入口试、展示型作业等形式，让学生的思考过程变得可见[45] - 更现实的挑战是如何引导学生将AI用于信息整理、方案推演和假设验证，而将人的精力集中于无法被“外包”的判断、理解和选择环节[49]