教学评估 - 财报，业绩电话会，研报，新闻

教学评估

搜索文档

港科大教授实测AI眼镜“作弊”：30分钟碾压95%的学生，把传统教学评估体系整破防了

量子位· 2026-01-06 15:06

实验概述与核心结果 - 香港科技大学教授团队主导实验，让搭载ChatGPT-5.2模型的AI眼镜参加《计算机网络原理》本科期末考试，在复刻真实考试条件下完成整套试卷[1][7] - AI眼镜通过“眼镜—手机—云端”链路工作：摄像头拍摄题目，传输至远程大模型推理，答案返回并显示在眼镜屏幕上供学生抄录，过程丝滑[12] - 该AI眼镜在30分钟内交卷，取得92.5分（满分100分），在百余人排名中跻身前五，轻松碾压超过95%的人类考生[4] - 具体得分情况：多项选择题（29/29满分），单页短答题（18/18满分），跨页短答题（45.5/53分）[14] 硬件与模型选择 - 项目团队系统评估了12款主流商业智能眼镜，最终候选为同时具备内置摄像头和集成显示屏的Meta Ray-Ban、Frame以及乐奇Rokid[8] - 因Meta未开放对显示内容的直接控制接口，而Frame相机画质有限，团队最终选择乐奇Rokid AI眼镜，因其SDK更丰富、生态更完善、开发自由度更高[9][10][11] - 在大模型选择上，团队对比多款主流模型后，锁定OpenAI最新的ChatGPT-5.2，因其响应速度和通用知识能力较强[11] 技术性能与当前局限 - AI眼镜在跨页短答题中展现出极强的推理连贯性，即便计算复杂部分偶有偏差，中间步骤也非常完整[14] - 主要暴露的短板是功耗问题：在开启Wi-Fi、持续进行高分辨率图像传输的高压连续场景下，30分钟内眼镜电量从100%迅速降至58%[18] - 摄像头清晰度直接决定AI的“视力”，题目若出现模糊、反光或拍摄角度偏差，会导致AI基于不完整信息推理，答题稳定性明显下滑[19] 对传统教学评估体系的冲击 - 实验表明，当教学评估主要关注能否交出“标准答案”时，这恰好落在AI最擅长且最稳定的能力区间内[21] - 以知识点掌握和标准解题路径为核心的传统评估方式，在AI时代开始显得吃力[21] - 英国雷丁大学的一项研究发现，AI生成的答卷混入考试后，有高达94%成功蒙混过关，且AI平均成绩明显高于真实学生[30] - 这引发核心问题：当AI比人更擅长按标准作答时，以笔试为核心、衡量知识点掌握程度的评估体系到底在测量什么[32] 未来教育评估的可能方向 - 传统评估长期只集中捕捉了人类多维智能中非常狭窄的一段（如语言、逻辑数学），难以评估创造力、协作能力等[40][42] - 评估重心需要从“交答案”转向“交思路”，关注学习过程、思考路径和决策质量，这些是AI最难替代且最能区分学生真实素养的地方[37][38] - 一些新的评估尝试已经出现，例如纽约大学商学院教授推出的由AI支撑的口试评估，学生需当场解释决策依据和思路，AI充当考官并进行评分[43][44] - 更现实的挑战是如何让学生把AI用在信息整理、方案推演上，而将人的精力集中到判断、理解和选择等无法被“外包”的环节[48]

Rokid Glasses（GPT 5.2）

Rokid Glasses（GPT 5.2）

Meta Ray - Ban Gen2