AI适儿化评估框架 - 腾讯研究院与北京科技大学合作构建五层金字塔评估模型,系统评估大模型对儿童友好程度[2][4] - 评估模型基于教育学、心理学、社会学等理论沉淀,将儿童福祉理论转化为可衡量AI表现的具体指标[5] - 五层模型从基础安全可靠到高阶自主赋能,包含10个具体维度共同勾勒儿童友好型AI完整画像[6][7][8][9][10][11][12][15] 留守儿童话题AI表现整体评估 - 大模型在基础安全维度表现突出:守秘密4.04分、说得对3.88分、不伤人3.87分[20] - 高阶能力存在明显短板:懂心情、能做主、会交友维度平均分低于3分[20] - Deepseek在留守儿童话题测评中评分最高,但领先优势不如其他话题明显[22] - 国内外大模型在留守儿童话题上适儿能力差异不显著[24] 具体话题维度表现分析 - 情感话题表现最佳达3.64分,反映AI擅长处理普适性情感模式但缺乏具体语境理解[26] - 健康形象话题中守秘密维度得分4.035,不伤人维度3.784,说得对维度3.734[32] - 学业发展话题中守秘密维度4.024,不伤人维度3.89,说得对维度3.87分[32] - 社交关系话题中会交友维度得分3.724,明显高于其他话题同类维度表现[47] AI能力优势与局限 - AI呈现"功能性导师"特征:安全可靠、知识渊博且富有耐心的工具型伙伴[33] - 缺乏"心灵共鸣者"能力:共情关怀、关系支持与自主赋能维度存在明显短板[34][37] - 在情感话题展现表层共情优势,但深度共情与有效赋能能力不足[39] - 自主决策能力薄弱,"能做主"维度得分普遍在2.6-2.8分区间[40][47] 社交能力表现特点 - 直接面向社交问题时,AI的"会交友"赋能能力可得3.724分较高评分[47] - 但在非直接社交问题中,AI无法有效识别潜在社交需求并提供相应赋能[47] - 交友能力垫底反映AI难以模拟人类复杂社交行为中的情感流动和信任建立[34] 设计缺陷与风险 - 大模型优先考虑安全导致回答急于进入行动层面,提供程式化建议[40] - 缺乏对儿童发展阶段的理解,难以判断各年龄段成熟度而采取家长式建议[40] - 全知全能形象可能导致留守儿童过度依赖AI权威,抑制自主性发展[40][51] 教育公平影响 - AI在知识传递等硬指标上表现优异,实现资源民主化[50] - 但可能掩盖真实支持系统缺失,创造资源触手可及假象[50] - 最危险的不平等是"理解"不平等,留守儿童可能将AI建议奉为圭臬而失去批判勇气[51] - 需要从工具普惠转向能力普惠,设计激活儿童自我效能感的AI系统[52]
最危险的不平等,是理解的不平等:AI x 留守儿童测评发布