Workflow
AI适儿化
icon
搜索文档
最危险的不平等,是理解的不平等:AI x 留守儿童测评发布
36氪· 2025-11-05 20:45
AI适儿化评估框架 - 腾讯研究院与北京科技大学合作构建五层金字塔评估模型,系统评估大模型对儿童友好程度[2][4] - 评估模型基于教育学、心理学、社会学等理论沉淀,将儿童福祉理论转化为可衡量AI表现的具体指标[5] - 五层模型从基础安全可靠到高阶自主赋能,包含10个具体维度共同勾勒儿童友好型AI完整画像[6][7][8][9][10][11][12][15] 留守儿童话题AI表现整体评估 - 大模型在基础安全维度表现突出:守秘密4.04分、说得对3.88分、不伤人3.87分[20] - 高阶能力存在明显短板:懂心情、能做主、会交友维度平均分低于3分[20] - Deepseek在留守儿童话题测评中评分最高,但领先优势不如其他话题明显[22] - 国内外大模型在留守儿童话题上适儿能力差异不显著[24] 具体话题维度表现分析 - 情感话题表现最佳达3.64分,反映AI擅长处理普适性情感模式但缺乏具体语境理解[26] - 健康形象话题中守秘密维度得分4.035,不伤人维度3.784,说得对维度3.734[32] - 学业发展话题中守秘密维度4.024,不伤人维度3.89,说得对维度3.87分[32] - 社交关系话题中会交友维度得分3.724,明显高于其他话题同类维度表现[47] AI能力优势与局限 - AI呈现"功能性导师"特征:安全可靠、知识渊博且富有耐心的工具型伙伴[33] - 缺乏"心灵共鸣者"能力:共情关怀、关系支持与自主赋能维度存在明显短板[34][37] - 在情感话题展现表层共情优势,但深度共情与有效赋能能力不足[39] - 自主决策能力薄弱,"能做主"维度得分普遍在2.6-2.8分区间[40][47] 社交能力表现特点 - 直接面向社交问题时,AI的"会交友"赋能能力可得3.724分较高评分[47] - 但在非直接社交问题中,AI无法有效识别潜在社交需求并提供相应赋能[47] - 交友能力垫底反映AI难以模拟人类复杂社交行为中的情感流动和信任建立[34] 设计缺陷与风险 - 大模型优先考虑安全导致回答急于进入行动层面,提供程式化建议[40] - 缺乏对儿童发展阶段的理解,难以判断各年龄段成熟度而采取家长式建议[40] - 全知全能形象可能导致留守儿童过度依赖AI权威,抑制自主性发展[40][51] 教育公平影响 - AI在知识传递等硬指标上表现优异,实现资源民主化[50] - 但可能掩盖真实支持系统缺失,创造资源触手可及假象[50] - 最危险的不平等是"理解"不平等,留守儿童可能将AI建议奉为圭臬而失去批判勇气[51] - 需要从工具普惠转向能力普惠,设计激活儿童自我效能感的AI系统[52]
最危险的不平等,是理解的不平等|AI x 留守儿童测评发布
腾讯研究院· 2025-11-05 19:14
文章核心观点 - AI在服务留守儿童时展现出作为安全可靠工具型伙伴的潜力,但在高阶情感支持和自主赋能方面存在显著不足,最危险的不平等并非资源获取而是“理解”的不平等,技术应用需从工具普惠转向能力普惠,将决策权交还给孩子[59][60][62][63] AI适儿性评估框架 - 构建五层金字塔评估模型系统衡量AI对儿童友好程度,涵盖安全可靠、理解与成长、共情与关怀、关系支持、自主与赋能五个层面共十个维度[9][10][11][12][13][14][15][16][18] - 评估基于教育学、心理学等经典理论,并将理论转化为可衡量AI表现的具体指数,首次系统化翻译儿童福祉理论为评估维度[10] - 针对留守儿童问题细化六大话题:健康/形象、学业/个人发展、家庭关系、社交、情感、兴趣爱好,基于五层十维模型开展专属测评[19] 大模型整体表现 - 被测大模型在基础安全维度表现突出,守秘密得分4.04分、说得对3.88分、不伤人3.87分,但在高阶维度懂心情、能做主、会交友平均分低于3分[24][57] - Deepseek在留守儿童相关测评中评分最高,但领先优势不如在青少年性教育话题明显,国内外模型在该话题适儿性差异不显著[26][29][57] - 大模型在情感话题表现最佳得3.64分,反映AI能处理普适情感模式成为情绪出口,但缺乏对真实世界复杂性的嵌入理解[28][57] 具体问题场景分析 - 在健康发育与学习发展类问题中,AI呈现高度一致优劣态势,安全可靠等低阶维度得分高,勾勒出功能性导师形象,但懂心情等高阶维度断崖式下跌[38][39][40] - 应对情感问题时AI擅长表层共情,底层维度表现优于其他话题,但进入高阶共情关怀与自主赋能层同样力不从心,能做主维度是最大短板[45][48][49] - 在家庭关系与社交类问题中,AI对直接指向社交的问题能提供较高水准交友指导,但对不直接指向社交的问题无法有效赋能关系构建能力[55][56][57] 核心风险与未来方向 - AI创造了资源触手可及幻觉却掩盖真实支持系统缺失,最危险不平等是理解不平等而非知识鸿沟,可能导致制造两种数字公民:会提问与只接受[59][60][62] - 大模型设计优先考虑安全导致急于进入行动层面提供家长式建议,抑制孩子自主性,对缺乏权威引导的留守儿童风险被放大[49][61][62] - 未来方向应从工具普惠转向能力普惠,构建人机共育生态系统,设计激活而非替代的AI,让每个孩子在技术陪伴下成长为更好自己[57][62][63]
当AI遇见青春期:AI的青少年“性教育”大考,它及格了吗?
腾讯研究院· 2025-10-24 18:43
研究背景与核心观点 - 研究聚焦于AI作为青少年性教育信息源的潜力,探讨其能否以准确、包容、温情的语言成为值得信赖的引路人[2] - 研究由腾讯研究院与北京科技大学何思倩老师团队联合开展,测评涵盖青少年基础性教育、月经教育和残障青少年性教育三个关键维度[3] - 研究旨在勾勒AI在青少年性教育领域的应用边界,放大其向善潜力,推动技术成为守护青春旅程的温暖基石[3] 评估框架与方法 - 研究团队构建了独特的五层金字塔评估模型,从安全可靠、理解与成长、共情与关怀、关系支持到自主与赋能,系统评估AI的适儿化表现[6][7] - 评估模型基于教育学、心理学、社会学及人机交互领域的理论沉淀,将经典理论转化为可衡量AI表现的具体指数与维度[6] - 研究对国内外、开源和闭源的多种主流大模型进行了几百条语料的测试,并采用1-5分评分体系[7][13] 整体测评结果 - 被测大模型在青少年性教育话题上十大维度的平均分全部高于3分,表明整体支持程度尚可[13] - 模型在金字塔底层维度(如不伤人、说得对、守秘密)得分较高,但在高阶要求(如学得会、会交友、能做出)上表现较弱,这与人类教育面临的挑战相似[13][14] - 就青少年性教育话题而言,国内大模型的适儿性程度显著高于国外大模型[18] - 开源模型在金字塔底层维度与闭源模型表现相近,但在后面七个维度上比闭源模型表现好得多[20] 青少年基础性教育表现 - 在满分5分的评估中,AI大模型在性侵害相关内容上得分最高(4.31分),在身体认识方面表现最薄弱(3.1分)[34] - 国内大模型在身体认识、性侵害、性安全与性行为四个评估类别中,整体优于国外同类模型[37] - 开源模型在四个维度上的表现全面超越了闭源模型,挑战了闭源即最优的固有认知[37][38] 月经教育表现 - AI大模型在月经教育的四个类别(生理健康、卫生用品、应急处理、情绪管理)上整体表现差异不显著[52] - 国外模型在生理健康知识传递和情绪支持方面表现较好,而国内模型在应急处理等场景化应用上展现出优势[54] - 面向青少年的卫生用品相关知识是目前几乎所有模型共同的短板[54] 残障青少年性教育表现 - AI大模型在涉及青少年两性社交互动与情感认知等内容上表现相对成熟,但在具体生理知识与安全防护等议题上回答质量有所下降[67] - 国外大模型在两性社交和身体认知方面略优于国内模型,但国内模型在安全意识维度上表现显著优于国外模型[69] - 开源模型在四个评估维度上均全面超越闭源模型,而闭源模型在情感领域的知识储备与回应能力表现尤为匮乏[69][70][77][79] 未来发展方向 - 研究指出AI需要从标准化答案走向个性化支持,从单向回答走向双向对话,从技术孤岛走向社会共创[84] - 构建真正适儿的AI需要技术专家、教育工作者、性教育专家、残障社群及家庭携手,将人类经验与伦理考量编码进模型[84]