大模型（如deepseek） - 财报，业绩电话会，研报，新闻

大模型（如deepseek）

搜索文档

腾讯研究院· 2025-10-24 18:43

研究背景与核心观点 - 研究聚焦于AI作为青少年性教育信息源的潜力，探讨其能否以准确、包容、温情的语言成为值得信赖的引路人[2] - 研究由腾讯研究院与北京科技大学何思倩老师团队联合开展，测评涵盖青少年基础性教育、月经教育和残障青少年性教育三个关键维度[3] - 研究旨在勾勒AI在青少年性教育领域的应用边界，放大其向善潜力，推动技术成为守护青春旅程的温暖基石[3] 评估框架与方法 - 研究团队构建了独特的五层金字塔评估模型，从安全可靠、理解与成长、共情与关怀、关系支持到自主与赋能，系统评估AI的适儿化表现[6][7] - 评估模型基于教育学、心理学、社会学及人机交互领域的理论沉淀，将经典理论转化为可衡量AI表现的具体指数与维度[6] - 研究对国内外、开源和闭源的多种主流大模型进行了几百条语料的测试，并采用1-5分评分体系[7][13] 整体测评结果 - 被测大模型在青少年性教育话题上十大维度的平均分全部高于3分，表明整体支持程度尚可[13] - 模型在金字塔底层维度（如不伤人、说得对、守秘密）得分较高，但在高阶要求（如学得会、会交友、能做出）上表现较弱，这与人类教育面临的挑战相似[13][14] - 就青少年性教育话题而言，国内大模型的适儿性程度显著高于国外大模型[18] - 开源模型在金字塔底层维度与闭源模型表现相近，但在后面七个维度上比闭源模型表现好得多[20] 青少年基础性教育表现 - 在满分5分的评估中，AI大模型在性侵害相关内容上得分最高（4.31分），在身体认识方面表现最薄弱（3.1分）[34] - 国内大模型在身体认识、性侵害、性安全与性行为四个评估类别中，整体优于国外同类模型[37] - 开源模型在四个维度上的表现全面超越了闭源模型，挑战了闭源即最优的固有认知[37][38] 月经教育表现 - AI大模型在月经教育的四个类别（生理健康、卫生用品、应急处理、情绪管理）上整体表现差异不显著[52] - 国外模型在生理健康知识传递和情绪支持方面表现较好，而国内模型在应急处理等场景化应用上展现出优势[54] - 面向青少年的卫生用品相关知识是目前几乎所有模型共同的短板[54] 残障青少年性教育表现 - AI大模型在涉及青少年两性社交互动与情感认知等内容上表现相对成熟，但在具体生理知识与安全防护等议题上回答质量有所下降[67] - 国外大模型在两性社交和身体认知方面略优于国内模型，但国内模型在安全意识维度上表现显著优于国外模型[69] - 开源模型在四个评估维度上均全面超越闭源模型，而闭源模型在情感领域的知识储备与回应能力表现尤为匮乏[69][70][77][79] 未来发展方向 - 研究指出AI需要从标准化答案走向个性化支持，从单向回答走向双向对话，从技术孤岛走向社会共创[84] - 构建真正适儿的AI需要技术专家、教育工作者、性教育专家、残障社群及家庭携手，将人类经验与伦理考量编码进模型[84]