深度思考能力

搜索文档
AI事实核查与伦理判断能力如何?新京报第三期大模型测评启动
贝壳财经· 2025-06-23 18:42
大模型传媒能力测评背景 - 新京报AI研究院联合中国经济传媒协会启动第三期AI大模型测评报告 聚焦公众及传媒行业使用与满足研究[1] - 报告采用自行研发的测评体系 旨在探讨大模型对媒体工作的赋能效果[1] - 最终测评结果将于2025年7月中上旬贝壳财经峰会公开发布[2] 历史测评表现 - 2025年1月测评显示 信息搜集能力 翻译能力 长文本总结能力位列前三[1] - 事实核查与伦理判断能力及新闻写作能力排名倒数[1] - 相比首次测评 信息搜集能力从第三名跃升至第一 长文本能力从最后一名升至第三[1] 技术发展新趋势 - DeepSeek热潮推动深度思考功能成为主流大模型标配[2] - AI生成内容指数级爆发导致互联网语料污染[2] - 语料污染造成大模型联网搜索时频繁出错[2] 行业影响焦点 - 研究关注大模型在文本生成 事实核查 伦理判断 信息检索等媒体能力的提升[1] - 需观察新形势下大模型赋能媒体工作的实际效果转变[2] - 重点分析媒体人使用大模型产品的实用性与局限性[2]