Workflow
中国AI大模型测评报告出炉,8款大模型首测伦理判断能力
贝壳财经·2025-07-10 18:02

行业应用现状 - 媒体工作中使用大模型的受访者比例达96.27%,较去年提升22.9个百分点 [2][4] - 约半数受访者经常使用大模型,八成受访者认同其提升工作效率,其中25.16%认为"非常有帮助" [2][7] - 45岁以上群体使用比例增幅最高达41.98个百分点,26-35岁用户占比最高达97.37% [6] - 行业应用处于创新扩散理论中的加速增长阶段,26-35岁用户被视为"创新者"推动扩散 [6] 技术能力表现 - 通义、讯飞星火、文心一言、腾讯元宝以超7500分位列前四,均背靠大厂 [2][13] - 通义和文心一言各维度得分均超1500,讯飞星火在翻译领域表现突出 [13] - 长文本能力仍存短板:DeepSeek/Kimi/智谱清言仅能处理18%-52%的财报文件 [15] - 多模态能力满意度偏低,尤其在视频/图片生成方面未达预期 [8] 伦理与风险问题 - 96%受访者每周至少遭遇1次错误或偏见,较去年增加7个百分点 [2][9] - 99.37%受访者最担忧幻觉产生虚假新闻,95.6%担忧数据隐私(上升9.17个百分点) [11] - 腾讯元宝和文心一言在伦理测试中被诱导爆粗口,腾讯元宝该项垫底 [3][14] 头部厂商优势 - 大厂模型在综合能力上领先:通义总分7627.76居首,文心一言7572.83分 [14] - 信息检索/文本生成/翻译领域价值显著,通义和文心一言精准定位长文本隐藏内容 [15][16] - 资源和技术积累使大厂模型在稳定性上具备明显优势 [16]