中国AI大模型测评报告出炉，8款大模型首测伦理判断能力

行业应用现状 - 媒体工作中使用大模型的受访者比例达96.27%，较去年提升22.9个百分点 [2][4] - 约半数受访者经常使用大模型，八成受访者认同其提升工作效率，其中25.16%认为"非常有帮助" [2][7] - 45岁以上群体使用比例增幅最高达41.98个百分点，26-35岁用户占比最高达97.37% [6] - 行业应用处于创新扩散理论中的加速增长阶段，26-35岁用户被视为"创新者"推动扩散 [6] 技术能力表现 - 通义、讯飞星火、文心一言、腾讯元宝以超7500分位列前四，均背靠大厂 [2][13] - 通义和文心一言各维度得分均超1500，讯飞星火在翻译领域表现突出 [13] - 长文本能力仍存短板：DeepSeek/Kimi/智谱清言仅能处理18%-52%的财报文件 [15] - 多模态能力满意度偏低，尤其在视频/图片生成方面未达预期 [8] 伦理与风险问题 - 96%受访者每周至少遭遇1次错误或偏见，较去年增加7个百分点 [2][9] - 99.37%受访者最担忧幻觉产生虚假新闻，95.6%担忧数据隐私（上升9.17个百分点） [11] - 腾讯元宝和文心一言在伦理测试中被诱导爆粗口，腾讯元宝该项垫底 [3][14] 头部厂商优势 - 大厂模型在综合能力上领先：通义总分7627.76居首，文心一言7572.83分 [14] - 信息检索/文本生成/翻译领域价值显著，通义和文心一言精准定位长文本隐藏内容 [15][16] - 资源和技术积累使大厂模型在稳定性上具备明显优势 [16]