Model hallucination - 财报，业绩电话会，研报，新闻

Model hallucination

搜索文档

Founder Park· 2025-05-29 22:53

DeepSeek-R1-0528 模型升级 - 最新版本 DeepSeek-R1-0528 参数量高达 6850 亿，思维深度和推理能力显著提升 [1] - 模型在数学、编程与通用逻辑等多个基准测评中表现亮眼，整体表现接近 OpenAI o3 与 Gemini-2.5-Pro [1][6] - 在 AIME 2024 数学竞赛 pass@1 中得分 91.4，接近 OpenAI o3 的 91.6 和 Gemini-2.5-Pro 的 90.8 [2][7] 基准测试表现 - AIME 2025 数学竞赛 pass@1 得分 87.5，较旧版提升 17.5 个百分点（旧版 70.0）[8] - GPQA Diamond 科学测试 pass@1 得分 81.0，与 Gemini-2.5-Pro 的 83.0 接近 [2][7] - LiveCodeBench 代码生成 pass@1 得分 73.3，优于 Gemini-2.5-Pro 的 71.8 [2][7] - Humanity's Last Exam 推理与百科知识 pass@1 得分 17.7，优于 Qwen3-235B 的 11.75 [2][7] 模型优化与能力提升 - 幻觉率降低 45～50%，在改写润色、总结摘要、阅读理解等场景表现更可靠 [3][13] - 在 AIME 2025 测试中，新版模型每题使用 23K tokens（旧版 12K），思维深度显著增强 [8] - 创意写作能力优化，可输出更长篇幅、结构更完整的议论文、小说、散文 [13] - 支持工具调用，Tau-Bench 测评成绩为 airline 53.5% / retail 63.9%，与 OpenAI o1-high 相当 [12] 模型开源与 API 更新 - 开源 DeepSeek-R1-0528 模型权重，提供 Model Scope 和 Huggingface 下载链接 [16][17] - API 同步更新，支持 Function Calling 和 JsonOutput，调用方式不变 [17] - 蒸馏 DeepSeek-R1-0528 的思维链训练出 8B 模型，AIME 2024 测试表现超越 Qwen3-8B（+10.0%）[8][10] 应用与生态 - 模型已在网页端、APP 和小程序上线，用户可通过「深度思考」功能体验 [4] - 在前端代码生成、角色扮演等领域能力均有更新和提升 [15]

Artificial Intelligence

Model hallucination

Artificial Intelligence

DeepSeek-R1-0528

DeepSeek-R1-0528-Qwen3-8B

Artificial Intelligence

Model hallucination

Artificial Intelligence

DeepSeek-R1-0528

DeepSeek-R1-0528-Qwen3-8B