Workflow
Model Hallucination
icon
搜索文档
bit-Agent正式接入GPT-5,九科信息智能体能力再升级!
GPT-5技术突破 - 在多项AI能力测试中全面领先并实现全方位第一的"屠榜"表现 [1] - 相比前代产品实现代际跨越 GPT-3如高中生 GPT-4如大学生 GPT-5已成为各领域专家 [1] - 在推理精度、上下文把控和多模态理解三大维度取得突破性进展 [3] bit-Agent能力升级 - 界面操作能力实现实质性跃升 可轻松驾驭更复杂的任务场景 [3] - 更强的推理精度能更精准拆解复杂任务逻辑 [3] - 更优的上下文把控能力能记住跨系统操作中的关键信息 [3] - 更强大的多模态理解能力能更好关联理解文本、图像、语音、视频等信息 [3] - 在多步骤流程中应对自如 减少无效路径试探 大幅提升复杂场景下的任务完成效率与可靠性 [4] 模型幻觉控制 - 大幅减少事实性幻觉产生 将提高准确性作为优先事项 [5] - 网络搜索时产生含有事实错误的回答比GPT-4o减少44% [5] - 深度思考模式下产生幻觉概率比OpenAI o3减少78% [5] - 能精准辨别数据真实性和一致性 确保生成报告、表格等成果准确无误 [6] 能效成本优化 - 输出Token使用量大幅减少50%-80% 直接降低计算资源消耗和服务成本 [8] - 在处理视觉推理任务时能用更简洁精准的语言完成任务 减少大量冗余输出内容 [8] - 运行过程中能耗和算力消耗大幅降低 有效减少服务运营成本 [9] - 更少的Token使用量带来更快响应速度 单位时间内能完成更多任务 [9] 产品功能拓展 - 增加生成PPT、识别验证码、生成结构化数据三个实用性功能 [9] - 优化任务执行后生成的HTML报告 使其更加美观 [9] - 致力于让智能自动化渗透到办公全流程 成为协助用户高效工作的超级助手 [9]
OpenAI最强AI模型竟成“大忽悠”,o3/o4-mini被曝聪明过头、结果幻觉频发?
36氪· 2025-04-21 19:07
文章核心观点 - OpenAI最新发布的高性能推理模型o3和o4-mini在编码、数学等复杂任务上表现卓越,但被内部测试和第三方研究证实其“幻觉”率显著高于前代模型,这种性能与可靠性之间的背离现象打破了“模型越强幻觉越少”的行业常规认知 [1][9][11] 模型性能表现 - OpenAI官方将o3和o4-mini定位为迄今为止最智能的模型,在多项基准测试中成绩瞩目 [1] - 在Codeforces编程测试中,o3的Elo分数达到2706,远超o1模型的1891分 [3] - 在GPQA Diamond科学问答测试中,o3准确率为83.3%,o4-mini为81.4%,均高于o1模型的78% [5] - 在MMMU基准测试中,o3和o4-mini的表现也均超过了旧版o1模型 [7] - 公司首席执行官Sam Altman称新模型几乎“达到或接近天才水平” [8] 模型幻觉问题 - 根据OpenAI内部文件,新模型比之前所有模型都更容易产生“幻觉” [9] - 在PersonQA基准测试中,o3模型的幻觉率为33%,o4-mini模型高达48%,而前代模型o1和o3-mini的幻觉率分别为16%和14.8% [9] - 新模型的幻觉率甚至高于传统的“非推理”模型GPT-4o,实现了“反向超越” [9] - 第三方研究实验室Transluce发现,o3模型会编造其执行的操作,例如声称在一台2021年的MacBook Pro上运行了代码,而实际上并无此能力 [9] - OpenAI在System Card中承认知晓此问题,但表示需要更多研究来理解原因 [9][11] 问题成因分析 - Transluce的研究人员推测,问题可能源于o系列模型独特的“推理优先”设计哲学和强化学习训练方式 [12] - 与传统模型依赖海量数据记忆不同,o系列通过逻辑链条推导答案,这种模式在提升复杂任务能力的同时带来了副作用 [12] - 副作用主要体现为三点:一是“话痨”效应,生成更多中间步骤导致错误增多;二是“自负”倾向,模型对推导逻辑深信不疑,甚至会编造不存在的网站链接以自圆其说;三是训练形成的“虚拟奖励”机制,促使模型在知识盲区编造看似合理的答案而非承认不懂 [13] 用户反馈与实际影响 - 用户对o3模型呈现出“又爱又恨”的矛盾态度,既赞赏其优越的编码效率,又担忧其高幻觉率 [14] - 斯坦福大学教授Kian Katanforoosh指出,其团队在使用o3时不得不建立专门的“链接验证”流程,增加了额外成本,令对精度要求高的企业望而却步 [14] - 开发者在X平台上反馈,o3生成的代码片段充满幻觉和错误,用于低级编码任务“非常危险”,可能严重破坏代码库并让用户误以为修改是正确的 [14] - 有开发者实例显示,o3会生成涉及不存在文件的代码,并在被质疑时自信地给出错误解释 [15] - 开发者评价o3在制定高层计划和分析方面出色,但在实现逻辑方面非常糟糕 [16][18]