Workflow
人工智能推理能力
icon
搜索文档
国泰海通|计算机:DeepSeek-V3.2系列发布:推理能力对标顶尖闭源,开源生态引领应用落地
核心观点 - DeepSeek-V3.2系列的发布标志着开源大模型进入性能与实用性并重的新阶段 其在核心推理能力上达到顶尖闭源模型水平 并创新性地将思考模式融入工具调用 为AI应用开发提供了更高效、更经济的解决方案 推动大模型开源与开发者生态繁荣 [1][2] 模型性能与能力突破 - DeepSeek-V3.2在公开推理基准测试中表现已对标GPT-5 并显著优于部分专注长上下文的开源模型 [2] - 长思考增强版V3.2-Speciale在多项国际顶级竞赛中达到人类顶尖水平 在国际数学奥林匹克(IMO)、国际大学生程序设计竞赛(ICPC)等顶级赛事中斩获金牌 其中ICPC成绩位列人类选手第二名 [2] - V3.2-Speciale版本融合了深度数学定理证明能力 首次在多项高难度推理任务上验证了开源模型达到人类顶尖智力水平的潜力 [2] - DeepSeek-V3.2是业界首个将链式思考能力系统化融入工具调用流程的开源模型 [3] - 通过独创的大规模Agent训练数据合成方法 模型在涵盖1800余个环境的85,000余条复杂指令上进行强化学习 使其在未经特殊训练的工具调用评测中达到开源模型最高水平 显著缩小了与闭源模型的差距 [3] 技术架构与创新 - 模型创新性地实现了思考模式与工具调用的深度融合 大幅提升了智能体在复杂场景中的泛化与执行能力 [3] - 该架构允许开发者在思考模式下进行多轮规划与工具调用 为构建能够处理复杂、多步骤现实任务的AI智能体提供了可靠的开源基础 [3] - 此次更新支持了思考模式下的工具调用 提供了长达128K的上下文窗口 [4] 开源生态与产业影响 - 深度求索已将官方网页、App及API服务全面升级至DeepSeek-V3.2 并为研究社区临时开放了Speciale版本的API [4] - 公司通过HuggingFace、ModelScope等平台完整开源了模型权重与技术细节 [4] - 这种“开放性能 + 开放生态”的组合策略 大幅降低了企业与开发者的应用门槛 有望引领开源模型从技术追赶向规模化、实用化产业部署的关键转折 [4] - 彻底的开放策略预计将吸引大量开发者基于其构建垂直应用 形成以DeepSeek为核心的开源应用生态 进一步巩固其在开源领域的引领地位 [4]
语音助手的「智商滑铁卢」:当GPT开口说话,准确率从74.8%跌到6.1%
机器之心· 2025-10-17 19:53
研究核心发现 - 杜克大学与Adobe发布的VERA研究首次系统性测量语音模态对AI推理能力的影响,发现语音系统在推理任务上普遍表现不佳[2][3] - 研究覆盖12个主流语音系统,使用2,931道专门设计的测试题进行评测[3] - 最显著对比来自OpenAI GPT家族:GPT-5文本版在数学竞赛题准确率达74.8%,而GPT-realtime语音版准确率仅6.1%,相差68.7个百分点[5][6] - 所有测试语音系统在推理任务上均表现较差,包括OpenAI的GPT-realtime、谷歌的Gemini-native-audio、亚马逊的Nova Sonic和阿里巴巴的Qwen音频模型等[5] 评测体系设计 - VERA评测体系从五个维度考察语音系统推理能力:数学推理、网络信息综合、研究生级科学问题、长对话记忆和事实检索[9][10][11][12][13][14] - 数学推理题目来自美国数学邀请赛,网络信息综合题目需要整合多个信息源,科学问题涉及量子力学等深度专业知识[10][11][12] - 研究团队对测试题进行系统性"语音原生化"改造,包括数字转换、符号口语化和添加自然对话开场[16][17] - 从约22,000道原始题目中精选出2,931道高质量测试题,确保公平对比[18] 性能表现数据 - 语音模型平均准确率约11.3%,文本模型平均准确率约54%,差距达42.7个百分点[19][32] - 追求1.5秒内响应的语音系统准确率均在10%左右徘徊[8] - 在数学推理任务上,最佳文本模型(GPT-5)准确率74.8%,最佳语音系统仅6.1%[19][29] - 级联架构系统LiveAnswer+在数学任务准确率提升至59.1%,但仍比纯文本低15.7%,在长对话记忆任务完全失效(0.2%)[19][33] 技术瓶颈分析 - 根本性架构冲突在于"不可逆的流式承诺":语音生成像现场直播,说出去收不回,导致系统选择安全但肤浅的回答路径[21] - 认知资源分配困境:系统需同时处理"想什么"和"怎么说",资源分散导致性能下降[22] - 不同架构展现独特失败模式:流式架构倾向"完成优先",端到端架构经常跑题,级联架构出现前后矛盾[26][27][32] - 延长思考时间(如Audio Flamingo 3从2.4秒延至15.1秒)反而使准确率从1.7%降至1.5%,证明问题在于架构本身而非时间限制[22][23] 行业影响与展望 - 研究揭示了语音交互系统普遍存在的"智商下降"现象,问题具有行业普遍性[28] - VERA benchmark提供了标准化评测框架,使行业可量化追踪技术进展[37] - 未来突破方向包括异步架构革新、智能缓冲策略、可编辑内部状态和分块并行处理等解决方案[36][41] - 真正智能的语音助手需要从根本上重新思考实时对话约束下的深度推理机制,而非简单将文本模型接上TTS系统[34][37]
OpenAI在ICPC 2025编程赛上满分登顶,Gemini也达到金牌水平
36氪· 2025-09-18 17:50
AI在ICPC竞赛中的表现 - OpenAI在5小时内解决了全部12个问题,相当于人类排名第1位,超过所有参赛大学团队[1] - OpenAI对11个问题的首次提交便获得正确答案,最难问题经过9次尝试后成功攻克[7] - OpenAI由通用推理模型集成体构成,结合GPT-5和实验性推理模型,未针对竞赛专门优化[12] Gemini在竞赛中的表现 - Gemini解决了12个问题中的10个,总用时677分钟,达到金牌水平,相当于人类排名第2[3][20] - Gemini在45分钟内解决8个问题,三小时内又解决2个问题,使用高级数据结构和算法[20] - Gemini在半小时内成功解决C题,而该题在竞赛中没有任何大学队伍解出[23] 人类团队竞赛结果 - 俄罗斯圣彼得堡国立大学排名第1,解决了11个问题[4] - 北京交通大学、清华大学、北京大学、中国科学技术大学分别排名2、4、5、9[4] - 在139支参赛队伍中,只有前四支队伍获得金牌[6] 技术实现细节 - Gemini通过假设水库优先级值,应用动态规划算法和极小极大定理解决C题[27][28] - Gemini通过嵌套三分查找迅速找到最优优先级值[28] - OpenAI解题过程中完全自主分析问题并提交答案,无定制化测试工具辅助[6] 研究人员背景 - OpenAI研究员Borys Minaiev曾获ICPC世界总决赛冠军,专注于大规模推理模型开发[14] - OpenAI研究员Mostafa Rohaninejad专注于元学习和强化学习,参与GPT-5开发[17][19] - Google DeepMind的Hanzhao Lin领导Gemini竞赛编程技术方向,Heng-Tze Cheng共同领导研究工作[28][31][33] 行业意义 - AI在ICPC中获得金牌级成绩,展示其在创新性解决方案方面的独特优势[35] - AI正从信息处理工具转变为解决复杂推理问题的关键力量[35] - 同一组模型已在IMO和IOI等竞赛中证明其实力和通用性[12]