Qwen深度研究
搜索文档
Qwen深度研究一夜升级!可生成网页和音频播客,新模型能认医生手写体
量子位· 2025-10-22 13:48
Qwen深度研究产品功能重大升级 - 核心功能加速进化,新增听觉和视觉输出能力,可生成网页和音频[1] - 深度研究整合的内容可转化为图文并茂的网页,并支持一键部署,方便对外展示[2] - 长篇文字内容可转化为音频播客,便于用户在碎片时间消化吸收[3] - 与此前产品相比,深度研究作为输入省去了用户提供内容的环节[4] Qwen深度研究功能实测与操作流程 - 深度研究功能默认选择最强的Qwen3-Max模型[9] - 智能体在开始任务前会先向用户确认具体意图,而非直接执行[10] - 智能体执行任务采用分步操作,总耗时约6分钟[12] - 任务完成后,用户会得到传统的AI文字回复以及可下载的PDF文件[15] - 新功能入口较深,需点击“在线查看文件”才能找到[16] 新增网页与音频生成功能详解 - 网页生成功能耗时约1分钟[18] - 生成的页面简洁美观,带有动态效果,并支持白天/黑夜模式切换[19] - 以网页形式展示深度研究结果,比大段文字更直观[20] - 生成后可进行公开或私密部署,支持链接分享[22] - 音频生成(播客)功能允许用户分别选择主持人和嘉宾的音色[24] - 音频生成过程耗时3-5分钟,完成后支持在线收听或下载[26] Qwen3-VL系列模型更新与性能表现 - Qwen3-VL系列视觉语言模型更新,新增最大参数32B和最小参数2B版本[28] - 据团队负责人介绍,此次是Qwen3-VL系列最后一次更新,目前四个版本均为密集模型[29] - 评测结果显示,32B版本性能已超越上代Qwen2.5-VL的72B版本,以及OpenAI和Anthropic的闭源方案[30] - 最新版视觉语言模型Qwen3 VL具备识别高难度医生手写体的能力[7] - 具体评测数据:在MMMUVAL基准测试中,Qwen3-VL 32B得分为76.0,高于Qwen2.5-VL 72B的70.2*、GPT5-Mini的67.9和Claude4-Sonnet的75.1[31] - 在MathVistamini测试中,Qwen3-VL 32B得分为83.8,显著高于Qwen2.5-VL 72B的74.8*、GPT5-Mini的59.6和Claude4-Sonnet的72.4[31] - 在RealWorldQA测试中,Qwen3-VL 32B得分为79.0,高于Qwen2.5-VL 72B的75.7*、GPT5-Mini的73.3和Claude4-Sonnet的68.1[31] 行业竞争格局与产品定位 - 深度研究产品适合用于执行挑选、比较等任务[8] - 文章通过表格对比了Perplexity Comet、The Browser Company、OpenAI AI、Brave Leo / Sigma AI等竞品在定位、技术架构、AI工作模式、代理能力、上下文理解等方面的差异[16]