Workflow
Tongyi DeepResearch
icon
搜索文档
大厂数据护城河打破!上交全开源Search Agent OpenSeeker登场
机器之心· 2026-03-31 20:19
行业现状与突破 - 高性能深度搜索智能体的开发长期被大型科技公司主导,其核心壁垒在于严格保密的高质量训练数据,这形成了坚固的数据护城河,阻碍了研究社区的创新 [2] - 上海交通大学学术团队推出的OpenSeeker是首个由纯学术团队打造、完整开源模型及100%全量训练数据的前沿深度搜索智能体,打破了这一数据垄断局面 [2] - 该成果证明,不依赖大规模算力堆砌,仅通过极高的数据合成质量,学术界同样能产出达到业界最先进水平的模型 [2] 核心技术方案 - 训练深度搜索智能体的核心在于构建高难度问答任务以激发多轮工具调用能力,并生成高质量、可复现的解题轨迹 [7] - OpenSeeker提出了基于真实网页结构的事实锚定问答构建方法,通过从海量真实网页图结构进行逆向工程,并引入实体混淆机制,将简单事实转化为复杂推理谜题,强制模型进行多步导航与深度推理 [8][9][10][11] - 为应对真实网页环境中的噪音,OpenSeeker设计了动态去噪轨迹合成策略,采用非对称上下文构建,在训练阶段让模型学习从嘈杂原始信息中预测专家级决策,从而强化核心信息提取能力 [8][12][15][19] 性能表现与数据效率 - 在约300亿参数、纯ReAct架构的同等条件下,OpenSeeker仅使用11.7千个合成样本进行单轮监督微调,便在多个前沿榜单上取得了业界最先进成绩 [2] - 在BrowseComp-ZH榜单上,OpenSeeker-v1-30B-SFT取得了48.4%的成绩,超越了阿里巴巴通义DeepResearch经过持续预训练、监督微调和强化学习多阶段复杂训练后得出的46.7% [13][17] - 在约300亿参数级别的纯监督微调模型中,OpenSeeker在BrowseComp、xbench、WideSearch榜单上全面斩获第一,成绩分别为29.5、74.0、59.4 [13][18] - 在控制数据规模可比的情况下,OpenSeeker的11.7千个样本展现出显著优势,其数据质量明显优于阿里巴巴通义实验室的同类数据组合版本 [20][21] 数据质量与难度 - 为量化数据难度,研究团队使用相同模型进行对比,结果显示其合成中文数据的每条轨迹平均需要进行46.35次工具调用,平均token长度高达76.1千,远超BrowseComp-ZH的26.98次和15.1千token [25] - 其英文数据的难度也达到了与BrowseComp-EN相媲美的水平 [25] 开源影响与社区反响 - OpenSeeker完全开源了所有训练数据和模型,为研究人员提供了高质量的数据基础,使其无需依赖企业级规模资源也能探索下一代搜索智能体 [13] - 社区评价认为,全量训练数据加上300亿参数模型的开放,让研究人员能清晰区分性能提升是源于方法创新还是闭源数据优势,真正推动了领域发展 [26][29] - 此举打破了长期存在的数据护城河,降低了前沿研究门槛,让研究者能够专注于方法创新本身,并让构建多步智能体不再受数据守门人限制 [26][28][29]
xbench榜单更新!DeepSeek V3.2追平GPT-5.1|xbench月报
红杉汇· 2025-12-05 08:06
xbench-ScienceQA榜单更新 - 最新一期xbench-ScienceQA榜单有6家公司发布新模型,Gemini 3 Pro刷新SOTA,DeepSeek V3.2分数追平GPT-5.1且性价比极高[1] - 榜单采用长青评估机制,持续汇报最新模型能力表现,未来将发布评估Agent指令遵循能力和多模态理解能力的新benchmark[1] 主要模型性能对比 - Gemini 3 Pro得分71.6,BoN(N=5)达85.0分,平均响应时间48.62秒,API价格为输入$2/百万tokens、输出$12/百万tokens[3] - DeepSeek-V3.2-Speciale得分62.6,BoN(N=5)达81.0分,与GPT-5.1持平,API价格仅为输入$0.28/百万tokens、输出$0.42/百万tokens[3] - GPT-5.1得分62.6,BoN(N=5)达78.0分,平均响应时间137.19秒,API价格为输入$1.25/百万tokens、输出$10/百万tokens[3] - Claude Opus 4.5得分55.2,平均响应时间仅13.31秒,为所有模型中最快[3] 成本效益分析 - 评测ScienceQA的500道题目,GPT-5.1花费$32,Gemini 3 Pro仅需$3,成本优势显著[6] - DeepSeek-V3.2-Speciale完成相同评测仅需$2,DeepSeek-V3.2-Thinking仅需$1.3,性价比远超GPT-5.1[6] - DeepSeek V3.2价格远低于GPT-5.1,成为Gemini 3外第二家BoN突破80分的公司[6] 技术架构创新 - DeepSeek V3.2引入DeepSeek Sparse Attention机制,在保持长上下文性能的同时显著降低计算复杂度[10] - 采用可扩展的强化学习框架,后训练算力投入提升至预训练成本的10%以上,通过改进GRPO算法增强模型推理能力[11] - 构建大规模Agent任务合成流水线,自动生成数千虚拟环境和数万条复杂指令,首创“思考融入工具使用”能力[12] 行业技术突破 - Gemini 3以1501 Elo成绩登顶LMArena排行榜,展现接近博士级的综合推理能力,深度融合文本、图像、视频、音频与代码的跨模态理解[13] - Kimi K2 Thinking支持200-300步连续工具调用的长程推理能力,采用高效稀疏MoE架构,1万亿参数仅激活32亿[18] - Tongyi DeepResearch在总参数30B激活参数3B的小模型上实现比肩闭源大模型的能力,验证了小模型在Agent领域可媲美大模型的效果[8][19] 模型性能提升 - Gemini 3 Pro较Gemini 2.5 Pro平均分从59.4提升到71.6,提升幅度达12.2分[6] - DeepSeek-V3.2-Speciale较DeepSeek-R1-0528有较大提升,达到62.6分[6] - Claude Opus 4.5较Claude Sonnet 4.5-Extended Thinking有小幅提升,达到55.2分[6]
Alibaba Cloud's AI Boom: Can This Momentum Drive Even Higher Growth?
ZACKS· 2025-09-23 02:15
云计算业务表现 - 云计算部门第一季度收入同比增长26% 为近期最强劲增长表现之一 [1][9] - 增长动力来自企业客户对AI模型的广泛采用 [1] - 通过降价策略优先获取用户和扩大市场份额 但可能带来利润率压力 [5] AI技术投资与创新 - 战略投资AI+云基础设施导致资本支出增加及显著现金流出 [2] - 9月开源Wan2 2-Animate动作生成模型 应用于短视频和动画制作 [3] - 推出通义DeepResearch代理型大语言模型 强化AI生态系统 [3] - 发布超高效Qwen3-Next架构和多语言语音识别系统Qwen3-ASR-Flash [6] 战略合作与解决方案 - 与标普全球合作 通过对象存储服务提供AI就绪商品数据集 [4] - 将可信数据源与千问大语言模型结合 为跨行业企业客户提供集成解决方案 [4] 全球竞争格局 - 微软Azure近期增长39% 年收入达750亿美元 [7] - 亚马逊AWS增长17.5% 季度AI数据中心基础设施资本支出243亿美元 [7] - 全球竞争对手拥有更深厚资本资源和成熟企业关系 [7] 股价与估值表现 - 年初至今股价上涨94.2% 远超互联网商务行业14.9%和零售批发 sector 10%的涨幅 [9][10] - 当前远期市盈率17.41倍 低于行业平均的25.33倍 [13] - 2026财年每股收益共识预期8.09美元 过去30天下降5.7% 预示同比下滑10.21% [16]