Workflow
DeepSearch
icon
搜索文档
北大发布学术搜索评测ScholarSearch:难倒一众DeepResearch的“开卷考试”
量子位· 2025-06-26 22:11
大语言模型学术检索能力评估 核心观点 - 北京大学DS-Lab发布首个评估大语言模型学术检索能力的数据集ScholarSearch,包含223道高难度学术问题,顶尖纯推理模型(如GPT-4.1、DeepSeek-R1)准确率普遍低于9% [1][15] - 具备搜索功能的模型比无搜索版本性能显著提升(如GPT-4o-mini准确率提升超4倍),但最先进的搜索增强型模型(GPT-4o-search-preview)准确率仅18.83% [2][3][15] - 当前模型在深度学术研究场景存在明显局限,需开发更强大的Deep Research模型 [4][16] 数据集构建方法 - 问题筛选采用双重负向标准:需同时无法被Grok 3 Thinking模式解答,且Grok 3 DeepSearch或Gemini 2.5 Pro Deep Research至少一个失败 [6] - 审核机制确保答案唯一性、来源可访问性和学术正确性,未达标问题需迭代修订 [7][8] - 问题来源于真实学术场景,覆盖15个细分学科(科学与工程+社会科学与人文学科) [11][12] 评估结果分析 - 纯推理模型无法应对学术查询复杂性,证明静态知识库存在局限性 [15] - 搜索能力使模型在科学与工程(18.2%准确率)与社会科学(19.5%准确率)领域表现趋于平衡 [15] - 现有模型在深度多源推理、专业知识整合方面存在技术差距,需突破复杂语境理解与批判性验证能力 [16]
谷歌推出轻量级模型Gemini 2.5 Flash-Lite;腾讯元宝电脑版上线AI编程模式丨AIGC日报
创业邦· 2025-06-19 08:00
腾讯元宝电脑版AI编程模式 - 腾讯元宝电脑版推出AI编程模式 用户需升级至v2 25以上版本并切换至DeepSeek模型 关闭深度思考后通过@AI编程指令即可启用该功能 [1] - AI编程模式采用双栏展示设计 左侧输入需求 右侧实时生成代码 提升编程效率 [1] 红杉中国AI基准测试工具 - 红杉中国开源xbench评测集 包含xbench-ScienceQA和xbench-DeepSearch两个子集 采用动态更新机制适应大模型和AI Agent发展 [2] - 评测集采用"黑白盒"机制 既服务开发者又避免过拟合问题 确保长期有效性 [2] 谷歌Gemini模型更新 - 谷歌宣布Gemini 2 5 Flash和Gemini 2 5 Pro进入稳定阶段 同时推出轻量级模型Gemini 2 5 Flash-Lite [3] MiniMax视频生成工具 - MiniMax发布Hailuo 02视频生成模型 新增1080p原生视频创作功能 提供768p-6s 768p-10s和1080p-6s三种版本 [4] - 模型更新已部署至海螺视频Web APP及开放平台API [4]
红杉中国正式开源AI基准测试xbench评测集
快讯· 2025-06-18 08:37
红杉中国开源AI基准测试工具xbench - 红杉中国于6月18日正式开源其AI基准测试工具xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch [1] - 公司表示未来将基于大模型和AI Agent的发展情况动态更新评测集 [1] - 采用"黑白盒"机制以服务更多大模型和Agent开发者并避免静态评测集的过拟合问题 [1] - 目标是通过动态更新确保xbench工具的长期有效性 [1]
xbench评测集正式开源
红杉汇· 2025-06-17 21:27
开源AI基准测试xbench - 红杉中国正式开源xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch,旨在量化AI系统在真实场景的效用价值并采用长青评估机制[1] - xbench-ScienceQA聚焦STEM学科,包含数学、物理、化学等8个主流学科,题目平均正确率仅32%,其中34%题目正确率低于20%[2][5][12] - xbench-DeepSearch专注评估AI Agent的深度搜索能力,要求综合运用规划+搜索+推理+总结的端到端能力,弥补中文语境搜索题库不足的弱点[3] 评测集特点 xbench-ScienceQA - 题目来源:邀请顶级院校博士和行业专家出题,确保来源可靠、多学科、搜索引擎未收录且答案明确[2] - 题型分布:包含77道问答题、14道多选题和9道单选题,降低模型"蒙对"概率[8] - 难度控制:采用LLM难度检验、同行检验等方式,实测不同模型得分差距超30%[2][10] xbench-DeepSearch - 题目设计:要求搜索空间大或推理步骤多,淘汰正确率>80%的题目[13][14] - 主题覆盖:参考OpenAI BrowseComp分类,确保多样性,涵盖历史、科技等方向[15] - 更新机制:每月汇报模型表现,每季度更新评估集,内部维护黑盒版本防止刷榜[3] 例题分析 ScienceQA示例 - 计算机题示例:考察图论单源最短路算法,正确答案为O(m√(log n·log log n)),被测模型平均正确率<5%[21][22] - 化学多选题:涉及物质结构最新研究成果,采用"全对才得分"评分方式,平均正确率<20%[24][26] DeepSearch示例 - 广度搜索题:计算东北三省接壤外国的地市数量,需跨省份数据整合,平均正确率47%[28][29] - 深度推理题:统计尼米兹级航母建造期间总统海军服役年限,侧重分步推理,正确率33%[29][30] 行业影响 - 填补高质量Agent评测集空白,动态更新机制适应AI技术快速迭代[3][31] - 开源模式吸引全球开发者参与,推动AI评估标准进化[1][33]
AI周度跟踪2025年第7期:国内外AI投入力度不减,AI浪潮势能充足
东方证券· 2025-05-22 21:30
传媒行业 行业研究 | 动态跟踪 国内外 AI 投入力度不减,AI 浪潮势能充足 ——AI 周度跟踪 2025 年第 7 期 核心观点 投资建议与投资标的 ⚫ 看好 AI 新周期带动算力-算法-应用生态三端依次持续推进,我们建议增加港股互联 网板块配置仓位,核心推荐处于产业链前端,云消费弹性明显+基模实力领先+算法 具备优势的阿里巴巴-W(09988,买入),多模态视频生成模型技术全球领先,商业 化变现节奏加快的快手-W(01024,买入),卡位最佳社交场景,具备数据+应用生 态优势的腾讯控股(00700,买入),以及加速完善 AI 基模和应用布局,AI 搜索领先 的百度集团-SW(09888,买入)。 风险提示 行业发展及 AI 应用落地不及预期,宏观经济风险,海外政策风险。 国家/地区 中国 行业 传媒行业 报告发布日期 2025 年 05 月 22 日 | 项雯倩 | 021-63325888*6128 xiangwenqian@orientsec.com.cn | | --- | --- | | | 执业证书编号:S0860517020003 | | | 香港证监会牌照:BQP120 | | 李雨琪 ...
AI周度跟踪2025年第7期:国内外AI投入力度不减,AI浪潮势能充足-20250522
东方证券· 2025-05-22 19:50
报告行业投资评级 - 看好(维持)[8] 报告的核心观点 - 看好AI新周期带动算力 - 算法 - 应用生态三端依次持续推进,建议增加港股互联网板块配置仓位,核心推荐阿里巴巴 - W、快手 - W、腾讯控股、百度集团 - SW [3][8][68] 根据相关目录分别进行总结 本期AI专题跟踪 - 阿里巴巴25Q1收入2364.5亿元,yoy+6.6%,经调整净利润298.5亿元,yoy+22.2%,阿里云收入301.3亿元,yoy+17.7%,经调整EBITA24.2亿元,yoy+69.0%,本季度资本开支246.1亿元,yoy+120.7%,年度资本性支出承诺总额453.2亿元,yoy+146.7%,预计未来2 - 3个季度兑现增长 [11] - 腾讯控股25Q1营业收入1800亿,yoy+13%,Non - IFRS归母净利润613亿,yoy+22%,金融科技及企业服务收入549亿,yoy+5%,资本开支274.8亿元,yoy+91.4%,AI相关业务资本开支230亿,占比84% [12] - 海外四大云厂商25Q1亚马逊/谷歌/微软/Meta总资本开支711.4亿美元,yoy+64.3%,亚马逊/谷歌维持原指引,微软预计环比增加,Meta上调至640 - 720亿美元,国内云厂商25年或复制海外趋势 [17] 本期AI动态跟踪 AI大模型 - 阿里开源视频生成模型Wan2.1 - VACE,可完成文生视频等功能,有4B和13B两种尺寸,通义万相开源模型下载量超330万,GitHub获超1.1w star [20] - 腾讯发布混元图像2.0模型,图像生成速率提升至毫秒级,语义响应等指标高于同类 [23] - 字节跳动发布升级版豆包1.5视觉深度思考模型,多模态推理能力接近Gemini 2.5 pro,60个测评基准中38个取得SOTA地位 [27] 算法技术 - DeepSeek团队论文解读DeepSeek V3降本效果,算法侧采用多头潜在注意力等三种优化算法,硬件侧设计两层“多层平面”网络,实现低成本扩展 [32] - 微软和谷歌推进A2A协议,解决智能体生态碎片化问题,已有50余家顶级企业加入 [35] AI应用 - 百度AI搜索上线深度搜索功能DeepSearch,有主动思考和动态优化功能,免费无限次使用 [36] - 字节跳动火山引擎发布数据库智能助手DBCopilot,提升数据库管理效率 [43] - 2025年5月5 - 11日,国内AI应用web端访问量前三为DeepSeek 8720亿(环比 - 12.8%)、夸克1560万(环比 - 21.0%)、豆包1057万(环比 + 3.2%);全球前三为ChatGPT 10.78亿(环比 - 11.3%)、Canva 1.68亿(环比 - 7.2%)、DeepSeek 8720万(环比 - 12.8%) [44] - 2025年4月,AI搜索引擎Web端访问量前三为New Bing 14.5亿(环比 - 5.27%)、纳米AI搜索2.77亿(环比 - 7.95%)、Perplexity AI 1.18亿(环比 - 8.77%);聊天机器人前三为ChatGPT 53.1亿(环比 + 13.04%)、DeepSeek 4.69亿(环比 – 5.23%)、Gemini 4.22亿(环比 + 19.36%);虚拟角色前三为Character AI 2.15亿(环比 - 3.34%)、JanitorAI 1.10亿(环比 - 2.23%)、SpicyChat AI 4690万(环比 + 15.02%);视频生成前三为Sora 2301万(环比 + 28.59%)、kling ai 2020万(环比 + 18.70%)、Loom 1650万(环比 - 3.95%) [47] - 2025年4月,国内AI应用app端MAU排名前三为夸克1.49亿(环比 + 0.23%)、豆包1.07亿(环比 + 10.18%)、DeepSeek 9688万(环比 + 25.81%);全球前三为ChatGPT 5.46亿(环比 + 22.59%)、夸克1.49亿(环比 + 0.23%)、豆包1.07亿(环比 + 10.18%) [52] - 2025年5月12 - 18日,应用免费榜Top10中AI应用有豆包、即梦、DeepSeek、夸克等,5月16日iOS免费应用榜中,DeepSeek排名第6(环比持平),字节豆包排名第2(环比下降1名)等 [54][55] 本周行情跟踪 - 本周恒生科技指数上涨2.27%至5297.84点,成分股涨幅前五为网易 - S(+16.07%)等,跌幅前五为华虹半导体(-7.86%)等 [59] - 本周传媒板块成分股涨幅前五为*ST返利(+15.11%)等,跌幅前五为荣信文化(-10.45%)等 [63] - 互联网板块重点公司行情:阿里巴巴 - W收盘价123.40,周度涨跌幅 - 0.16%等 [67]
传统搜索与AI搜索“互搏”,谁能获益?
第一财经· 2025-05-20 20:06
从传统搜索引擎到AI搜索,原本的广告形式是否需要变化、如何变化,仍是需要思考的问题。 新技术冲击下,近期更多搜索厂商开始了AI化进程。 不久前,苹果表示有计划在Safari浏览器中引入AI功能选项。上周,百度AI搜索上线DeepSearch。5月19日,QQ浏览器升级为AI浏览器并推出QBot智能体, 搭载腾讯混元和DeepSeek双模型。而在即将开始的谷歌I/O开发者大会上,业界预计谷歌也将谈及相关进展。 时至今日,AI搜索和传统搜索引擎两股力量仍在激烈博弈。有业界人士称,已有浏览器使用量下降,原因是用户转向使用AI,另一些坚持搜索引擎仍有价 值的企业,则释放了AI功能使浏览器用户活跃度上升的信号。现阶段共识的缺乏,反映了AI对搜索的改造仍在持续。 厂商:用户使用量变化体感不一 当问答可以在大模型应用中进行,用搜索引擎就显得麻烦。目前不少主流大模型应用已有联网搜索功能。不过,浏览器或搜索引擎厂商对于AI冲击的感知 并不一致。 苹果公司高级副总裁埃迪·库称,4月Safari浏览器搜索量出现首次下滑,一大原因是越来越多人使用AI技术。此前Safari浏览器未加入AI功能。 然而QQ浏览器AI功能在灰度测试时,团 ...
AI周报|智能体平台Manus开放注册;梁文锋署名DeepSeek新论文
第一财经· 2025-05-18 14:47
AI智能体平台Manus - AI智能体平台Manus开放注册 新注册用户每天可免费获得300积分并一次性获得1000积分 提供基础计划(19美元/月 1900积分)、Plus计划(39美元/月)和Pro计划(199美元/月) [1] - Manus案例分析显示 数据分析消耗200积分 网页设计消耗360积分 应用开发消耗900积分 [1] - 北京红色蝴蝶科技有限公司(Manus关联公司)注册资本由1000万美元增至2000万美元 [1] 英伟达芯片供应 - 英伟达与沙特AI公司Humain达成芯片供应协议 将提供1.8万颗GB300芯片用于建设500兆瓦数据中心 [2] - 英伟达与Humain计划未来五年建设AI工厂 使用数十万块GPU AMD也与Humain达成合作 双方计划五年投资100亿美元 [2] DeepSeek-V3技术突破 - DeepSeek-V3通过四项创新技术(内存优化 计算优化 通信优化 推理加速)解决硬件瓶颈 仅用2048块H800达到数万块GPU训练效果 [3] 通用人工智能发展 - 张亚勤预测通用人工智能需15-20年 信息智能(语言/视频)5年可达人类水平 物理智能(机器人/无人驾驶)需10年 生物智能(脑机接口)需15-20年 [4] OpenAI全球扩张 - OpenAI考虑在阿联酋建设数据中心 可能在美国总统访问中东期间宣布 [5][6] - OpenAI推进"OpenAI for Countries"计划 第一阶段目标在各国开展10个项目 [6] 中东AI基础设施建设 - 美国与阿联酋合作建设5吉瓦数据中心AI园区 将成为美国境外最大同类园区 [7] - 阿联酋已投入数十亿美元转型为中东AI中心 [7] AI编程工具发展 - OpenAI发布AI编程助手Codex 可并行处理多项任务 面向付费用户提供研究预览版 [8] - OpenAI可能以约30亿美元收购AI编程助手Windsurf 或成其史上最大并购 [8] 百度AI搜索创新 - 百度推出DeepSearch深度搜索 基于百亿级内容库 可综合分析信息并动态补充搜索 [9] 谷歌AI投资布局 - 谷歌设立"AI未来基金"支持全球AI初创公司 目标发掘下一个OpenAI [10] AR/VR设备发展 - INAIR公布AI空间计算机 由AR眼镜 独立计算中心和3D空间操作键盘组成 计划6月发售 [12] - 预计2025年全球AR眼镜出货量将增长42% 远超VR [12] AI公司融资动态 - Perplexity AI正以140亿美元估值进行5亿美元融资谈判 由Accel领投 [13] - Perplexity AI年化经常性收入略低于1亿美元 估值从去年6月30亿美元涨至140亿美元 [13] 腾讯AI投入 - 腾讯第一季度资本开支274.8亿元 同比增长91% 主要用于支持AI业务 [14] - 腾讯第一季度研发支出189.1亿元 同比增长21% AI已对广告和游戏业务产生贡献 [14] - 腾讯表示拥有足够高端芯片训练未来几代模型 当前GPU需求主要在推理侧 [15]
9点1氪:官方回应正新鸡排鸡腿大量生蛆;取款身亡老人家属称与农行达成和解;胖东来本月销售额接近10个亿
36氪· 2025-05-16 22:55
资本市场动态 - 百力司康考虑赴香港IPO [2] - 华电新能源集团获证监会批准在上交所主板上市 [3] - 北京真源诚传科技完成3000万元A轮融资 资金将用于"知悟"生态体系建设 [13] 消费行业事件 - 正新鸡排门店鸡腿生蛆事件引发关注 当地市场监管局已封存同类产品送检 [1][4] - 胖东来官网恢复运营 5月销售额达9.6亿元 2025年累计销售额89.8亿元 [4] - 广州咖啡节现1530元/杯高价咖啡 引发消费者争议 [5] - 今麦郎为娃哈哈代工生产12亿瓶纯净水 每瓶净利润仅2分钱 [6] 科技与互联网 - 腾讯发布混元图像2.0模型 实现实时生图功能 [11] - 百度AI搜索推出DeepSearch功能 基于百亿级内容库 [12] - INAIR发布全球首台量产AI空间计算机 计划6月发售 [10] - Manus推出图像生成功能 可结合其他工具完成任务 [12] 交通与能源 - 中国中车研发600公里/小时高速磁浮列车 广州至北京有望4小时到达 [7] - 华电新能源集团获准IPO 将在上交所主板上市 [3] 企业人事变动 - 中国电信聘任刘桂清为公司总裁兼首席运营官 [7] 国际企业动态 - 沃尔玛因关税政策将上调部分在美商品售价 [10] - 日本富士电视台母公司2024财年净亏201亿日元 为上市以来首次亏损 [14] - 韩国三养食品一季度营业利润增长67%至1340亿韩元 火鸡面海外销售大涨43.5% [14] 政策与会议 - 商务部召开全国离境退税工作推进会 强调扩大入境消费 [8][9]
氪星晚报|“长三角AI生物医药产业联盟”正式成立;百度AI搜索上线首个基于百亿级内容库的DeepSearch;商务部、国家发展改革委修订发布《餐饮业促进和经营管理办法》
36氪· 2025-05-16 19:43
抖音成立新公司 - 抖音在江西成立笔绘墨影科技新公司,注册资本100万元人民币,经营范围包括电视剧制作、网络文化经营、广播电视节目制作经营、电影摄制服务等 [1] - 该公司由北京笔墨留香科技有限公司全资持股,后者为抖音信息服务有限公司全资子公司 [1] 高德地图与Rokid合作 - 高德地图与Rokid合作推出基于Rokid Glasses的全球首个导航智能体应用,标志着高德Planner-Executor架构跨终端合作部署 [2] - 合作旨在构建环绕出行和位置服务的空间智能生态体系 [2] 飞象星球亮相数字教育大会 - 飞象星球作为国内首个系统化落地的人工智能通识课程,亮相2025世界数字教育大会 [3] - 课程贯穿中小学全学段,已在1342个学校试点,覆盖15万名学生 [3] 迪克体育用品收购Foot Locker - 迪克体育用品将以24亿美元股权价值收购Foot Locker,企业价值约25亿美元 [4] - Foot Locker将作为独立业务部门运营,保留旗下品牌 [4] 白云机场设立免税品公司 - 白云机场拟出资450万元(占比10%)与中免集团等共同设立中免市内免税品(广州)有限公司,运营广州市市内免税店业务 [4] 长三角AI生物医药产业联盟成立 - 阿斯利康与产学研机构联合发起"长三角AI生物医药产业联盟",推动数智赋能健康产业 [5] - 联盟成员包括北京大学长三角未来技术生命健康研究院、英矽智能等 [5] 腾讯云AI应用模式 - 腾讯云推出三大AI应用模式(标准模式、工作流模式、Agent模式),打造全栈AI服务生态 [6] - 腾讯云大模型知识引擎支持从精准问答到智能任务执行的服务 [6] 百度AI搜索升级 - 百度AI搜索推出国内首个基于百亿级内容库的DeepSearch,支持行业报告分析、工作报告制作等功能 [7][8] - 个人知识库和创作画布功能已面向全体用户免费开放 [8] 奇宏科技融资 - 奇宏科技完成数千万元A轮融资,资金将用于纳米纤维素量产基地扩建及高端应用研发 [9] 巴西Patria推出数据中心平台 - 巴西Patria公司推出数据中心平台Omnia,首期投资10亿美元,瞄准拉丁美洲云计算和AI应用增长 [10] 中科紫东太初融资 - 中科紫东太初完成数亿元首轮融资,资金将用于多模态AI技术研发及"人工智能+"产业布局 [10] 餐饮业管理办法修订 - 《餐饮业促进和经营管理办法》修订发布,新增数字化发展、地方特色餐饮培育等鼓励性条款 [11] 日本养老金制度改革 - 日本政府敲定养老金制度改革法案,废除小时工加入厚生养老金的年收入门槛,扩大养老金覆盖 [13]