ChatGPT Search
搜索文档
梁文锋推迟V4,是为了根治龙虾的健忘症?
虎嗅APP· 2026-03-17 08:08
DeepSeek V4的发布策略与核心能力 - 面对行业在春节期间扎堆发布新版本,公司选择不急于发布半成品,而是追求产品成熟后再推出[4][5][6] - 公司CEO的决策依据在于团队稳定、技术底子厚,不会草率发布[7] - 外媒报道V4将是架构级重构,包含1万亿参数、百万上下文、原生多模态,并预计于4月份发布[7] - 此次迭代的核心是名为LTM的长期记忆系统,旨在从模型架构内部实现持久化记忆,让AI能跨对话和任务记住用户信息与偏好[8] - 公司意图通过架构层面的原生记忆解决行业现有方案的根本缺陷,而非依赖外部中间件[10][11] - 公司的产品哲学是追求发布即“王炸”,正如其R1产品曾凭借过硬实力获得成功[14][15] LTM技术路径与行业痛点 - 当前AI在替人干活时,对上下文的理解和记忆能力已成为决定其可用性的底线,而非加分项[17] - 现有主流记忆方案均为在模型外部运行的外挂系统或中间件,存在共同天花板[20] - 外部记忆方案导致记忆质量取决于工程水平,且需通过上下文窗口注入,会带来高昂的token成本,模型也无法在外部记忆上进行真正的“学习”[21] - 公司基于Engram论文的研究方向是将记忆能力直接嵌入Transformer架构本身,开辟专用的条件记忆空间[22] - Engram方案使用O(1)的哈希查找存取知识,调用时不占用上下文窗口容量,也不增加推理计算成本,且记忆空间容量可近乎无限扩展[22] - 该技术路径旨在跳过“外挂记忆”范式,直接进入“原生记忆”时代,解决现有AI“有手脚却没记事大脑”的问题[23] 对标产品OpenClaw的记忆系统缺陷 - OpenClaw的记忆系统存在三个结构性缺陷:压缩损耗、检索失效和记忆容量上限[24] - 压缩损耗指为腾出上下文空间而将旧对话压缩成摘要时,会丢失对话脉络、推理链条等关键信息,且不可逆[25][26][27] - 检索失效指依赖向量相似度检索无法理解条目间的逻辑关系,可能导致召回错误或遗漏关键信息[28] - 记忆容量存在硬性上限,核心记忆文件有字符数限制,日志记忆的检索质量则依赖模型自身判断,容易丢失重要信息[29][30] - 这些问题的根源在于有限的上下文窗口,导致记忆体验如同“抄了一堆笔记然后翻不到”[30] 上下文学习能力的行业现状与价值 - 腾讯CL-bench基准测试显示,所有前沿模型从上下文中“现学现用”的平均正确率仅为17.2%[33][34] - 表现最好的GPT-5.1正确率也只有23.7%,意味着AI有超过八成的概率未能真正学会所给材料[34] - 研究认为,当前AI与真正智能的鸿沟在于学习能力,而非知识储备量[34] - 如何记忆以及能否“用好上下文”被视为大模型迈向高价值应用的核心瓶颈,并可能成为2026年的核心主题[34] - 上下文学习与记忆的可靠性是实现模型自主学习的关键一步[34] DeepSeek面临的主要竞争短板 - **多模态能力**:公司目前仍是纯文本模型,缺乏通用的视觉、音频和视频理解能力[39][40] - 公司发布的OCR 2模型虽在文档解析基准上表现出色,但仅是“图像→文本”的单向转换,与通用多模态理解存在代际差距[41][42] - 竞争对手如字节的Seedance 2.0和GPT-5.4已进入“全模态”时代,证明了多模态的巨大潜力[43] - **智能体能力**:行业正迈向智能体时代,竞争对手如Kimi、ChatGPT、Claude均已推出能处理复杂任务、调度多智能体的功能[46] - **AI编程能力**:在SWE-bench Verified基准上,公司V3.2得分73.1%,低于Claude Opus 4.6的80.8%和GPT-5.3 Codex的约80%[48] - 在更难的SWE-bench Pro基准上,V3.2得分40.9%,远低于GPT-5.4的57.7%[49] - 行业已从“氛围编程”进化到“智能体工程”,要求AI能独立完成工程级任务[49] - **AI搜索能力**:公司的搜索能力是短板,且结果经常出现幻觉[51] - Vectara测试显示,R1的幻觉率高达14.3%,是V3的3.9%的近四倍[52] - 在学术引用检索测试中,其错误率高达91.43%,包括捏造论文标题、虚构DOI等[52] - 搜索短板源于缺乏自有搜索基础设施依赖第三方接口以及模型事实校验能力不足[54] - 在智能体时代,可靠的搜索是必选项而非加分项[55]
当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch
机器之心· 2025-10-16 15:34
搜索智能体的安全风险 - 大模型通过搜索智能体实时连接互联网时,可能采纳低质量或虚假网页信息,生成带有风险的回答[2] - 真实案例显示,因搜索返回不可靠的GitHub页面代码,导致开发者私钥泄露并损失约2500美元[4] - 在从Google Search收集的近9000个搜索结果中,有4.3%被判定为疑似内容农场等低质量网站[11] - 搜索智能体在接触低质量搜索结果后,更倾向于在健康等敏感领域认可不安全的治疗方式[11] SafeSearch基准与评估方法 - 研究提出自动化红队框架SafeSearch,涵盖广告推广、偏见诱导、有害输出、提示注入和错误信息五类风险[14][15] - 基准包含300个高质量测试案例,每类风险60个,通过模拟式红队方法向搜索结果注入一篇不可靠网页进行测试[19][21] - 评估采用攻击成功率(ASR)和有用性得分(Helpfulness Score)两项关键指标,分别衡量安全性和任务效用[23] - 测试设定了能力、知识和目标限制,确保用例的可行性和挑战性,以及评估的公平性[17] 主流模型与架构安全性表现 - 对15个主流大模型在三类搜索智能体架构下的评估显示,整体平均攻击成功率为68.3%[24] - 在最极端情况下(GPT-4.1-mini + 搜索工作流),智能体受不可靠搜索结果影响的比例高达90.5%[24][26] - GPT-5和GPT-5-mini展现出独一档的鲁棒性,整体ASR分别为18.4%和18.9%[24][26] - 搜索智能体架构设计影响关键,以GPT-4.1-mini为例,其ASR从搜索工作流的90.5%在Deep Research架构下可降至57.4%[24][36] 防御措施有效性分析 - 常见的提醒防御策略几乎无效,模型即使能识别不良来源,在实际生成时仍会受影响[36][37] - 利用辅助模型对搜索结果进行过滤的防御策略更有效,可将ASR减半,但无法完全杜绝风险[36][37] - 研究凸显了“知识-行动鸿沟”,即模型即使知道内容不可靠,在真实场景中仍可能被误导[32] - 合理的架构设计(如Deep-research scaffold)能在保持高效实用性的同时大幅降低风险,但意味着更多成本[37]
专家访谈汇总:巴菲特抨击美国新政
阿尔法工场研究院· 2025-05-05 22:46
OpenAI ChatGPT搜索上线网购功能 - OpenAI ChatGPT Search上线智能网购功能 实现从需求到下单的一站式体验 用户可通过自然语言交互完成商品推荐 价格比对和购买链接获取 [4] - 系统结合实时价格 用户评价和历史偏好进行个性化推荐 例如预算3000元的15寸笔记本需求 并自动筛选核心参数如续航 防水等 引用专业媒体评测数据增强可信度 [4] - 记忆模式上线使AI对个体消费行为理解更深入 提升个性化营销效率 相关数据服务商与用户画像平台存在机会 [2] - OpenAI不参与交易抽成 可能成为多个电商平台的中立推荐入口 对第三方结构化数据质量和覆盖面的依赖提示数据服务供应商新机遇 [2] - 该功能展现出OpenAI在电商垂直领域的应用潜力 可能对现有搜索导购平台如小红书 京东搜索 拼多多推荐系统等构成挑战 [4] 巴菲特股东大会 - 巴菲特接任者Abel的稳健风格预计不会带来战略大幅调整 短期内市场信心稳定 但中长期投资决策能力仍需观察 [3] - 不确定的政策环境或影响跨国企业业绩 投资者应注意地缘政治对公司全球供应链的冲击 [3] 减速器领域 - 主要减速器类型包括谐波减速器 RV减速器和行星减速器 在不同领域有广泛应用 [7] - 减速器国产替代趋势加速 国内企业在技术和市场占有率快速提升 打破国际垄断 带来巨大市场机会 [7] - 技术创新如谐波减速器的三次谐波技术 微型行星减速器的体积缩小和精度提升 使相关公司具备较强竞争力 [7] - 人形机器人及工业机器人应用场景扩大 将推动减速器厂商未来几年快速增长 能提供全套解决方案的公司如中大力德 绿的谐波等更具优势 [7] AI智能体能力增长 - AI智能体能力正呈现爆炸式增长 任务处理能力加速 2024-2025年间预计每4个月翻一番 2019-2025年翻倍周期为7个月 [7][9] - 形成新的"AI智能体摩尔定律" 任务时长和复杂度呈指数增长 2019年GPT-2处理不到1秒简单任务 2022年ChatGPT处理30秒编程任务 当前顶尖AI系统已能完成人类一小时编程任务 [7] - 按每4个月翻倍趋势 AI在2027年可能完成一个月级别任务 推动智能体能力爆发 [7] - 正反馈循环可能触发"软件智能爆炸" AI能力极短时间内超越人类水平 导致超指数级增长 影响软件开发 科学研究 医疗诊断等领域 自动化完成复杂任务大幅提升生产效率 [9] 特朗普汽车关税政策 - 特朗普签署公告允许对进口汽车零部件及在美组装汽车的生产商提供一定程度补偿 [10] - 特朗普政府加大对进口汽车及零部件关税 美国汽车产业供应链可能面临进一步调整 投资者应关注受影响汽车零部件制造商及相关企业股价波动 [10]
通信行业周报:北美云厂商业绩验证AI商业化加速,算力投资景气延续
国金证券· 2025-05-05 11:23
报告行业投资评级 未提及 报告的核心观点 - 微软与Meta财报验证AI商业化加速、算力投资高景气,上游光模块、服务器、连接器等行业需求有望高增长 [1] - 受益于AI需求和互联网厂商资本开支增长,服务器、连接器等龙头公司业绩亮眼,看好交换机板块业绩触底回升 [1] - 国内大模型迭代,落地应用有望加速 [1] 细分行业观点 服务器 - 1Q25服务器板块指数略有回调,因英伟达GB200交货延迟、客户采购决策延后及AI服务器毛利率承压 [2][6] - 微软与Meta财报验证AI商业化加速,各大云服务商加码AI投入,工业富联营收净利创新高 [6] - 中长期增长逻辑未改,2Q25服务器指数有望反弹,关注华为、寒武纪产业链及工业富联等龙头 [7] 交换机 - 2024年以太网交换机市场结构性分化,数通交换机向高速率升级,白盒受青睐,网通交换机毛利率承压 [2][10] - 建议关注高技术壁垒、国产替代(紫光股份、锐捷网络)和业绩反转弹性(共进股份)两条主线 [11] 光模块 - 关税影响趋弱,板块部分反弹修复,1Q25营收同比增48%,华为发布集群强化其战略地位 [3][12] - 市场信心恢复,板块或将迎来超跌后部分修复 [3][12] 连接器 - AI算力驱动数据中心高密度连接需求释放,MPO及AEC成核心增量赛道 [3][17] - 太辰光、博创科技业绩亮眼,建议关注MPO和高速铜缆主线 [3][17] 核心数据更新 运营商 - 2025年一季度,三家运营商电信主营业务收入累计4469亿元,同比增长0.7% [4][18] - 新兴业务2024年12月收入396亿元,同比增长66.39% [18] 光模块 - 2025年1 - 3月光模块出口数据增长,3月当月同比增长19.60%,1 - 3月累计同比增长3.18% [4][33] 物联网 - 截至2025年3月末,移动物联网终端用户数达27.28亿户,同比增长13.2% [37] - 2023年蜂窝模组出货量同比下降2%,24年Q4出货量恢复增长,同比提升10% [37] 本周行情 - 通信板块涨跌幅为0.59%,排名全行业第25 [44] - 涨幅前五公司为博创科技、平治信息、万隆光电、蜂助手、德科立,跌幅前五为亿通科技、武汉凡谷、华脉科技、精伦电子、菲菱科思 [47] 本周重要新闻 行业新闻 - 中国信通院等启动“IP自智网络配置变更智能体先锋行动”,助力ICT行业智能化转型 [51] - 中国移动发布多项成果,实施“AI+”行动计划 [51] - 中国电信发布星辰行业Agent平台等 [52] - 我国形成完整人工智能产业体系 [52] - 2024年中国Maas市场规模达7.1亿元,预计2029年达90亿元,AI大模型解决方案市场规模2024年达34.9亿元,预计2029年达306亿元 [53] - 未来低空经济有六大趋势,2030年我国将至少诞生100多家eVTOL企业 [53] 公司新闻 - 工业富联2024年营收6091亿元,净利润232亿元,2025年一季度营收和净利润同比增长 [54] - 紫光股份2024年营收790.24亿元,2025年一季度营收同比增长22.25% [55] - 锐捷网络2025年一季度营收25.36亿元,净利润1.07亿元,同比大幅增长 [55] - 共进股份2025年一季度营收20.51亿元,净利润同比增长267.63% [56] 海内外大厂重点跟踪 - 腾讯向字节跳动购买约20亿元GPU算力资源 [57] - DeepSeek发布DeepSeek - Prover - V2 - 671B模型 [58] - 阿里巴巴通义千问发布新版Qwen3系列模型 [58] - 小米推出开源大模型MiMo [59] - OpenAI更新ChatGPT Search,打造“全能型应用” [60] - 美国司法部要求拆分谷歌广告科技运营业务 [61] - 微软2025财年第三财季营收701亿美元,净利润258亿美元,云业务超预期 [62] - Meta一季度营收423.1亿美元,净利润166.4亿美元,上调全年资本支出 [63][64] - 亚马逊一季度营收1557亿美元,经营利润184亿美元,AWS业务逊于预期 [64]
向AI电商领域进军,ChatGPT搜索上线购物推荐功能
观察者网· 2025-04-29 12:25
产品功能更新 - 人工智能公司OpenAI宣布更新网络搜索工具ChatGPT Search,新增购物推荐功能以改善用户在线购物体验 [1] - 购物推荐功能目前覆盖时尚、美妆、家居用品和电子产品等少数类别,未来计划纳入更多商品类别 [1] - 该功能向全球付费、免费及未登录访客用户开放,推荐机制基于用户评价、讨论重点及产品优缺点分析,而非传统算法信号 [3] 技术实现与用户体验 - ChatGPT将记住用户历史行为,结合多网络渠道产品评论以提供高度个性化商品推荐 [3] - 公司计划为Pro和Plus用户整合记忆功能与购物功能,进一步提升服务体验 [3] - 当前服务不支持应用内结账,用户需跳转至商家网站完成交易 [3] 商业模式与竞争策略 - OpenAI暂未对通过ChatGPT的购买行为收费,也未明确链接推广营销的分成收益模式 [3] - 公司表示首要任务是提供高质量推荐,未来将探索多种合作模式 [3] - 此次更新是OpenAI与谷歌竞争的措施之一,旨在通过更个性化的互联网产品提升用户体验 [4] 行业竞争格局 - AI搜索领域竞争加剧,尤其在在线购物方向,OpenAI此前通过AI代理平台Operator开发类似功能 [4] - 竞争对手Perplexity已于去年底推出"Buy with Pro"功能,支持应用内直接购物 [4] - ChatGPT Search于2024年10月31日上线,12月16日全面开放,直接对标谷歌同期发布的Gemini 2.0模型 [4]