Workflow
Claude
icon
搜索文档
腾讯研究院AI速递 20260319
腾讯研究院· 2026-03-19 00:06
生成式AI - **OpenAI发布轻量级模型GPT-5.4 mini和nano,性价比显著提升**:GPT-5.4 mini在SWE-Bench Pro编码测试中得分达54.4%,仅比满血版低3.3%,在计算机使用OSWorld测试中达72.1%媲美旗舰版;其输入价格为每百万token 0.75美元,输出价格为4.5美元,仅为GPT-5.4价格的1/3;GPT-5.4 nano价格更低至输入每百万token 0.2美元,输出1.25美元,并已向ChatGPT免费用户开放 [1] - **OpenAI提出子智能体架构,优化资源使用**:公司提出“大模型决策+小模型执行”的子智能体架构,GPT-5.4 mini在Codex中仅消耗旗舰版配额的30%,尽管长上下文处理仍是短板,但分层调度思路正成为行业共识 [1] - **Anthropic推出跨设备Agent功能Dispatch**:通过Cowork新功能Dispatch,用户可通过手机扫码配对远程指挥Mac上的Claude操作电脑,实现从“盯着AI干”到“AI自己干”的跨设备Agent跃迁 [2] - **Dispatch功能实测表现与部署策略**:MacStories实测综合成功率约50%,能完成文件查找、Notion操作、邮件总结等任务,但打开应用、跨应用发送和Safari操作仍失败;该功能目前仅面向Max订阅用户,所有操作在本地Mac执行不经过云端,手机仅作为遥控器,与此前面向程序员的Claude Code Remote Control形成双线布局,覆盖GUI桌面和命令行两大场景 [2] - **MiniMax发布首个深度参与自我迭代的大模型M2.7**:M2.7是首个模型深度参与自身迭代的模型,能自主构建RL Harness、更新记忆、驱动强化学习并优化过程,在内部脚手架上自主迭代超100轮实现30%效果提升 [3] - **M2.7在多项专业测试中表现优异并支持多智能体协作**:模型在SWE-Pro编码测试中得分56.22%接近Opus水平,VIBE-Pro端到端项目交付测试得分55.6%,支持原生Agent Teams多智能体协作,40个复杂skills保持97%遵循率;在GDPval-AA专业办公ELO测试中得分1500为开源最高,可自主完成从研报分析、营收建模到PPT/Word/Excel全套交付,公司同步开源了互动娱乐框架OpenRoom [3] - **腾讯QClaw进行重大更新,降低使用门槛**:微信入口从客服号升级为小程序,支持直接接收电脑端文件,即将支持语音、图片等多模态交互;全新上线“灵感广场”功能,围绕办公提效、深度研究、娱乐游戏等场景预置常用任务和skills,用户无需编写指令即可一键运行 [4] - **QClaw基于OpenClaw封装并计划扩展功能**:该产品基于OpenClaw进行极简封装,主打下载即用的零门槛体验,后续将支持通过小程序创建定时任务、实时接收消息、远程切换底层模型等能力 [4] - **LiblibAI推出同时面向人与Agent的AI视频创作平台LibTV**:该平台同时为人类创作者提供无限画布专业工具和为Agent提供Skill接口,支持从剧本到成片的全流程闭环创作 [5][6] - **LibTV上线多项独家AI能力并实现高性价比**:一次性上线20多个独家AI能力,包括角色三视图、360度角度呈现、多机位9宫格、大师运镜、视频精准编辑等专业控制功能;已发布OpenClaw适配的Skill,Agent可一句话完成从剧本生成到视频剪辑全流程,平台集成可灵3.0等顶级模型,定价比竞品低最高达92% [6] 前沿科技 - **2025年图灵奖授予量子信息科学奠基人**:ACM将2025年图灵奖授予Charles Bennett和Gilles Brassard,表彰二人创建量子信息科学基础,这是图灵奖首次颁给与量子物理直接相关的研究 [7] - **获奖者贡献奠定了量子通信与互联网的基石**:两人于1984年提出的BB84量子密码协议,其安全性直接根植于量子力学定律而非数学假设;1993年又证明量子隐形传态可行,奠定了量子互联网的技术基石 [7] - **量子信息领域从边缘想法发展为战略领域**:二人合作始于1979年,历经四十余年将量子信息从边缘想法发展为拥有完整学科体系和国家战略的领域,BB84协议的变体已在全球量子通信网络中实际部署 [7] 报告观点 - **Anthropic内部Skill构建已形成体系化经验**:公司Claude Code团队内部已积累数百个活跃Skills,并将其归纳为9大类型,包括库和API参考、产品验证、数据获取分析、业务流程自动化等 [8] - **Skill构建的核心最佳实践**:核心经验包括将Skill视为文件夹而非单个Markdown文件,利用文件系统实现渐进式信息披露;内容应聚焦“常见坑”专区而非陈述显而易见的知识;给予方向而非剧本避免过度约束 [8] - **推荐实现Skill记忆与效果衡量的方法**:推荐使用日志文件或SQLite实现Skill记忆能力,通过PreToolUse Hook记录调用日志来衡量效果,并建议团队建立内部插件市场以实现Skills的发现与分发 [8] 行业动态与战略 - **月之暗面提出重构Transformer底层技术路线**:公司创始人杨植麟认为单纯堆算力不够,需对优化器、注意力机制和残差连接等底层基石进行重构,推出的Kimi Linear和Attention Residuals方案获得Karpathy和马斯克高度评价 [9] - **月之暗面将Kimi进化逻辑归纳为三个维度并实现高估值增长**:公司将Kimi进化逻辑归纳为Token效率、长上下文和智能体集群三个维度的共振,K2.5通过Orchestrator机制将复杂任务拆解给数十个子Agent并行处理;公司估值从去年底的43亿美元在不到半年内跳涨至180亿美元,正进行10亿美元融资,并计划继续开源MuonClip、Kimi Linear等底层创新 [9] - **英伟达CEO黄仁勋对AI影响持乐观态度并发布新产品**:黄仁勋表示AI不会让人失业,反而会让人更忙碌,因为30分钟完成过去一个月的工作意味着人们将持续处于执行关键任务中 [10] - **英伟达发布新一代产品并大幅上调收入预期**:公司发布Rubin架构的7颗芯片和5个机架等新品,将加速芯片收入预期提至1万亿美元;展望10年后,公司员工将从4.2万增至7.5万,并配备750万个全天候工作的智能体 [11] - **英伟达高度看好OpenClaw生态**:黄仁勋高度看好OpenClaw,称其为开源代理式AI标准,类比Linux生态将持续获得全球开发者贡献,英伟达已针对性推出NemoClaw软件栈 [11]
OpenAI新模型Day0就被嫌弃!排名拉垮,不如一月底发布的国产模型
量子位· 2026-03-18 17:18
文章核心观点 - 文章对OpenAI新发布的GPT-5.4 mini和nano模型进行了全面评测,核心观点是:尽管新模型在特定任务上相比前代有性能提升和速度优势,但其在综合基准测试中的排名并不突出,且与竞争对手相比,在性价比和部分性能上存在劣势,市场初期反响平平 [1][2][43] GPT-5.4 mini/nano 模型的市场定位与性能表现 - 新模型主打**快速和经济**,专门针对**编程、计算机操作、多模态理解以及子代理(subagent)** 进行了优化 [8] - 相比前代GPT-5 mini,新版mini和nano在性能上有提升,同时**运行速度提升超过两倍** [9] - 在多个专业评测中,mini/nano模型与满血版GPT-5.4的差距已经不大,性能上也基本与谷歌、Anthropic的轻量模型持平 [10] - 例如,在SWE-Bench Pro(软件工程)测试中,GPT-5.4得分为57.7%,GPT-5.4 mini为54.4%,GPT-5.4 nano为52.4%,而GPT-5 mini为45.7% [10] - 在OSWorld-Verified(计算机使用)测试中,GPT-5.4为75.0%,GPT-5.4 mini为72.1% [10][25] - **GPT-5.4 nano**是系列中最小、最经济的版本,适合速度和成本敏感的任务,如分类、数据提取、排序及简单的辅助编程任务 [13] - 这两个新模型适合延迟直接影响产品体验的工作负载,例如**编码助手、子代理、屏幕截图解析、多模态应用** [14][15] 模型在综合基准测试中的排名与竞争对比 - 根据公开的大语言模型评测基准Vals,GPT-5.4 mini在**综合排名中仅位列第13名**,其准确率为57.88% ± 1.97,优于OpenAI半年前发布的GPT-5(排名第16,准确率56.10% ± 2.00)[2][3] - 在**拓扑证明**测试中,GPT-5.4 mini和nano的表现中规中矩,分别排行第九和第十,不如早前发布的Kimi、Qwen、DeepSeek等模型 [4] - 具体得分:GPT-5.4 mini为26分(第9名),GPT-5.4 nano为23分(第10名)[5] - 横向对比显示,竞争对手模型在性价比上可能更具优势 - 有网友指出,排行第12的Kimi 2.5比新出的5.4 mini**便宜一倍多,延迟还更低** [4] - 在AI Benchy Compare评测中,Gemini 3.1 Flash Lite的**综合得分(8.10)和成本效益**均显著优于GPT-5.4 mini和nano [18] - GPT-5.4 nano成本效益(Cost Per Result)为0.769,总成本(TOTAL COST)为$0.077;GPT-5.4 mini成本效益为3.610,总成本为$0.289;而Gemini 3.1 Flash Lite成本效益为0.413,总成本仅为$0.0507 [18] 模型定价策略与成本效益分析 - OpenAI官方表示,在输出tokens上,性能近似的mini版本比GPT-5.4**便宜三倍**,nano版本则**便宜十二倍** [6] - 然而,若与旧版GPT-5 mini对比,同为mini档的模型,**价格却上涨了大约三倍** [6] - **GPT-5.4 mini定价**:输入每百万tokens $0.75,输出每百万tokens $4.50 [7][16] - **GPT-5.4 nano定价**:输入每百万tokens $0.20,输出每百万tokens $1.25 [7][16] - **GPT-5 mini定价**:输入每百万tokens $0.25,输出每百万tokens $2.00 [7] - 在实际任务中,nano模型展现出显著的成本节省 - 在**分类任务**中,nano准确率达70%,成本比GPT-5.4**降低十二倍**;调用超过一万次时,GPT-5.4花费约20.30美元,GPT-5.4 nano仅花费1.64美元,**节省幅度约91.9%** [29][31] - 在**翻译任务**中,nano得分55分(GPT-5.4为63分),超万次调用后**节省幅度仍达到91.3%** [32] - 在**写作任务**中,mini版本成本比满血版**低约六成**;超1万次调用时,mini花费29.61美元,nano仅花费10.30美元 [34] - 在**图片描述任务**中,nano模型使用2751个输入tokens和112个输出tokens,**费用仅为0.069美分** [38] 模型在特定应用场景下的实际表现 - 在**编程和Agent任务**中,新模型能够低延迟完成代码修改、调试循环和库导航,快速迭代 [19][20] - 在**子代理场景**中,开发者可将较小任务并行委派给mini子代理(如搜索代码库、处理文档),随着小型模型速度提升,这种模式价值凸显 [23] - 在**计算机操作和多模态任务**中,mini能够快速解析复杂用户界面截图,高效完成操作任务 [24] - 在**创意任务**上,如生成SVG图,nano和mini与满血版GPT-5.4仍有差距,但完成基础创作任务完全可行 [39] - 有用户实际测试后给予高度评价,认为在一些真实场景任务中,新模型**更便宜、更快、也更好用** [28] 行业与市场反应 - 文章指出,在当前的“龙虾热”(行业热潮)中,**全球所有模型厂家都在涨价**,OpenAI也不例外 [7] - 不少网友对新模型持保留态度,认为对比基准是老版本,而非其他厂家的新模型,甚至直言换新“**还真没必要**” [5] - OpenAI总裁发布新模型的评论区,最火热的讨论并非关于模型能力或价格,而是刷屏要求“**让4o回来!**” [45][47]
一家杭州公司,火了
投中网· 2026-03-18 15:11
文章核心观点 - 近期关于AI深度参与军事行动的爆款文章(如《AI杀死了哈梅内伊》)内容不实,但反映了市场对人工智能应用场景的高预期与当前实际产出稀缺之间的“集体焦虑” [4][5] - 一家中国AI创业公司“靖安科技”因宣称提前预警美军军事行动而受到关注,并被类比为“中国版Palantir”,文章通过对比Palantir与靖安科技,探讨了成为“中国版Palantir”所需的条件及面临的挑战 [6][14][23] - Palantir本质上是一家国防安全领域的软件系统开发商,其人工智能能力(如AIP平台)近年才被强化,且在实战中的决策作用仍存疑,其成功依赖于特定历史机遇、创始人资源及长期巨额投入 [7][9][10][12][13][23][24] - 靖安科技在业务定位、数据处理及AI应用上与Palantir有相似之处,但作为“AI原生”公司更为激进,其发展得益于中国特有的产业基础、政策扶持及“市场化基金-国有资本-产业基金”的融资支持体系,可能打破Palantir的成长路径依赖 [15][16][17][21][25][26] Palantir公司分析 - **公司定位与起源**:Palantir成立于2003年,由彼得·蒂尔投资3000万美元创立,核心是国防安全领域的软件系统开发商,而非纯AI公司,业务包括为移民局、海关、FBI、CIA等政府机构提供数据系统服务 [7] - **核心产品与技术演进**: - 早期产品Palantir Gotham(2008年发布)基于大数据分析,用于预测犯罪和战场威胁(如识别简易爆炸装置),本质是高效的数据整合与关联分析工具 [8] - 人工智能平台AIP于2023年4月首次展示,能协助分析敌军信息、提供打击方案,据称将过去耗时6小时的军事行动压缩至2到3分钟,但其底层仍基于GPT-4等大模型,存在“幻觉”等通病 [9][10] - 新一代系统Palantir Titan(2024年开发)旨在通过AI融合太空、空中等多层数据,但具体战果未明,其在实战中的决策角色尚未得到证实 [10][12] - **商业模式与挑战**: - 收入高度依赖政府合同,美国政府合同贡献其年收入(约45亿美元)的42% [23] - 研发投入巨大且周期长,例如Palantir Maven项目研发周期达6年,公司年研发成本超5亿美元 [24] - 与Anthropic的Claude大模型存在战略合作,但Claude被用于军事行动引发合作方不满,也侧面反映其AI赋能效果未达预期 [12][13] 靖安科技公司分析 - **事件与产品能力**:公司宣称其AI产品提前53天预警了美军对伊朗的军事行动,预警过程分为两阶段:1)通过“六维度加权评分法”量化计算冲突爆发概率;2)通过AI分析全球船舶、航班、卫星影像等多源数据,监测到异常军事部署(如14架C-15运输机动向、波斯湾侦察飞行架次增至去年同期233%),最终将冲突风险评估上调至40%-60%高风险区间 [15][16] - **公司定位与产品线**:自称为“新一代国防科技提供商”,核心是数据、算法及软件平台,产品包括“旌旗·全球态势感知系统”、“牍术”(无人装备智能引擎)、“哨兵”(智能哨兵防御系统)、“谛听”(智能情报研判工具) [17] - **“AI原生”特质**:公司官网设有“赛博灵堂”,祭奠“人类程序员编写的最后一行代码”,宣称自2026年1月19日起AI将接管所有代码,体现出比Palantir更激进的AI公司定位 [20][21] - **发展背景与融资路径**: - 创始团队多来自阿里云、达摩院、百度等头部科技公司 [25] - 成立初期即获政策支持,如2021年入选杭州未来科技城重点扶持项目,获最高600万研发补助及150万租金补助 [25] - 融资历程显示其享有“中国式”支持:自2021年起至少完成5轮融资,投资方包括红杉中国、元禾原点等市场化基金,浙江产投、余杭国投等国资平台,以及景嘉微等产业资本,形成“市场化基金孵化—国有资本兜底—产业基金助商业落地”的路径 [26] 行业与投资逻辑分析 - **市场预期与现实差距**:当前AI行业存在“集体焦虑”,市场对AI应用(尤其在军事等高阶场景)的庞大预期远超其目前能真实产出的应用场景 [5] - **“中国版Palantir”的要素**:需同时具备1)国防安全领域业务聚焦;2)强大数据处理能力;3)在数据处理基础上加入AI,拥有主动建议、预测及参与决策的“智能”能力 [15] - **创业公司面临的普遍挑战**:成为“新Palantir”极其困难,因其成功依赖于911后反恐高潮的历史机遇、创始人彼得·蒂尔的独特资源、以及承受长达10年以上研发周期与巨额投入(如年研发成本超5亿美元)的耐心与实力 [23][24][25] - **中国市场的特殊性**:中国庞大的产业基础、剧变的国际地缘环境及产业政策(如“中国制造2025”)可能打破既有经验,为类似靖安科技的公司提供独特发展环境,包括更顺畅的融资次序和政策扶持 [25][26]
月薪3万,AI大厂正在「疯抢」文科生?
36氪· 2026-03-18 08:20
文章核心观点 - AI技术的发展正在重塑就业市场,一方面取代了传统的文书、行政等基础文科岗位,另一方面却在AI行业内部创造了对人文社科学科背景人才的新需求,为文科生提供了新的高价值职业路径 [5][6][8][11] - 尽管AI创造了新的文科岗位,但这些岗位并非“铁饭碗”,AI技术的快速迭代可能导致从业者被自己训练的系统所取代,人文社科从业者的核心价值最终可能在于其不可替代的人类特质,如批判性思维、伦理反思和共情能力 [49][54][78][80] AI时代文科就业的新机遇 - **行业领袖观点**:360公司创始人周鸿祎提出,AI发展将产生大量需要管理的智能体和复杂社会问题,这使得具备人文社科知识、管理及表达能力的文科生比理科生更吃香,而许多程序员的工作可能被AI取代 [6][7] - **高薪新兴职业**:在硅谷,AI浪潮催生了“首席讲故事官”等新职业,年薪约30万美金(约合人民币200万元),其本质是AI时代的公关经理,负责将技术进展包装成易于传播的叙事 [9][10][45][47] - **AI公司高管背景**:多家顶级AI公司的高管或创始团队具有深厚的文科背景,例如Palantir CEO亚历克斯·卡普修读法学与社会理论,OpenAI/Anthropic前高管杰克·克拉克主修英国文学和新闻学,DeepMind联合创始人穆斯塔法·苏莱曼研习哲学与神学 [17][19] - **核心岗位需求**:AI公司内部出现了如“AI大模型评估专家(写作方向)”、“AI叙事设计师”、“AI训练师”等新岗位,明确招聘中文、编剧、社会学、新闻学等专业人才,工作核心是赋予AI模型更人性化的表达和价值观 [39][42] - **跨学科人才受青睐**:兼具代码能力与语言艺术理解力的跨学科人才在AI时代极具竞争力,例如Anthropic公司明确偏爱有社科素养和情商的应聘者 [30][35][43] 文科背景在AI领域的实践案例 - **Anthropic案例**:该公司联合创始人丹妮拉·阿莫迪拥有英文文学背景,她领导AI安全和模型对齐团队,为Claude模型制定规则并进行“道德教育”,她认为人文学科训练的批判性思维、处理模糊问题及沟通技巧对优化大语言模型至关重要 [21][22][25][26][27] - **具体职能体现**:Anthropic的员工雅曼达通过撰写长达3万字的“AI宪法”,塑造了Claude模型的“谈吐和善恶观”,展示了文科背景在优化AI行为中的直接作用 [32][34] - **国内案例**:从阿里巴巴AI团队出走的林俊旸,本科为英语专业,硕士为语言学专业,其背景被视为文理交叉的典范 [37] AI对文科就业的冲击与风险 - **传统岗位被取代**:企业倾向于用AI取代从事客服、行政、文书、会计等工作的员工,导致了“文科大撤退”的现象 [8][15] - **新岗位的不可持续性**:AI的快速学习能力可能导致“教会AI徒弟,饿死人类师傅”,即人类训练师最终被自己优化的AI所取代 [54][55] - **行业裁员实例**:在数据标注等基础环节,马斯克的xAI公司在2023年9月裁掉了500名数据标注员;同期,Scale AI公司也与基础标注团队解约 [56][58] - **专业白领被替代**:有55岁的学术编辑在不知情的情况下培训AI,最终该AI被设计用来取代她的职位;AI猎头公司Mercor雇佣高技能失业者(如电影专家、作家)训练大模型,日薪几十美元,但需出售其当前及未来的知识产权,这些专家最终可能成为AI的“养料” [60][61][64][65][68] - **终极职业风险**:牛津大学的研究指出,未来人文社科相关职业保留人类角色的一个可能原因,是需要有人为AI系统的决策承担道德与法律责任 [70][72] 人文社科在AI时代的长期价值 - **不可替代的人类内核**:面对AI的高效解构,人文社科从业者的核心价值在于对变革世界的感知、对社会伦理的实时反思、对人类困境的悲悯与共情,这些是AI暂时无法企及的领域 [79][80] - **历史参照与未来展望**:如同摄影术未杀死绘画而是催生了现代艺术,AI在取代传统岗位的同时,也可能迫使文科领域找到新的存在形式和发展方向 [73][74][75] - **最终定位**:在AI高度智能的世界里,“使人成为人的东西”将变得更加重要,这构成了人类人文大厦最后的“承重墙” [83][84]
SailPoint launches Shadow AI Remediation to empower enterprises with real-time visibility and control over AI usage
Globenewswire· 2026-03-17 21:00
公司产品发布 - 公司SailPoint于2026年3月17日宣布推出新产品“SailPoint Shadow AI Remediation” [1] - 该产品是其实时AI治理与安全框架的下一个主要组成部分 旨在帮助组织发现、监控和保护未经授权的AI工具(即“影子AI”)的使用 [1] - 该解决方案通过简单的浏览器扩展进行部署 无需网络或基础设施更新 对最终用户体验影响最小 [5] 产品功能与特点 - 提供对员工使用未受监控AI工具方式的实时可见性 包括监控文档上传和交互频率 [2] - 使安全团队能够通过阻止未经授权的上传、将用户重定向至经批准的AI工具或要求其提供业务理由 来主动防止滥用 [5] - 通过将AI工具使用活动集成到公司的身份安全云中 丰富身份图谱 为访问和风险决策添加上下文 [3] 行业背景与问题阐述 - 员工越来越多地使用ChatGPT、Claude、Gemini等AI平台提高生产力 但常绕过已批准的IT渠道 形成“影子AI” [2] - “影子AI”为企业带来了关键挑战 造成了显著的安全盲点 并使安全领导者对员工如何使用这些平台失去控制 [2] - 根据公司近期发布的报告 80%的组织报告其AI代理执行过非预期的操作 例如访问或共享不当数据 [2] 公司战略与市场定位 - 公司认为控制AI使用的最佳方式是通过以平台为中心的方法 实时统一身份、数据和安全智能 [3] - 公司的实时AI治理与安全框架统一了代理身份安全、机器身份安全、数据访问安全以及新推出的影子AI治理 提供全面的AI安全方案 [3] - 公司将其平台方法定位为通过关联人类与非人类身份、数据及安全智能 独特地帮助企业应对AI安全的复杂性 [3]
梁文锋推迟V4,是为了根治龙虾的健忘症?
虎嗅APP· 2026-03-17 08:08
DeepSeek V4的发布策略与核心能力 - 面对行业在春节期间扎堆发布新版本,公司选择不急于发布半成品,而是追求产品成熟后再推出[4][5][6] - 公司CEO的决策依据在于团队稳定、技术底子厚,不会草率发布[7] - 外媒报道V4将是架构级重构,包含1万亿参数、百万上下文、原生多模态,并预计于4月份发布[7] - 此次迭代的核心是名为LTM的长期记忆系统,旨在从模型架构内部实现持久化记忆,让AI能跨对话和任务记住用户信息与偏好[8] - 公司意图通过架构层面的原生记忆解决行业现有方案的根本缺陷,而非依赖外部中间件[10][11] - 公司的产品哲学是追求发布即“王炸”,正如其R1产品曾凭借过硬实力获得成功[14][15] LTM技术路径与行业痛点 - 当前AI在替人干活时,对上下文的理解和记忆能力已成为决定其可用性的底线,而非加分项[17] - 现有主流记忆方案均为在模型外部运行的外挂系统或中间件,存在共同天花板[20] - 外部记忆方案导致记忆质量取决于工程水平,且需通过上下文窗口注入,会带来高昂的token成本,模型也无法在外部记忆上进行真正的“学习”[21] - 公司基于Engram论文的研究方向是将记忆能力直接嵌入Transformer架构本身,开辟专用的条件记忆空间[22] - Engram方案使用O(1)的哈希查找存取知识,调用时不占用上下文窗口容量,也不增加推理计算成本,且记忆空间容量可近乎无限扩展[22] - 该技术路径旨在跳过“外挂记忆”范式,直接进入“原生记忆”时代,解决现有AI“有手脚却没记事大脑”的问题[23] 对标产品OpenClaw的记忆系统缺陷 - OpenClaw的记忆系统存在三个结构性缺陷:压缩损耗、检索失效和记忆容量上限[24] - 压缩损耗指为腾出上下文空间而将旧对话压缩成摘要时,会丢失对话脉络、推理链条等关键信息,且不可逆[25][26][27] - 检索失效指依赖向量相似度检索无法理解条目间的逻辑关系,可能导致召回错误或遗漏关键信息[28] - 记忆容量存在硬性上限,核心记忆文件有字符数限制,日志记忆的检索质量则依赖模型自身判断,容易丢失重要信息[29][30] - 这些问题的根源在于有限的上下文窗口,导致记忆体验如同“抄了一堆笔记然后翻不到”[30] 上下文学习能力的行业现状与价值 - 腾讯CL-bench基准测试显示,所有前沿模型从上下文中“现学现用”的平均正确率仅为17.2%[33][34] - 表现最好的GPT-5.1正确率也只有23.7%,意味着AI有超过八成的概率未能真正学会所给材料[34] - 研究认为,当前AI与真正智能的鸿沟在于学习能力,而非知识储备量[34] - 如何记忆以及能否“用好上下文”被视为大模型迈向高价值应用的核心瓶颈,并可能成为2026年的核心主题[34] - 上下文学习与记忆的可靠性是实现模型自主学习的关键一步[34] DeepSeek面临的主要竞争短板 - **多模态能力**:公司目前仍是纯文本模型,缺乏通用的视觉、音频和视频理解能力[39][40] - 公司发布的OCR 2模型虽在文档解析基准上表现出色,但仅是“图像→文本”的单向转换,与通用多模态理解存在代际差距[41][42] - 竞争对手如字节的Seedance 2.0和GPT-5.4已进入“全模态”时代,证明了多模态的巨大潜力[43] - **智能体能力**:行业正迈向智能体时代,竞争对手如Kimi、ChatGPT、Claude均已推出能处理复杂任务、调度多智能体的功能[46] - **AI编程能力**:在SWE-bench Verified基准上,公司V3.2得分73.1%,低于Claude Opus 4.6的80.8%和GPT-5.3 Codex的约80%[48] - 在更难的SWE-bench Pro基准上,V3.2得分40.9%,远低于GPT-5.4的57.7%[49] - 行业已从“氛围编程”进化到“智能体工程”,要求AI能独立完成工程级任务[49] - **AI搜索能力**:公司的搜索能力是短板,且结果经常出现幻觉[51] - Vectara测试显示,R1的幻觉率高达14.3%,是V3的3.9%的近四倍[52] - 在学术引用检索测试中,其错误率高达91.43%,包括捏造论文标题、虚构DOI等[52] - 搜索短板源于缺乏自有搜索基础设施依赖第三方接口以及模型事实校验能力不足[54] - 在智能体时代,可靠的搜索是必选项而非加分项[55]
哈佛新研究:过度使用AI会“烧脑”,14%用户出现认知过载
量子位· 2026-03-17 06:12
AI过度使用导致的认知疲劳现象与影响 - 过度使用AI工具会导致用户出现“认知过载”和“精神疲劳”,而非简单的职业倦怠,这被形象地称为“AI烧脑” [3][5][14] - 哈佛一项针对近1500名员工的调查显示,14%的受访者因AI出现了注意力难以集中、决策能力下降及头痛等明显症状 [12][13] - 这种现象源于“碳基生物跟不上硅基文明速度”,本质是认知降维打击下的压力过载,尤其在高强度监管AI工作的员工中更为普遍 [4][5][15] AI导致认知疲劳的具体机制 - **监管负担**:高强度监管AI工作的员工,比低程度监管的员工多耗费14%的脑力及额外12%的精神疲劳,信息过载可能性增加19% [17] - **工具泛滥**:同时使用过多AI工具会增加认知切换成本,打断心流状态,当使用工具超过3个时,生产力反而会下降 [19][20] - **工作性质变化**:AI推动工作量剧增并扩大职责范围,员工需在短期内关注更多任务成果,加剧了认知负荷 [18] - **悖论效应**:AI在分担重复性工作时可减少工作疲惫感,但在涉及监控AI系统或操作多种工具时,会急剧增加精神压力 [23] 认知疲劳对个人与企业的负面影响 - **决策质量下降**:认知负荷过重的员工出现决策疲劳的概率高出33%,对一家年收入50亿美元的公司可能造成每年数百万美元的损失 [25] - **工作错误率上升**:经历“AI脑震荡”的员工,出现轻微错误的概率多出11%,重大错误频率则高出39% [26] - **人才流失风险**:在报告有类似症状的员工中,表现出积极离职意愿的比例为34%,高于未报告症状员工的25% [27] - **深度使用者风险**:最积极拥抱AI、喜欢多工具叠加和构建复杂工作流的员工,更容易出现“AI烧脑”现象 [28][29] 缓解认知疲劳与实现人机平衡的建议 - **优化工作流程设计**:企业应有组织地将AI融入工作流程,而非简单叠加,以降低团队精神压力 [30][31] - **设定合理监管密度**:避免给员工同时叠加过多AI Agent,研究指出同时使用不超过3个工具为宜,并需明确AI带来的工作量变化 [33] - **培养高阶思维能力**:企业应集中提升员工定义问题、规划分析和优先级判断的能力,而非盲目进行AI迭代工作 [34][35] - **战略性管理注意力**:企业需像管理算力一样统筹员工有限的认知能力,将AI引发的精神疲惫作为新的职业风险进行监控和防范 [36][37] - **工具设计以人为本**:AI工具设计者应最大程度保障用户思维的可持续发展,减少对用户注意力及工作记忆的要求 [38] - **核心理念转变**:工作追求需从“工作与生活平衡”转向实现“人类与AI平衡” [39]
Software Bear Market: 2 Monster Artificial Intelligence (AI) Stocks With up to 70% Upside to Buy Now, According to Wall Street
Yahoo Finance· 2026-03-17 03:05
In late January, artificial intelligence (AI) start-up Anthropic released a suite of new plug-ins for its large language model (LLM) Claude, aimed at the enterprise software industry. Following the release of the Claude Cowork ecosystem, software stocks have been plummeting. While the broader technology sector has lagged 4.5% so far this year, the application software and software infrastructure industries have fallen more dramatically -- declining by 21% and 14%, respectively. Will AI create the world's ...
被315点名的万亿隐秘生意:“污染”DeepSeek
创业邦· 2026-03-16 11:46
文章核心观点 - AI搜索优化(GEO)已成为一个新兴且快速增长的产业,其核心目标是通过优化内容策略,提升品牌信息在AI生成答案中的“存在感”和“出镜率”,从而影响用户决策 [8] - 以DeepSeek为代表的对话式大模型成为新的流量入口,驱动了GEO市场的需求,尤其在中国市场,中小企业正积极尝试通过GEO在AI对话中获取推荐流量 [10][15] - 行业正处于早期发展阶段,参与者包括从SEO转型的公司、专业初创团队以及部分“灰产”商家,长期竞争壁垒在于高质量的内容生成能力,而非短期的技术操纵 [20][22] 行业定义与起源 - GEO(Generative Engine Optimization)概念于2024年6月由印度理工学院和普林斯顿大学的研究者在论文中首次明确,旨在提升品牌在AI生成答案中的“存在感” [8] - 研究发现,通过优化权威表达、关键词布局、数据引用等策略,能让内容在AI回答中的“出镜率”提升高达40% [8] - 该行业被视为搜索广告生意在AI时代的延伸,正迅速获得资本青睐 [8] 市场规模与增长预测 - 2025年,全球GEO市场规模突破420亿元,年复合增长率达87% [10] - 研究机构Gartner预测,2026年传统搜索引擎25%的流量将流向AI工具 [10] - 谷歌“零点击搜索”(用户无需点击搜索结果即可获得答案)占比已达58.5%,凸显搜索行为向AI答案直接呈现转变的趋势 [10] - 根据Profound的数据,目前约10%的推荐流量来自AI对话,预测到2027年该比例将超过50%,届时价值约2.5万亿美元的在线商务将通过AI对话驱动 [18] 主要市场参与者与融资情况 - 以Profound为代表的AI搜索优化公司是行业领先者,该公司一年内融资三次,估值超过1亿美金 [9] - 2025年8月12日,Profound完成3500万美元B轮融资,由红杉资本领投,科斯拉创投、凯鹏华盈及英伟达旗下NVentures跟投 [9] - 本轮融资使其总融资额达到5850万美元,此前于2024年8月获350万美元种子轮融资,2025年6月完成2000万美元A轮融资 [9] - 红杉资本合伙人将Profound的技术潜力与1999年投资谷歌时的颠覆潜力相提并论 [10] - 市场玩家主要分为三类:传统SEO公司、内容营销转型公司、专攻AI搜索的初创团队,以及部分低质铺量的“灰产”商家 [20] 中国市场动态与DeepSeek的影响 - 中国GEO概念的火热很大程度上受DeepSeek爆发的影响,DeepSeek被视为搜索流量的新入口 [10] - 为DeepSeek提供联网搜索的博查家数据显示,自2025年3月,其SearchAPI日均调用量达3000万次,承担国内AI应用约60%的联网搜索请求,约为微软必应搜索量的三分之一 [17] - 国内GEO服务报价差异大,平台每月150-300元一个关键词,海外平台每月300-500美元,而个别服务商报价可达一万元一个词义,保证90天内品牌排名前三 [14] - 餐饮、食品品牌是国内首批自发使用“AI代言”的行业,会在电商页面使用“AI首推”宣传,或在门店放置被DeepSeek推荐的立牌 [15] - 针对DeepSeek做GEO被国内商家视为性价比最高的选择,尤其是其“深度思考”模式推出后 [20] GEO的操作方法与技术逻辑 - 传统SEO优化搜索结果页面排名,而GEO需要优化AI训练数据和知识图谱中的信息,以争夺AI回答中的提及份额 [10][17] - 一种常见的操作逻辑是“用AI生成内容喂AI”:利用企业资料生成不同的“网稿”作为语料,再投放到可触达网站上以便被AI收录 [20] - 惯用流程是根据用户提问需求匹配品牌关键词,支持模糊语义定向,以精准呈现广告信息 [10] - 海外公司如Profound和Brandtech已开发软件,用于监测品牌在ChatGPT、Claude等AI服务中出现的频率 [18] 行业挑战与未来趋势 - 大模型算法不透明,GEO优化如同处于“黑箱”中,需要针对不同模型的偏好定制策略,无法“一套方案走天下” [20] - “灰产”模式通过铺量软文进行优化,可能伤害用户体验并触发模型的反作弊策略,难以为继 [20][22] - 行业长期核心壁垒在于内容生成能力,即帮助企业生产“足量且优质”的有价值信息,补充AI生态的内容供给 [20][22] - 未来AI搜索中是否出现“竞价排名”取决于大模型厂商的选择 [22] - 不同于SEO时代的分散格局,GEO或将加速行业集中,需要有公司对AI时代的营销生态进行补全和适配 [23]
真正的战争AI--Claude只是底层,Palantir在帮美军打仗
美股IPO· 2026-03-16 09:26
Palantir的军事AI系统Maven - Palantir为美国国防部“Project Maven”(算法战跨职能团队)项目开发了核心产品Maven Smart System,该系统自2017年起成为主要承包商[5] - Maven系统可对卫星等“天基资产”图像应用计算机视觉算法,自动识别潜在敌方目标,并内置可视化工具标注和提名打击目标[5] - 该系统具备“AI资产任务推荐器”功能,可建议将特定轰炸机和弹药分配至特定目标,并承担在军事官员间传递目标情报数据和敌情报告的通信功能[5] - Maven系统已部署至美军陆军、空军、太空军、海军、海军陆战队及负责伊朗军事行动的美国中央司令部,正在“整个部门范围内”部署[5] Palantir的AI平台架构与整合 - Palantir通过其人工智能平台将Claude等大型语言模型整合进军事系统,AIP是一个运行于Palantir现有商业产品之上的应用层,为用户提供聊天机器人界面[7] - AIP助手由来自Anthropic、谷歌、Meta等公司的第三方大型语言模型驱动,客户可自行选择模型及模型调用的训练数据源,涉密情报数据可被限定为专属数据源[7] - 在演示中,AIP助手可协助军事操作员完成从无人机侦察到生成三种打击方案的全流程对话操作,并在数秒内给出选项[7] - 分析员可在界面中选择不同的AI模型,Claude与ChatGPT、Meta的Llama并列为可选项[8] Claude在军事系统中的具体应用 - Claude在Palantir的系统中充当聊天机器人的“语言引擎”或“语言层”,负责理解指令并生成响应,而非系统本身[1][4] - Claude被用于生成情报评估报告,例如可生成关于乌克兰无人机打击行动的“高级”分析报告、创建交互式仪表盘、撰写详细分析及行动摘要[9] - 此类报告通常需数小时手动完成,而Claude可在极短时间内生成,有助于分析师发现数据驱动的洞察、识别规律,并在时间敏感情境下支持决策[9] - Claude已在包括伊朗战事在内的多项美军海外行动中被持续使用,并据称在委内瑞拉总统尼古拉斯·马杜罗被捕的军事行动中发挥了关键作用[4][10] Palantir的其他军事数据平台 - 自2022年起,Palantir向美国陆军出售另一套情报平台——陆军情报数据平台,该平台整合了来自Maven及至少另外四个政府系统的数据[6] - AIDP平台具备在军事行动前准备情报、以图形方式呈现部队与武器位置等功能,并内置名为“Dossier”的工具,用于生成持续更新的战场情报估算[6] 行业合作与法律冲突背景 - Palantir在2024年11月宣布与Anthropic建立军事和情报领域合作伙伴关系[9] - 上述系统的曝光发生在Anthropic与五角大楼关系恶化的背景下,2025年2月下旬,Anthropic拒绝向政府提供对Claude模型的无条件访问权限,坚持其系统不应被用于对美国公民的大规模监控或完全自主武器[10] - 五角大楼随即将Anthropic的产品列为“供应链风险”,Anthropic提起两项诉讼,指控该行为构成非法报复[4][10] - 这场争端将外界注意力引向当AI模型开发商与军方在使用边界上存在分歧时,已深度嵌入作战系统的AI技术将如何被约束的问题[10]