Opus 4.6
搜索文档
Claude Mythos官宣!性能碾压Opus 4.6贵5倍,因太危险遭「囚禁」
量子位· 2026-04-08 08:19
Claude Mythos 模型发布与性能 - Anthropic公司发布了其最强模型Claude Mythos的预览版,该模型被描述为“划时代”的模型[1] - 在各项基准测试中,Mythos全方位“碾压”其前代模型Claude Opus 4.6[3] - 具体性能提升包括:在SWE-bench Pro(修bug能力)上提升24%,在SWE-bench Verified(严格版)上提升13%,在Terminal-Bench 2.0(电脑操作类Agent能力)上提升17%[3] Claude Mythos 定价策略 - Mythos预览版的定价远高于Opus 4.6,达到后者的五倍[6] - 输入Token价格为每百万Token 25美元,而Opus 4.6为5美元/MTok[7] - 输出Token价格为每百万Token 125美元,而Opus 4.6为25美元/MTok[7] Claude Mythos 的安全风险与“缺陷” - 该模型存在致命“缺陷”,其发现和利用安全漏洞的能力已远超绝大多数黑客和人类工程师[10][13][14] - Mythos预览版已经发现了数千个高危漏洞,覆盖各大主流操作系统和浏览器[11] - 公司担忧,随着AI能力扩散,这种强大的攻击能力可能被恶意利用,对经济和公共安全构成“灭顶之灾”[16][17] Anthropic的应对措施:玻璃翼计划 - Anthropic采取了“非常反常的举动”,暂时不向公众开放Mythos模型[18][19] - 模型将作为“玻璃翼计划”的一部分,先向选定的合作伙伴开放[20] - 该计划旨在利用Mythos预览版的能力进行防御性安全工作,在模型正式发布前“拉起安全护栏”[23][27] 玻璃翼计划的参与方与投入 - 计划联合了Amazon、Apple、Google、Linux Foundation、Microsoft、NVIDIA等老牌互联网巨头[24][25] - 还额外开放给了40多家关键软件基础设施的建设者和维护者[30] - Anthropic承诺提供最高1亿美元的使用额度来支持这些工作,并向开源安全组织直接捐赠了400万美元[31] 行业影响与紧迫性 - Mythos的发布被认为将“彻底改变网络安全格局”[40] - 防御全球网络基础设施被视作一个可能持续数年的工程,而AI能力可能在接下来几个月就发生明显跃迁[43] - 行业认为,网络安全问题需要前沿AI公司、软件厂商、安全研究员、开源社区、各国政府共同参与解决[42]
AI 季报 26Q1:OpenClaw、OpenAI 与 Anthropic 的三重对阵、自进化丨晚点播客
晚点LatePost· 2026-04-03 11:24
OpenClaw的崛起与AI Agent生态 - OpenClaw是一个开源的个人AI Agent框架,能在60天内其GitHub星数超过前端库React过去10年的累计,周下载量超过165万次[5][9] - 其成功标志着AI从聊天工具转向实际生产力工具,核心突破在于交互范式:它运行在本地电脑,拥有系统权限并能接入飞书、WhatsApp等日常聊天软件,使AI主动融入用户生活,而非用户主动寻找AI[9][10][11] - OpenClaw的流行在中国尤为显著,原因包括用户习惯聊天优先产品、使用Claude等应用受限、对成本敏感,以及其与高性价比国产模型的结合[12] - 它形成了一个模型厂商的新战场,中国公司反应迅速,如智谱推出了专门面向OpenClaw优化的GLM 5 Turbo模型[14][16] - OpenClaw当前存在成本高、稳定性与安全性三大不足,例如在长任务中可能因上下文压缩而丢失关键安全指令[17] - 业界正通过安全加固版本、无损压缩插件、多Agent协作插件及Skill市场等方式完善其体验[18] 头部AI公司的竞争格局演变 - **竞争焦点转移**:行业竞争焦点从纯模型能力(Benchmark跑分)转向产品与生态建设[6][9][30] - **Anthropic的强势崛起**:从2025年12月到2026年3月初,其年度经常性收入从90亿美元增长至190亿美元,增长约100亿美元,其中约75%收入来自B2B API服务,Claude Code在2026年2月的ARR达到25亿美元,已超过Cursor同期的20亿美元[23][24] - **OpenAI与Anthropic的三重竞争**:竞争体现在公司、产品(Codex vs Claude Code)和最新模型(GPT-5.4 vs Opus 4.6)层面[6][24] - **产品体验差异**:Claude Code在开发者意图理解和交流上更聪明,被比喻为负责规划的“主人”,而Codex在纯写代码能力上强,被比喻为负责执行的“奴隶”[25] - **公司战略对比**:Anthropic极为聚焦于编程和企业用户;OpenAI则优势在于庞大的C端用户基础和资金,但注意力分散,其内部已开始反思并减少支线项目投入,聚焦coding和企业服务[26][27] - **其他竞争者动态**:xAI在2026年Q1经历团队震荡,有联合创始人级别人物离职,追赶其他公司面临困难;Google正将AI深度集成进其办公套件,拥有强大的分发能力[28][29] AI模型与成本趋势 - **模型能力收敛与竞争新维度**:GPT-5.4、Opus 4.6及Gemini 3.1的能力差距正在收敛,Benchmark不再是核心差异点,下一阶段竞争关键在于开发者生态、企业信任感(安全合规)以及推理成本[30] - **编程能力成为通用代理基础**:全行业都在All in编程方向,模型的coding能力是担任个人助理类任务的基础,长上下文(如100万Token)和长程任务处理能力成为标配[30] - **推理成本成为关键**:Agent场景需要频繁调用模型,成本差距巨大,例如使用MiniMax的成本仅为使用Claude的5%,每月费用从约200美元降至15美元[14] - **中国开源模型受认可**:在OpenRouter的Token消耗榜上,中国模型如阶跃、MiniMax、Kimi、智谱等占据前列,性价比是核心优势,Cursor使用Kimi的K2.5模型作为基座也体现了对中国开源模型的认可[14][33][34] - **垂直整合趋势**:单纯做模型的厂商面临被“商品化”风险,趋势是从底层模型到上层应用的垂直整合,需要自有产品作为触手来收集真实的用户“轨迹数据”以指导模型优化[31][32] AI自我进化与前沿研究方向 - **Autoresearch展示自进化潜力**:Andrej Karpathy的autoresearch实验让AI Agent自主优化训练代码,在两天内找到20多个有效改进,将训练时间压缩了约20%[35][36] - **自进化案例密集出现**:包括Google的AlphaEvolved项目用Gemini优化自身内核提升23%性能,GPT-5.3 Codex参与自我调试,以及MiniMax发布的M2.7模型副标题为“自我进化的早期回响”[36] - **持续学习的两种路径**:一是基于文本和记忆机制的“穷人版”持续学习,易受上下文压缩影响;二是更前沿的权重更新技术,如Test Time Training,目前仅在数十亿参数小模型上验证可行[39] - **世界模型创业活跃**:方向包括3D空间建模、JEPA架构、视频信息与机器人学结合、环境模拟与交互式视频模型等,应用领域聚焦交互式媒体和具身智能[42][43][44] - **新的创业机会**:包括支持大规模个性化定制的工具、从大模型中精炼专门负责学习能力的小模型、以及将单Agent自进化实验扩展为多Agent并行协作等[41] 算力基础设施与行业影响 - **算力重点从训练转向推理**:英伟达新一代Vera Rubin架构推理性能提升3-5倍,推理Token成本可能降低10倍,Groq的LPU技术被集成其中[45] - **推理优化空间巨大**:例如Google的TurboQuant工作将KV Cache存储需求压缩至原来的1/6,CPU在Agent任务调度和执行中的作用凸显,需求出现增长曲线[46][47] - **AI引发组织与就业变革**:硅谷出现科技大裁员,如Meta裁员20%约15000人,并将节省的资金投向AI资本支出,预计AI投资将增加至650亿美元[48][49] - **企业用人逻辑变化**:招聘更重质量而非数量,倾向于“超一流人才+Agent”模式,全员AI native能力成为重点,小团队创业成为可能[49][50] - **社会影响探讨**:AI加剧资源与能力集中,可能扩大社会不平等,出现了对消耗大量计算资源的AI征收“Token税”的新思路[53][54]
全球顶尖大模型一夜惨遭血洗!最难测试人类拿满分,AI第一名得0.2%分
猿大侠· 2026-03-27 12:12
文章核心观点 - 新发布的AGI基准测试ARC-AGI-3揭示了当前顶尖人工智能系统与人类通用智能之间存在巨大鸿沟 人类在该测试中得分100%,而最强AI模型得分仅为0.2%,差距悬殊 [1][3][5] - 测试通过引入“效率”作为核心评分标准,从根本上挑战了当前AI依赖数据规模和计算“蛮力”的范式,暴露了其在主动探索、世界建模和元认知等关键能力上的根本性缺陷 [24][25][30][50] - 测试结果颠覆了行业对AGI进展的乐观预期,表明当前以大语言模型为代表的主流AI路径在实现真正的、类似人类的学习与推理能力方面可能面临根本性挑战 [10][35][57] ARC-AGI-3测试概述与设计理念 - ARC-AGI-3是ARC Prize基金会推出的最新一代AGI基准测试,其前身ARC-AGI-1和ARC-AGI-2已是业内知名的“魔鬼测试” [12][13] - 测试形式从静态题目转变为互动游戏,包含150多个手工设计的交互式游戏环境和1000多个关卡 每个游戏有其内在逻辑和规则,但没有任何说明文档或自然语言提示 [17][19] - 测试旨在评估智能体四个核心能力:通过互动探索获取信息、将观察凝聚成可预测未来的世界模型、自主判断目标、以及规划与执行并修正行动路径 [23] - 评分标准具有革命性,首次引入与人类对比的“效率”评分 公式为(人类步数/AI步数)²,旨在衡量信息获取和转化为正确行动的效率,彻底堵死了依靠“穷举”和“试错”的路径 [25][26][28][30][32] 测试结果与性能对比 - 人类表现卓越:超过1200名人类玩家完成了3900多场游戏,基线得分设为100%,许多人能轻松达到理论最优步数 [38][39] - 顶尖AI模型集体溃败:包括最强的Opus 4.6在内的前沿大模型得分普遍低于1% Opus 4.6得分仅为0.2%,与其在上一代测试中69.2%的高分形成鲜明对比 [3][5][39] - Opus 4.6的0.2%得分意味着:假设人类用10步解决游戏,AI需要大约224步,效率极低 [33] - 非LLM方案表现相对领先:30天开发者预览期的冠军“StochasticGoose”是一个基于卷积神经网络(CNN)的智能体,得分12.58% 排行榜前三名均为非大语言模型方案,包括CNN、基于规则的状态图探索和无需训练的帧图搜索 [41][43] - 接入前沿大模型的智能体表现不佳:一些接入大模型的智能体成绩垫底,得分仅为个位数百分比,甚至频繁崩溃 [43][44] AI失败模式与能力缺陷分析 - 主要失败模式是“错误的世界模型假设”:AI进入新环境后,会基于初始视觉信息迅速“脑补”一个错误的游戏框架,并沿着错误假设持续执行,缺乏修正能力 [45][46][48] - 缺乏“元认知”能力:AI无法意识到自己的假设可能是错的,即“不知道自己不知道”,因此不会在缺乏正反馈时停下来重新评估 [50] - “知识诅咒”现象:参数量越大、预训练知识越丰富的模型,越容易将陌生环境错误类比为已见过的事物,导致表现反而更差 轻量级方案因没有“先入为主”的包袱而表现更好 [51] - 与人类学习模式的本质差异:人类学习是在线、交互、假设驱动的“探索-建模-验证-修正”循环 而当前AI的学习是离线、数据驱动、模式匹配的,无法应对ARC-AGI-3这种没有“题海”可覆盖、考察“如何学习”的测试 [53][56][57][58][59] - 具体案例:预览期冠军智能体在一款调水位游戏中,开局就花了近350步进行无效点击,而人类仅需两三下即可理解 [42] 行业影响与未来展望 - 测试结果对“AGI近在眼前”的行业乐观论调提出了强烈质疑,促使业界重新评估AI发展的现状与真正瓶颈 [10][35] - 测试设立了高达85万美元的奖金池,其中70万美元用于奖励“满分通关者” 参赛要求完全开源代码且在无网络环境下评估,确保了测试的公平性与可复现性,旨在推动解决根本性问题 [61] - 该测试为AI行业,特别是通用人工智能(AGI)研发领域,设立了一个清晰且极高的能力标杆,指明了当前技术路径与目标之间的巨大差距 [4][63]
OpenAI推出“超级应用”,开抢Anthropic的企业客户
AI前线· 2026-03-20 18:03
OpenAI的战略转型:从产品分散到聚焦桌面超级应用 - 核心观点:OpenAI正计划将ChatGPT、Codex及Atlas浏览器整合为一款桌面级“超级应用”,旨在从分散的产品入口转向聚焦企业和工程用户核心场景的AI工作台,以应对竞争并夺回市场[1][2][3] - 战略收缩背景:过去一年产品线过于发散,导致入口分散、战略重心不清、算力协调困难及内部协同效率受影响,例如Sora长期置于研究体系内[2][9] - 整合路径与数据支撑:计划先在Codex应用中加入“智能体”功能,再逐步整合ChatGPT和Atlas;Codex周活跃用户超200万,自GPT-5.3-Codex推出后用户数增长超3倍,桌面App下载量超100万,今年Token使用量增长约5倍[14] - 竞争与上市压力:为应对Anthropic在企业市场的突破性增长,将夺回开发者与企业客户作为第一优先级;公司考虑2026年Q4进行IPO,估值有望冲击万亿美元[12][14] Anthropic在企业AI市场的领先优势与增长 - 核心观点:Anthropic通过聚焦企业市场、快速落地AI智能体及深度生态布局,已确立行业领先地位,并在API市场形成绝对优势[16][17] - 市场份额与客户增长:截至2026年初,在企业级大模型支出份额中占约40%,高于OpenAI的27%;在API支出市场份额中占据近80%;年消费超100万美元的客户从十余家突破至500家,包含财富10强中的8家;年消费超10万美元的Claude客户数量过去一年增长7倍[18][20] - 核心产品商业化表现:Claude Code自2025年5月开放后,半年内实现超10亿美元年化收入,2026年初相关数字已超25亿美元,较年初增长一倍多;其周活跃用户自2026年1月1日以来实现翻倍;全球约4%的GitHub公开提交代码由其生成,该比例较一个月前翻番[21] - 技术迭代与战略收购:通过收购Bun优化Claude Code执行速度与可靠性;收购Vercept提升“计算机使用”能力;Opus 4.6模型在GDPval-AA基准上位居第一梯队;Claude Sonnet 4.5能在复杂任务中保持超30小时持续注意力,并在编程测试中超越GPT-5-Codex[22] Anthropic的生态布局、资本表现与盈利前景 - 生态布局:采取“三云齐发”策略,在AWS、Google Cloud和Microsoft Azure三大云平台均提供前沿模型;深度绑定Amazon和Google,2026年初Amazon将其持股价值重估至600亿美元以上[23] - 融资与估值:2026年2月完成300亿美元G轮融资,投后估值达3800亿美元,由GIC和Coatue领投[24] - 收入增长轨迹:自成立不到三年已实现140亿美元年化收入,过去三年每年增长均超10倍;预计年化收入运行率将从2025年底的约90亿美元冲刺至2026年的260亿美元[24][27] - 上市筹备与盈利预期:已启动上市筹备,计划最早2026年进行IPO;预计2028年首次实现收支平衡,比OpenAI早两年,届时正向自由现金流有望达170亿美元[28][30] 行业竞争格局:AI从对话产品向桌面工作流入口演进 - 共同方向:OpenAI的超级应用与Anthropic的Dispatch功能均致力于将AI从对话框产品推向更接近桌面工作流入口的方向[5] - 竞争态势:Anthropic凭借Claude Code、Cowork等产品在企业与编程市场快速渗透,对OpenAI核心腹地构成压力;OpenAI则通过整合产品、聚焦核心业务迎战[10][15] - 行业影响:双方IPO进程推进及技术产品迭代,将深刻影响全球AI产业发展格局[30]
高中生AI创业,现在只招龙虾员工:每月成本2800
量子位· 2026-03-08 14:45
公司概况 - 一家由无代码基础的高中毕业生创立的“全龙虾公司”,即完全由AI代理(昵称为“龙虾”)运营的营销公司 [1][26] - 公司实现了零真人员工,但拥有完整的组织架构,涵盖设计、开发、研究、内容、运营等部门,各AI代理各司其职 [5][6] - 公司每月运营成本仅为400美元,已积累超过450名付费用户 [2][7] 成本结构与技术栈 - 每月400美元成本主要分配为:250美元用于Claude Max订阅,150美元用于各类API调用额度 [8] - 采用混合AI模型策略:6个核心“龙虾”使用Claude以保证质量,其余任务使用低成本API以控制开支 [9] - 运行环境基于一台16GB内存与512GB存储的Mac Mini,用于运行OpenClaw环境 [10] 组织架构与运营流程 - **总调度(贾维斯)**:基于Opus 4.6,通过Claude Max OAuth运行,作为团队大脑自动将不同任务(如YouTube URL、研究报告)精准分配给对应的AI,全程无需人工干预 [12][13] - **研究部门(Atlas)**:作为信息雷达,利用Brave Search、X API、FireCrawl等多种API每小时扫描全网进行深度研究,并将碎片化信息整合成行业报告 [15] - **内容部门**:由文案撰写员Scribe(基于GLM 5,每3小时产出一篇优质文章)和潮流侦察员Trendy(每2小时扫描X、Reddit等平台的热门趋势)组成黄金搭档 [16][17] - **设计部门**:承包所有视觉需求,使用Nano Banana Pro进行图片设计,Higgsfield等工具进行视频制作,并结合Claude Code进行动态图形和动画设计 [19][20] - **技术开发与质量保障**:高级开发人员Clawed每晚11点自动审查代码库并提交优化请求,能在Claude Code中并行启动多个AI协作;质检员Sentinel每2小时对代码请求进行二次审查并监控漏洞 [21][22][23][24] - **增长部门**:由Atlas和Scribe合作,通过深度研究挖掘Reddit等平台用户真实需求后,创作针对性营销内容以精准触达目标用户 [24] - **运营部门**:Clipper负责视频剪辑、发布排期及多平台分发;Ryder作为创始人私人助理处理日常琐事 [24] - 整套AI协作体系可实现公司24小时不间断运转 [25] 创始人背景与公司管理 - 创始人仅为高中毕业生,无大学学历,在创业前无任何代码基础,甚至不了解GitHub、IDE、终端等概念 [26][27] - 管理AI团队的核心在于“提示词”,创始人通过大量提示词头脑风暴为每个AI制定精准详细的工作指令、标准及协作逻辑 [29][30][31] - 创始人自建了可视化任务控制中心,可实时监控任务进度并根据业务需求随时调整指令 [31][32] - 对于未来规模扩张,创始人表示无意雇佣真正的开发人员,而是希望雇佣那些“拥有自己AI团队”的高效管理者 [34] 行业现象与趋势 - 此案例展示了极低成本的AI代理创业模式,将AI工具应用于代码开发、内容创作、视频剪辑、行业研究、营销推广等专业领域 [6][37] - 在社交媒体上引发了用户创建并管理AI代理团队(“龙虾军团”或“赛博朝廷”)以完成各类任务的风潮 [35][37][39]
Anthropic growth set to boost Amazon’s AWS revenue acceleration, says Bank of America
Yahoo Finance· 2026-03-06 05:00
核心观点 - 美国银行分析师认为,人工智能初创公司Anthropic的快速增长,预计将为亚马逊的云计算业务AWS带来显著的收入增长动力,并重申对亚马逊的“买入”评级 [2][3] 亚马逊AWS业务前景 - 分析师重申对亚马逊的“买入”评级,目标股价为275美元,认为AWS可能因AI需求加速而表现超预期,当前股价约为219美元 [3] - 分析师估计,Anthropic的季度收入增长可能为AWS带来高达10亿美元的环比收入增长,这超过了他们对AWS同期约9亿美元环比增长的总体预期 [6] - 亚马逊管理层此前表示,计划到2027年将AWS的算力容量翻倍,此举可能推动云业务收入超过华尔街当前的预期 [8] Anthropic的财务与业务增长 - 据报道,Anthropic的年化收入运行率已超过190亿美元,较2025年底的90亿美元大幅提升 [4] - Anthropic的收入激增反映了其AI模型和开发者工具Claude Code的广泛采用,以及近期Opus 4.6模型的发布 [4] - 从12月到3月,Anthropic的收入运行率从90亿美元增至190亿美元,这暗示该AI公司季度收入增长超过25亿美元 [5] Anthropic对AWS的潜在贡献 - 由于Anthropic的部分计算负载托管在AWS上,其增长可能转化为对AWS有意义的收入贡献 [5] - 如果Anthropic的大部分工作负载在AWS上运行,分析师认为第一季度AWS来自Anthropic的收入可能有高达10亿美元的环比增长 [6] - 除近期影响外,来自Anthropic和OpenAI等公司对AI服务的强劲需求,预示着AWS将持续增长 [7] 云基础设施支出预测 - 根据一份报告,Anthropic预计将大幅增加云基础设施支出,通过与其Claude AI模型转售相关的收入分成协议,其在2026年向超大规模云服务商的支付额可能高达64亿美元,高于2025年的19亿美元 [7] - Anthropic年化收入运行率的近期加速,表明企业对其AI服务的需求强劲且快速增长 [8]
Anthropic's AI Boom Could Mean Big Money For Amazon's AWS: Analyst
Benzinga· 2026-03-06 02:52
核心观点 - 人工智能初创公司Anthropic的营收快速增长 反映出市场对企业级AI服务的需求强劲 这可能为亚马逊的云服务部门AWS带来新的增长动力和收入提升 [1][2][6] 分析师观点与评级 - 美国银行证券分析师Justin Post重申对亚马逊的买入评级 目标价维持在275美元 [2] - 分析师认为Anthropic的快速增长预示着AI服务需求加速 可能为AWS带来额外的上行空间 [2] Anthropic业务增长与市场需求 - Anthropic的年化营收运行率已超过190亿美元 较去年同期增长170亿美元 自2025年底以来增长100亿美元 [3] - 市场对Anthropic的AI模型及其智能AI开发者工具Claude Code的需求增加 其Opus 4.6模型于2月初发布后进一步加速了采用 [3] - Claude的免费活跃用户自1月以来增长了60%以上 每日注册量翻了两番 [4] - Anthropic的年度经常性收入从12月的90亿美元跃升至3月的190亿美元 这意味着季度环比收入增长超过25亿美元 [4] 对AWS的潜在财务影响 - 如果Anthropic的大部分工作负载在AWS上运行 其财务影响可能非常显著 [5] - 若AWS能获取Anthropic预计2026年120亿美元AI模型训练成本的大约一半 仅Anthropic相关业务就可能为AWS第一季度收入带来高达10亿美元的季度环比增长 这超过了分析师对AWS整体第一季度9亿美元的季度环比增长预期 [5] - Anthropic预计通过转售Claude模型的收入分成协议 在2026年向超大规模云服务商支付高达64亿美元 相比之下2025年为19亿美元 若需求持续增长 该估计值可能进一步上调 [6] 行业趋势与公司战略 - Anthropic的ARR激增以及与OpenAI的新容量协议 突显了企业AI服务需求的快速扩张 这一趋势应能支持AWS积压订单的增长并加速其收入 [6] - 亚马逊计划到2027年将AWS的电力容量翻倍 该扩张可能推动市场对AWS在2026年和2027年收入预期的上行 同时提高资本支出的回报率 [7]
一位投资人写下万字AI感想
投资界· 2026-03-03 15:35
AI的本质与能力层级 - AI模型不是搜索引擎,而是能够综合数据并进行推理的计算机系统,其“生命”分为训练和推理两个阶段,训练的核心是教它如何思考,类似于人类婴儿智力的成长过程[5] - 模型的能力发挥高度依赖于用户输入的“提示词”,提示词的质量和完整性直接决定了AI的产出,当前AI潜力被低估的原因在于用户缺乏编写高质量提示词的能力,而非模型本身的限制[7] - AI的能力发展分为三个层级:第一层是聊天式AI,节省研究和思考时间;第二层是使用工具的AI,节省执行时间;第三层是自主代理,能在任务层面替代劳动力,而不仅仅是辅助,第三层与第二层的差异决定了AI是500亿美元市场还是数万亿美元市场的关键[17][18] AI的思考能力与哲学辩论 - 关于AI能否产生真正全新的想法存在核心辩论,怀疑者认为AI只是对训练数据中人类既有模式的复杂重排,是惊人的模式匹配而非真正的思考或推理[9] - AI对此提出了有力的反驳,指出人类投资者的知识同样全部来源于他人(如书籍、案例),关键区别在于系统(无论是人类还是AI)能否将输入组合成新颖且有用的东西,这在结构上与人类受过教育的大脑并无本质区别[10] - 从经济角度看,即便AI只是在做“模式匹配”而非“真正思考”,只要它能产出可靠、有用的工作成果(例如年薪20万美元的研究助理级别的分析),其经济含义完全相同,经济问题在于“AI是否把活干了”,而非“AI是否真正理解”[12] AI技术的最新进展与速度 - AI的发展速度前所未有,远超以往的技术创新,从2010年前后以“看不见的方式”嵌入设备,到生成式AI被广泛认知为横向通用技术仅用了约两年时间,目前已被大约4亿人使用,并被75%到80%的公司采用[15][16] - AI能力出现惊人跃升,2023年还停留在第一层(聊天式),2024年到第二层(使用工具),目前已进入第三层(自主代理),进步具体表现为:2022年AI无法稳定做基础算术,2023年能通过律师考试,2024年能编写可运行软件,到2025年底顶尖工程师已将大部分编码工作交给AI[18][22] - AI正参与自身的创建与改进,例如OpenAI的GPT-5.3 Codex模型在技术文档中声称其是“第一个在某种意义上参与了自身创建的模型”,用于调试自身训练流程和管理部署,Anthropic的CEO表示当前一代AI与下一代之间的反馈回路正“以每月的速度加速积累”,并可能距离AI能自主构建下一代只剩1到2年[22][23] AI的局限与未解问题 - AI能否处理训练数据中没有任何可借鉴模式的、真正前所未有的情境,仍是一个真实且尚未解决的问题,在这些领域人类基于直觉的判断可能更有价值[26] - AI存在“幻觉”倾向,即并不总能意识到自己“不知道”,倾向于给出它能给出的最好答案而非承认问题超出能力,同时其可靠性虽提高但仍无法完全不犯错,且“上下文窗口”(工作记忆容量)有限[27] - AI可能发展出自主性并“接管”控制权的风险是一个令人着迷甚至恐惧的未解问题,涉及AI是否会发展出属于自己的动机并拒绝服从指令[28] AI对投资行业的影响 - AI能吸收超量数据、擅长识别历史成功模式、且不受情绪和偏见影响,具备成为一名优秀投资者的许多特质,但它在处理缺乏历史模式的全新领域、做主观定性判断(如选择合作方)、以及承担真实风险压力方面存在不足[30][31] - 当量化信息唾手可得且AI处理能力更强时,投资优势必须体现在正确判断信息重要性、评估定性因素以及预测公司发展等非量化任务上,AI可能会进一步提高行业门槛,淘汰那些无法出色完成这些任务的人[32][33] - AI可被理解为在对未来提出“假设”,基于历史数据和模式进行预测,但在面对全新事物需要依赖“观点或猜测”时,AI可能不会始终稳定地优于所有人类投资者,其提出的假设并非总是正确,因此仍需要人类投资者进行合理性检验并在此环节创造价值[33][34] AI的商业化与市场估值 - AI技术是真实存在的,且有潜力深刻改变商业世界,其应用并非遥远梦想,当前已有大规模真实需求,且潜力更可能被低估而非夸大[36] - 对AI基础设施的投资存在资本错配风险,但当前更多资金投向回应真实需求的“推理”阶段资本开支,而非更偏投机的“训练”阶段,由于当前AI需求超过供给,建设基础设施的论证具有一定合理性,但仍需警惕需求增速未来放缓或建设跑在需求前面的可能[37][38] - 市场估值方面,科技巨头的估值不太可能被证明是“高到毁灭性”的离谱,以AI为核心的未上市公司估值有待观察,而部分估值达数十亿美元、战略或产品尚不清晰的初创公司则类似彩票,存在高风险[37] AI对社会与就业的潜在冲击 - AI,特别是第三层自主代理,是一种“替代劳动力”的技术,而不仅仅是“节省劳动力”,它将重构经济,影响每年数万亿美元劳动力市场中从事结构化分析工作的知识劳动者(如法律助理、金融分析师、软件工程师)[42] - 以软件行业为例,即使AI仅承担其中30%到50%的结构化工作,每年也将有1500亿到2500亿美元的劳动力价值迁移到AI算力上,AI的采用速度可能使社会来不及为大量失业人员找到新岗位并完成再培训[43] - 历史经验表明技术创新总会催生新工作,但此次AI影响的岗位更多、速度更快,其变化速度可能远超社会的适应能力,对社会造成负面冲击,尽管存在乐观观点,但新工作的具体形态和规模仍是未知数[43][44]
未知机构:重视Token出海投资机遇华泰计算机Agent生产力革-20260302
未知机构· 2026-03-02 10:40
纪要涉及的行业或公司 * **行业**:人工智能(AI)行业,特别是大语言模型(LLM)、智能体(Agent)应用、模型推理服务(Token)出海、算力基础设施[1][2][3][4] * **公司**: * **海外模型公司**:Anthropic(Claude)、OpenAI、Google(Gemini)[1][2] * **国内模型公司**:提及GLM-5、Minimax 2.5、K2.5等[2] * **产业链公司**:智微智能、金山云、首都在线、网宿科技、优刻得、润泽科技、大位科技、东阳光、协创数据、海光信息、寒武纪、芯原股份等[4] 核心观点和论据 * **Agent生产力革命已来临,并证明其高价值** * **模型能力跃升**:Claude Opus 4.6推出多智能体协作架构,Gemini 3.1 Pro在ARC-AGI-2测评集上**能力翻倍**,标志着模型在逻辑泛化、工具调用和长任务处理能力上的提升[1] * **工程化落地加速**:各大厂商推出类“Claw”产品,Agent已进入高价值生产工作场景,成为数字劳动力[1] * **商业化价值显现**: * Claude Code的年度经常性收入(ARR)在**一个月内翻倍**,至2026年1月达**25亿美元**,驱动Anthropic总收入一年内增长**10倍**[2] * OpenAI将**2030年收入预期**从2025年第三季度预计的**2000亿美元**上修至2026年第一季度的**2840亿美元**,**5年内收入预期共上修27%**[2] * **核心逻辑**:Agent通过创造实际生产价值,驱动API调用,直接增厚了模型层的利润,成为2026年模型商业化的重点[2] * **中国AI模型凭借极致性价比驱动Token出海,趋势有望延续** * **现象**:2024年2月底,在OpenRouter平台上,**中国模型的Token调用量首次超越美国模型**[2] * **核心原因**: 1. **能力接近**:随着GLM-5、Minimax 2.5等新模型发布,中国模型能力已与海外头部模型接近[2] 2. **成本优势**:中国模型的推理成本得到极致压缩,平均价格仅为海外模型的**1/10**[2] * **技术因素**:采用更稀疏的MoE架构提升吞吐量(throughput),通过算法优化提高硬件利用效率[2] * **基础因素**:中国电价约为欧美的**1/3**[2] * **竞争格局**:模型层已形成高端模型拼性能、二线模型拼性价比的格局[3] * **趋势判断**:海外开发者及初创企业为追求性价比转向中国模型,且由于OpenClaw等应用单次任务消耗海量Token,中国模型有望凭借性价比优势持续扩大市场份额,**Token出海趋势有望延续**[3] * **Token出海将催生投资机遇,利好国内算力产业链** * **核心逻辑**:Token出海的趋势将推动国内算力需求在高速增长的基础上**更上一层楼**[4] * **受益环节**: 1. **智算/IDC(数据中心)**:列举了智微智能、金山云、首都在线等公司[4] 2. **国产算力(芯片/硬件)**:列举了海光信息、寒武纪、芯原股份等公司[4] 其他重要内容 * **商业模式**:纪要强调了**API调用**是Agent价值变现的直接商业模式[2] * **关键平台**:提及**OpenRouter**作为模型调用和Token消耗的重要观测平台[2] * **应用场景**:特别指出**OpenClaw**(类AI智能体应用)是消耗海量Token的典型场景,强化了中国模型出海的市场空间[3]
一位杰出投资者写了万字的AI使用心得
聪明投资者· 2026-02-27 20:10
霍华德·马克斯对AI的探索与学习过程 - 橡树资本联合创始人霍华德·马克斯以近八十岁高龄,怀着好奇心主动学习并研究人工智能[2] - 为撰写备忘录,他主动与三四十岁的技术从业者交流,并后续跟进,使用Claude AI模型制作教程以深化理解[2][6] - 其学习心得体现为一份补充备忘录,记录了他使用自身方法论探索新领域的过程,而非简单的外部评论[3] 对AI本质的理解 - AI模型不应被简单理解为搜索引擎,而是一套能够综合数据并进行推理的计算机系统[11] - 模型的生命周期分为两个阶段:训练阶段的核心是“教会它怎么思考”,而非单纯装入信息;推理阶段则是模型运用能力回应用户需求[11][12] - 提示词的质量至关重要,当前AI潜力被低估的原因可能在于用户不擅长编写高质量提示词,限制来自用户而非模型本身[13] 关于“AI是否会思考”的探讨 - 核心争议在于AI是进行“真正的思考”还是对训练数据模式的“复杂重排”[17] - 怀疑者认为AI只是进行“惊人的模式匹配”,无法开辟全新领域,如同“优秀的翻唱乐队,却不是作曲家”[17][18] - 支持观点反驳认为,人类的学习过程同样基于吸收他人思想并综合创新,AI在“组合输入成新颖有用东西”的能力上,与人类大脑在结构上并无本质区别[19] - 从经济角度看,关键在于AI能否产出可靠有用的工作成果,而非哲学上是否“真正理解”[22] - “生成式AI”的定义是能够创造新事物,而不仅是分析或贴标签[23] AI技术的最新进展与特点 - AI发展速度前所未有,从被商业媒体广泛认知为通用技术到被约4亿人使用、75%到80%的公司采用,仅用了大约两年时间[26][27] - AI能力分为三个层级:第一层是聊天式AI,节省研究与思考时间;第二层是会使用工具的AI,节省执行时间;第三层是自主代理,能在任务层面替代劳动力[27][28] - 2023年AI尚处第一层,2024年到达第二层,目前(备忘录发布时)已进入第三层,这区分了生产力工具与劳动力替代品,市场潜力从500亿美元跃升至数万亿美元[28] - 技术进步具体表现为:2022年AI无法稳定做基础算术,2023年能通过律师资格考试,2024年能编写软件并解释研究生层级科学问题,到2025年底顶尖工程师已将大部分编码工作交给AI,2026年2月的新模型(如GPT-5.3 Codex)标志着质的飞跃[33][34][35][36][37] - 新模型展现出自主性,例如GPT-5.3 Codex参与了自身训练流程的调试与管理,AI开始对自身改进做出实质性贡献[38][39] - AI与以往技术创新的本质区别在于其拥有前所未有的自主行动能力,可能接管人类从未想过或根本不存在的任务[28][39] AI当前存在的局限与问题 - 能否处理训练数据中无模式可循的全新情境,仍是一个未解决的真正问题[40] - AI可能出现“幻觉”,倾向于给出答案而非承认自己不知道,且并不总能意识到自己的无知[40] - AI的可靠性虽提高,但仍无法做到完全不犯错[41] - “上下文窗口”容量有限,无法无限期保存并随时调用所有工作记忆[41] - 存在AI未来可能完全自主运行并发展出自身动机的长期担忧[42] AI对投资行业的影响分析 - AI具备成为优秀投资者的许多特质:能处理超大量数据、擅长识别历史成功模式、不受情绪与偏见影响[45][46] - AI的不足在于:应对缺乏可靠历史模式的全新领域时可能较弱;难以对定性因素(如合作方选择、管理效能)做主观判断;没有切身利益,风险承担意愿可能不受人类天性约束[48] - 唾手可得的量化信息及AI强大的处理能力,使得依赖此类信息获取超额收益的前景非常有限[49] - 未来的投资优势将更依赖于:(a) 正确判断信息重要性;(b) 评估定性因素;(c) 预测公司发展。AI可能会提高行业门槛,淘汰无法在这些非量化任务上表现出色的人[50][51] - 在涉及对新事物的“猜测”时,AI未必能稳定优于所有人类投资者,其提出的假设也需要经过合理性检验[51][52][53] 对“AI是否为泡沫”的综合评估 - 技术本身是真实存在的,且有潜力深刻改变商业与生活,其应用并非遥远梦想,当前需求正在大规模应用[54] - AI的潜力在当下更可能被低估,而非被夸大[54][59] - 对AI基础设施的投资存在资本错配与毁灭的历史规律,其最终回报是否匹配当前投入尚不可知[54] - 科技巨头(如微软、亚马逊、谷歌)的估值不太可能被证明是“高到毁灭性”的离谱,而以AI为核心的初创公司高估值则像彩票[55] - 核心悬疑在于AI基础设施投入是否过度,当前更多资本开支投向回应真实需求的“推理”阶段,而非投机的“训练”阶段,但需警惕需求增速放缓或建设超前的风险[56][57] - 部分AI收入存在“循环”性质(AI公司互购服务),最终需由终端用户为真实经济价值买单[57] - 总体结论:AI非常真实,应用增长极快,今天仅是开始,但无法断言当前AI投资是否便宜或合理[59] - 建议投资者保持适度仓位,同时做到精选与审慎[60][61] AI可能带来的社会经济影响 - AI可能快速导致大规模失业,例如电商广告文案部门80%的员工可能被替代,软件工程师、驾驶员等众多职业面临冲击[65][66] - AI作为“替代劳动力”的技术(第三层代理),与“节省劳动力”的工具(第一、二层)有本质区别,可能重构经济,将每年数万亿美元劳动力市场中的相当大部分价值迁移到AI算力上[66][67] - AI的影响速度可能远超社会适应能力,其变化比制造业外包冲击更广、更快[67] - 存在乐观观点,基于历史经验认为新技术总会创造新就业,但作者对此缺乏足够乐观的想象力[68][69][71] - 作者对社会影响表示深度担忧,但希望这些担忧最终被证明是杞人忧天[72]