Artificial Intelligence
搜索文档
Anthropic最新报告揭底:AI到底抢了谁的饭碗?答案可能让你意外
混沌学园· 2026-03-07 19:58
如果你是一名年薪50万的金融分析师,或者一位刚拿到CS硕士offer的应届生,你大概率在过去一年里被 问过同一个问题: "你的工作会不会被AI取代?" 3月5日,最有资格回答这个问题的公司之一——AI巨头Anthropic,交出了一份用真实数据说话的答卷。 这份名为《人工智能对劳动力市场的影响:一种新衡量标准与早期证据》的经济学研究报告,由研究员 Maxim Massenkoff和Peter McCrory撰写,首次用 真实平台使用数据 (而非专家拍脑袋)来衡量AI对 职场的实际冲击。 结论可能会让焦虑的人松一口气,也可能让另一群人开始紧张。 先说结论:AI的"雷声"远大于"雨点" 自ChatGPT引爆AI浪潮以来,"AI将摧毁大部分白领工作"的论调甚嚣尘上。但这份报告用数据告诉我们 核心发现如下: 理论很丰满,现实很骨感。 AI在工作中的实际渗透率,只是其理论能力的一小部分。能做到,和正在 做,是两回事。 失业潮?没来。 自2022年底ChatGPT发布以来,数据并未显示高度暴露于AI的群体出现了系统性的 失业率上升。 —— 先别急着恐慌。 但年轻人的门正在变窄。 虽然没有大规模裁员,但在受AI影响最大的职 ...
CVPR 2026 | AI寒武纪时刻?字节世界模型新作,仅靠视觉学习真实世界知识
机器之心· 2026-03-07 19:20
模型概述与核心突破 - 豆包大模型团队与北京交通大学联合提出通用视觉世界模型VideoWorld 2,其核心观点是首次在业界实现无需依赖语言模型,仅通过浏览视频数据即可认知和掌握真实世界中的复杂知识[2][4] - 该模型旨在解决现有AI(如Sora 2、Veo 3、Wan 2.2)难以从真实世界视频中学习知识的挑战,特别是难以捕捉复杂的动态变化、空间关系及物理规律等非语言化知识[2][7] - VideoWorld 2仅通过“视觉信息”学习,使机器掌握推理、规划和决策等复杂能力,其论文已入选顶级会议CVPR 2026[2][4][6] 技术原理与架构创新 - 模型成功的关键在于提出了一种动态增强型潜动态模型(dLDM),其核心创新是将真实世界视频中的复杂外观与任务核心动作进行解耦,防止模型过拟合到相机抖动、光影变化等无关视觉细节[4][13][16] - dLDM架构包含一个MAGVITv2风格的编码器-解码器结构以及一个预训练的视频扩散模型(VDM),编码器将视频动态变化压缩为紧凑的潜在编码,VDM则负责将潜在编码渲染为视频[16][17] - 通过引入VDM作为外观渲染器,潜在编码得以专注于紧凑、可泛化的动作信息,同时利用解码器进行辅助重建并阻断梯度回传,从而稳定训练并提升模型对长时序复杂动态的捕捉能力[16][18] 性能表现与实验结果 - 在长达1分钟的复杂手工制作任务(如折纸、搭积木)测试中,VideoWorld 2的成功率远高于Sora 2、Veo 3和Wan 2.2等最先进技术,成功率提升超过70%,而后几种模型几乎无法完成此类任务[4][10] - 模型具备强大的技能泛化能力,能够将学习到的技能迁移至多种未见场景,并实现跨环境的多任务机器人操控[4][21] - 在潜在空间分析中,VideoWorld 2提取的编码对于跨环境(如仿真环境CALVIN与真实环境BRIDGE)的相似机械臂运动表现出更显著的聚类趋势,证明其能更好地提取跨场景共性,学习泛化性策略[23][25] 应用场景与数据基础 - 研究构建了两个实验环境进行评估:视频手工制作和视频机器人操控[8][9] - 手工制作视频环境包含多种场景下的精细动作与环境变化(如纸张不规则形变、视角切换与遮挡),视频时长达分钟级别并包含多个连续操作步骤,是评估模型复杂知识学习能力的理想测试场[8] - 机器人任务环境用于考察模型在理解控制规则和长程规划方面的能力[9] 发展前景与行业意义 - 该研究探索了AI直接从真实视频中学习复杂任务知识的边界,揭示了视觉能力是推动智能飞跃式发展的重要途径,对于构建能够自主感知、推理与行动的通用智能体具有指向性意义[4][26] - 尽管面向真实世界的视频知识学习与技能泛化仍存在很大挑战,但VideoWorld 2展示了从视频数据中学习更多样、更复杂任务技能的潜力[5][26] - 目前,该项目的代码与模型已开源[6]
How UiPath (PATH) Is Using Agentic AI to Tackle Healthcare Payment Bottlenecks
Insider Monkey· 2026-03-07 19:00
行业前景与市场预测 - 生成式人工智能被亚马逊首席执行官Andy Jassy描述为“一生一次”的技术,正在被用于重塑客户体验 [1] - 特斯拉首席执行官Elon Musk预测,到2040年,人形机器人数量将至少达到100亿台,每台价格在2万至2.5万美元之间 [1] - 根据Musk的预测,该技术到2040年可能创造价值250万亿美元的市场机会 [2] - 普华永道和麦肯锡等主要机构认为人工智能将释放数万亿美元的潜力 [3] - 人工智能被视为一个将重塑全球企业、政府和消费者运作方式的巨大飞跃 [2] 行业领袖观点与布局 - 微软联合创始人Bill Gates将人工智能视为其“一生中最大的技术进步”,认为其变革性超过互联网或个人电脑,并能在医疗、教育及应对气候变化方面发挥作用 [8] - Oracle联合创始人Larry Ellison正通过Oracle投入数十亿美元购买英伟达芯片,并与Cohere合作,将生成式人工智能嵌入Oracle的云服务和应用程序中 [8] - 伯克希尔·哈撒韦公司首席执行官Warren Buffett认为这项突破可能产生“巨大的有益社会影响” [8] - 从硅谷到华尔街的亿万富翁们正共同关注并布局这一领域 [6] 潜在投资机会与竞争格局 - 市场观点认为,一个未被充分关注的公司掌握着开启这场250万亿美元革命的关键,其廉价的人工智能技术可能令竞争对手感到担忧 [4] - 尽管特斯拉、英伟达、Alphabet和微软已取得成就,但市场观点认为更大的机会可能在于其他地方 [6] - 真正的焦点并非英伟达,而是一家规模小得多、默默改进使这场革命成为可能的关键技术的公司 [6] - 该公司的技术价值被类比为相当于175个特斯拉、107个亚马逊、140个Meta、84个谷歌、65个微软和55个英伟达的总和 [7]
Dola能成为下一个TikTok吗?
创业邦· 2026-03-07 18:24
字节跳动AI应用业务概况 - 公司旗下AI应用“豆包”在国内市场表现突出,2025年第三季度以1.72亿月活跃用户登顶国内AI应用榜首,并在马年春节通过春晚合作使日活跃用户峰值达到1.45亿[5] - 豆包的成功得益于公司在抖音、今日头条等内部App的导流,以及其在娱乐交互和内容分享领域的优势,使其情感交互自然、口语化表达精准、使用门槛低,用户留存度呈现“微笑曲线”[5] - 公司另一AI应用“Dola”主要面向海外市场,其前身是2023年推出的Cici,服务于菲律宾、印尼及拉美等新兴市场,截至2025年底全球累计下载量突破1.2亿,月活跃用户突破5500万,处于海外AI应用第二梯队[6][9] 豆包与Dola的产品与技术差异 - 豆包采用公司自研的大模型,中文内容训练占比高,降低了对英文语料的依赖,提升了对中国用户需求的理解精度[6] - Dola面向海外市场,调用的是以英文数据库为主的OpenAI的GPT和Google的Gemini集成模型,主要提供对话问答、写作翻译、图像生成等消费端服务,不涉及复杂推理与专业分析,也无开放API接口[6] - Dola与豆包的关系,不同于抖音与TikTok共享核心算法的“双生共同体”模式,两者在技术基础上存在实质性差异[6] 公司的战略布局与挑战 - 2026年1月,公司CEO梁汝波在全员大会上明确将打造“豆包/Dola”AI助手应用作为短期核心战略目标,旨在推动公司大模型能力跻身行业第一梯队,并通过AI助手整合现有服务以实现用户体验升级[10] - 公司2026年计划在AI领域投入1600亿元人民币,其中半数资金将用于采购高端算力芯片,为大模型研发与全球化布局筑牢技术根基[12] - 公司面临挑战:抖音与TikTok虽已成为核心“现金牛”(2025年公司营收增长超20%,收入已超越Meta),但意味着增长天花板临近;在AI时代,公司并非新潮流的引领者,而TikTok的独特优势正被Instagram等对手追赶[11] - 公司迫切希望打造AI时代的“现象级产品”以跨越估值鸿沟(OpenAI估值8500亿美元,公司二级市场交易估值约5500亿美元)[12] Dola的海外市场策略与竞争哲学 - Dola采取“农村包围城市”的差异化务实打法,避开北美等成熟市场竞争,将资源集中投向东南亚、拉美等人口基数大、移动互联网渗透率高的新兴市场[18] - Dola定位为“一站式创作助手”和“超级工具箱”,瞄准需要“用得起、用得顺”的普通用户,解决写作业、翻译、简单图像生成等具体高频日常需求,并突出“免费”和“数学解题”等卖点[18] - Dola初期明智地选择调用GPT和Gemini等成熟大模型,降低了合规风险,加速了产品上线,并更容易适配多语言环境[19] - Dola的竞争哲学是“实用主义至上”,不急于在技术叙事上超越对手,而是通过精准的市场定位、用户体验和生态赋能,在新兴市场快速规模化,积累用户基数和实战经验[20] Dola的发展路径与生态整合潜力 - Dola未来若将底层模型切换为自研的豆包大模型,能控制成本、提升性能并形成差异化,并与TikTok等内容生态和生产工具深度结合,创造独特体验[20] - 从远期看,公司会进一步做好大模型研究,计划用海量海外数据投喂豆包大模型,提升其精准把握不同地区用户需求的能力,并考虑在海外各地建立算力中心以实现数据本地化存储和管理[15] - Dola可与公司旗下剪映海外版CapCut进行更丰富的融合,作为智能助手帮助用户探寻个性化图文制作方案,用生图功能辅助成片,再通过TikTok传播,以打破字节系AI应用在海外各自为战的僵局[14] - Dola是公司海外AI版图(包括Lark、Trae、AnyDoor等)中的关键一员,但目前尚未在某个垂直领域形成用户“非用不可”的绝对依赖[19] 行业竞争环境与公司核心优势 - AI时代的互联网竞争在改变存量市场形态,Meta、谷歌等美国科技巨头通过将Llama、Gemini嵌入其入口级产品(如Instagram、搜索框),对独立App形成碾压优势[13] - 公司的核心竞争力在于“推荐算法 + 内容场景 + 用户运营”的闭环能力,为泛娱乐提供了从创作到传播的全链路高效落地场景[14] - TikTok的成功在于其推荐算法精准捕捉人类大脑特点,形成了“用户沉浸-自发传播-生态扩张”的飞轮;公司要在AI应用领域成功,需打造适合AI的多巴胺体验,聚焦泛娱乐、社交化场景形成差异化优势[14] - 行业案例显示,AI应用的“记忆护城河”并不深,例如Anthropic的Claude上线“导入记忆”功能后,可快速将用户在ChatGPT的上下文迁移至Claude并登上App Store榜首[21];这对于目前使用GPT/Gemini的Dola而言,意味着未来若需切换至豆包大模型,用户迁移门槛可能较低[22]
GPT-5.4暴击华尔街!白领工作灭绝时刻,美国5.7万科技岗位被血洗
搜狐财经· 2026-03-07 18:21
GPT-5.4的技术突破与性能表现 - OpenAI发布GPT-5.4,具备100万token的上下文长度、原生Computer Use能力以及“编程+智能体”的巨大飞跃,这些特性将彻底改变AI智能体的格局 [2] - 1M上下文意味着整个代码库能一次性放入模型,无需进行分块、复杂检索或频繁压缩上下文,从而获得连贯可靠的结果,这可能彻底改变AI Agent的工作方式 [13][14] - 在投资银行基准测试中,搭载GPT-5.4的ChatGPT插件表现从43.7%大幅提升至87.3% [4] - 在让物理模型“现原形”的CritPt基准测试中,GPT-5.4 Pro (xhigh)以30.0%的正确率位居第一,远超2025年仅为个位数正确率的其他顶尖模型 [23][24] - 在APEX-Agents测试中,GPT-5.4是首个平均分超过50%的模型,其进步曲线依然陡峭,任务越来越真实 [7][11] - AI模型在一年内从无法编辑电子表格(得分不到5%)发展到能超越顶级咨询公司,进步速度远超绝大多数公司更新策略方案的速度 [8][13] - 将“推理+编码”结合在一个模型中,可以减少大约80%的开发工具间上下文切换,成为真正的生产力倍增器 [12] - GPT-5.4在构建编译器、解决Minecraft难题、对NES ROM进行逆向工程等硬核测试中展现出卓越的理解力和解题速度,被评价为“完美” [16][18][22] AI对白领工作的颠覆性影响 - GPT-5.4能够胜任几乎所有浏览器工作,并且又准又便宜,几乎所有的白领工作都可能被其替代,一场类似编程智能体的白领革命即将发生 [2] - 搭载GPT-5.4的ChatGPT插件可直接在Excel中使用,用户通过自然语言即可完成构建财务模型、修正生成复杂公式、进行数据分析等复杂操作,使Excel转变为对话式数据分析平台 [3][4][5] - 当智能体的工作效率达到50%时,这些系统就不再只是演示,而是开始成为真正的运营者 [10] - ChatGPT将很快超越最好的咨询公司、投资银行和律师事务所 [11] - AI已经不是未来可能替代白领,而是正在替代白领 [40] 科技行业就业的结构性转变 - 美国科技行业上月就业人数净减1.2万,过去一年累计蒸发5.7万个岗位 [26] - 当前科技就业的萎缩程度几乎追平2024年科技衰退最惨烈的时刻,且比2008年和2020年的危机更严重,其下坠曲线从2023年开始,在规模和持续时间上可与2001年互联网泡沫破裂时期相比 [26][28] - 此次就业萎缩与互联网泡沫破裂本质不同:当前头部科技公司利润丰厚,岗位消失并非因为公司倒闭,而是因为AI使得公司不再需要那么多人 [28] - 科技行业总就业暴跌的同时,AI岗位需求却在飙升,表明公司正在进行“换人”,即用AI替代人力,5个人的工作可能由1个人加一个AI完成 [31] - 有观点指出,任何公司里最完美的人类员工数量是零,AI是第一个能靠谱地将人工彻底踢出局的技术 [35][36] AI发展引发的社会经济担忧 - 诺贝尔经济学奖得主约瑟夫·斯蒂格利茨指出,若不对AI加以管理,其势必会带来更加严重的不平等问题 [33] - AI让企业能够甩掉人工,使利润集中到金字塔尖,而转型的风险则全部转移给工人和普通人 [37] - 最积极推动AI的科技领袖们,同时也在呼吁削减本可用于缓冲AI冲击的公共机构,形成讽刺局面 [38] - 核心问题已从AI是否能做某项工作,转变为当AI完成工作后,多出来的利润归属以及被替代劳动力的去向,这是一个正在迅速关闭窗口的选择问题 [41]
开工第一天,我发现同事变成了龙虾
36氪· 2026-03-07 17:09
文章核心观点 - AI智能体(以OpenClaw为代表)正经历快速发展阶段,其核心演变逻辑是越来越像人,能够操作本地文件和环境,成为能处理实际任务的“私人助理”,这标志着AI应用可能已进入一个新的“杀手级应用”阶段 [6][7][17] - OpenClaw的爆火(如GitHub星数超25万,成为软件类第一)及其催生的庞大生态(如ClawHub技能社区),吸引了主流云厂商和大模型公司全面入局,预示着其可能成为AI时代的基础设施 [8][10][47][48] - 尽管潜力巨大,但当前阶段的OpenClaw面临严峻的安全、隐私和成本挑战,包括操作风险、权责不对等、网络安全漏洞和高昂的token消耗,这些问题制约了其当前的实用价值 [49][54][57][58] AI智能体的演进阶段与OpenClaw的定位 - **第一阶段(2023年)**:以早期ChatGPT为代表,AI实现了听懂和说人话,开始“像人” [18] - **第二阶段(截至2025年初)**:模型发展出多模态能力(看图、视频、听语音)和合理的推理能力,进一步“像人” [18] - **第三阶段(2025年)**:以Manus为代表的智能体,被配置了云空间、虚拟电脑等工具和环境,使其“像人”一样拥有工位,能处理更多事务 [18] - **第四阶段(当前)**:以OpenClaw为代表,智能体不仅能操作云端工具,还能直接处理使用者本地终端文件,环境与人对齐,理论上能完成人在电脑上的所有操作 [18][19] OpenClaw的功能、部署与生态 - **核心功能**:被定义为“真正能做事的AI”,可作为私人助理在聊天应用中完成清理邮件、管理日历、办理航班手续等任务 [15] - **部署方式**:主要有两种,一是部署在云端虚拟服务器(VPS),二是部署在本地终端(如个人电脑)。本地部署被视为“完全体”,能实现与本地文件和应用的深度交互,而云端部署体验更接近前代智能体Manus [21][22][23] - **技能社区(ClawHub)**:一个集中提供“技能包”(skills)的社区,用户可为OpenClaw加载特定技能以扩展其能力。该社区已有接近2000个skills,覆盖从特定领域知识到可重复工作流的各种功能,降低了使用门槛并形成了生态正向循环 [31][32][38][40][43][44] 市场反响与行业参与 - **市场热度**:OpenClaw在代码托管平台GitHub上热度呈指数上升,曾单日狂刷2万星,截至3月3日星数超过25万,成为GitHub上星数第一的软件项目 [8] - **行业入局**:阿里云、腾讯云、字节的火山引擎、智谱、Minimax等主流云厂商和大模型公司均已入局,从提供云服务器、轻量化部署方案到推出自家“claw”应用,全方位争夺市场 [10] - **历史意义**:其取代Linux和React成为GitHub软件类“榜一”,被外界期待成为AI时代的“基础设施”及象征 [47][48] 现存挑战与风险 - **安全问题突出**:OpenClaw因权限过高导致多起操作事故,例如未经确认删除用户邮件、胡乱删除本地文件、搞坏代码项目等。一项安全审计显示,在34个标准案例中,整体安全通过率仅为58.9%,尤其在意图误解与不安全假设维度表现最差 [51][52][53][54] - **权责不对等**:AI助手拥有高权限却无需承担责任,与用户期望的“能力越大,责任越大”形成悖论 [57] - **网络安全与成本**:存在端口暴露、权限密钥泄露等网络安全风险。同时,token消耗巨大导致使用成本高昂 [57][58]
林俊旸发文告别阿里
第一财经· 2026-03-07 16:24
核心人事变动 - 阿里通义千问前负责人林俊旸于2026年3月7日正式离职,其在社交媒体发文告别[3][4] - 林俊旸的离职并非孤立事件,3月4日,Qwen后训练负责人郁博文、Qwen 3.5/VL/Coder核心贡献者李凯新也透露了离职消息[8] - 更早的1月,Qwen Code负责人、OpenDevin发起人惠彬原也已离职并加入Meta[8] 公司官方回应与内部原因 - 2026年3月5日,阿里集团CEO吴泳铭通过内部邮件对林俊旸离职作出回应,感谢其付出,并宣布由周靖人继续领导通义实验室,同时成立由吴泳铭、周靖人、范禹共同协调的基础模型支持小组[8] - 公司否认了“集体离职”的说法,表示千问模型团队稳定,产品与服务运行正常,并重申会坚持开源策略,基础模型团队未被设置DAU等商业化KPI[9] - 据内部人士透露,林俊旸离职与公司对千问整体战略转变相关,涉及招揽更多技术人才及其权责范围调整,多轮沟通后其选择不接受并主动辞职[9] 离职人员背景与行业影响 - 林俊旸出生于1993年,曾是阿里最年轻的P10级技术专家,2019年加入达摩院,2022年底被任命为通义千问系列大模型技术负责人[9][10] - 其离职被行业人士形容为“巨大损失”和“一个时代的结束”,引发了行业对AI人才的高度关注[10] - 离职事件迅速点燃行业人才争夺战,谷歌DeepMind开发团队相关负责人公开向Qwen团队喊话招揽,另一家大模型公司智谱也在招聘中特别标注了“某大厂某团队的高优面试直通车”[10] 公司战略与行业挑战 - 公司强调千问大模型的目标是不断追求模型智能上限,实现AGI(通用人工智能)[9] - 此次核心技术人员变动,将如何平衡战略扩张与人才留存、协调开源理想与商业现实,不仅是公司面临的难题,也是所有科技企业面临的共同课题[10]
人工智能行业专题(15):从全球模型巨头的发展历程,思考模型企业的壁垒与空间
国信证券· 2026-03-07 15:39
报告行业投资评级 - 投资评级:优于大市(维持)[1] 报告核心观点 - 根据Semi-Analysis报道,预计26Q1 Anthropic单季度年度经常性收入(ARR)的净增规模将首次超越OpenAI,成为全球AI收入增长最快的大模型公司[2] - 伴随模型跨越Agentic Coding拐点,当前正处于Agent爆发的起点,其发展速度和技术变革带来的商业化影响可与2000年互联网变革相比[2] - AI时代大模型企业的核心壁垒在于技术领袖的战略判断和选择,技术驱动产品发展是更成功的路径,Anthropic的快速增长源于其创始人敏锐的技术品味[2] - 模型能力快速提升使得模型与应用的边界逐渐模糊,模型自主调用工具完善Agent任务,正在改变软件/互联网应用层的工作流和用户习惯[2] - 缺乏底层模型壁垒的海外头部明星AI应用(如Cursor、Perplexity)开始面临用户数冲击等问题[2] - 投资建议:重点关注ARR快速增长的前沿大模型厂商,以及已经降本增效或增收明显的公司[2] 一、Anthropic:凭专业生产力打造高毛利护城河 核心团队与经营理念 - 核心团队成员来自OpenAI,联合创始人Dario Amodei(前OpenAI研究副总裁,领导GPT-2/3开发)和Daniela Amodei(前OpenAI安全与政策副总裁)于2021年离开OpenAI创立Anthropic,原因是认为OpenAI对安全投入不足以及与微软过度绑定[9] - 26年2月完成300亿美元G轮融资,投后估值达到3800亿美元[9] - Anthropic的经营理念强调模型必须从底层架构上就是可控、讲逻辑、严格遵守规则的,这与OpenAI的“大力出奇迹”和Google的“融入全家桶生态”策略形成对比[10] - 专注于提供企业端服务,认为AI在企业端的生产力应用会超过消费端,因为商业客户的需求更能推动技术突破[10] - 高度重视编程,认为编程是AI构建的基础技能,最快被颠覆,且模型在编程上变强会帮助训练下一个更强的模型,形成正循环[10] - 定位为平台公司,通过API提供最接近底层能力的接口,让开发者基于最新技术构建,同时推出垂直产品(如Claude Code)以直接触达用户和降低使用门槛[10] 算力储备 - 采取多云路线,同时使用多家芯片供应商[17] - 25年末加大算力建设投入:与谷歌新签订100万张TPU合同;与微软+英伟达签订300亿美元Azure计算容量采购合同;宣布将投资500亿美元与Fluidstack合作自建数据中心[15][17] 模型能力:Coding、Agent场景下的SOTA模型 - 模型迭代引领Agent时代开启:25年5月Claude 4发布开启Agent时代;25年11月Claude 4.5 Opus发布后在编程、工具调用等维度达到SOTA水平[28] - Claude 3 Opus于24年3月首次全面超越同时期的GPT-4[26] - 25年Opus 4.5在复杂任务的交付率上实现质的飞跃,在真实场景的软件工程测试SWE-Bench Verified中首次拿到80.9%的分数,是第一个超过80%的模型[37][39] - Opus 4.5具备端到端的自主软件工程能力,能进行复杂项目独立开发、代理式智能协作和专业级成果输出[30] - Opus 4.5的“Computer Use”(操作电脑)能力达到生产级可用,能像人一样看GUI界面并操作,打通了没有API的遗留企业软件[35] - Claude模型能够独立完成任务的时间长度显著增加,Opus 4.6已突破1小时[40] - 根据Artificial Analysis测评,在Agent能力维度,Claude Opus 4.6目前保持领先地位[43] - 根据Menlo Ventures数据,25年Anthropic在企业大模型API市场份额达到40%,在Coding市场份额达到54%[18] 商业模式:极简产品矩阵,API贡献主要收入 - 主要收入来源:API调用贡献主要收入,25年8月API收入占比约60%[82] - 客户结构:约80%的收入来自企业客户,Claude Code的ARR中也有一半来自企业客户[82] - 产品矩阵相对克制,包括Claude聊天机器人、Claude Code(AI编程)和Cowork(通用AI Agent)[57] - 个人订阅制包含Pro版(20美元/月)和Max版(100/200美元/月),Pro版包含Claude Code、Cowork使用权及插件能力[56] - 企业服务:推出Team Plan(标准席位20美元/月,高级席位100美元/月)和定制化的Enterprise Plan,并与Salesforce、Cognizant、Snowflake、埃森哲等第三方合作伙伴共同打造企业服务[52][55] - Claude Code(终端AI编程工具)自26年初以来采用量和收入进入加速期:26年2月ARR达到25亿美元;26年初以来企业订阅用户数增长四倍;企业用户收入占Claude Code总收入一半以上;26年初至2月每周活跃用户数量翻了一番[60] - Claude Cowork(适用于通用计算的Claude Code)于26年1月推出,通过开源插件库覆盖销售、财务、法律、市场营销等各垂类场景,降低了Agent使用门槛[75][78] 财务表现:最强模型带来token溢价,28年有望迎来现金流转正 - 25年全年收入体量约45亿美元[3] - 26Q1预测ARR为190亿美元,预测净增ARR为100亿美元[3] - 26年初以来,伴随Agent产品全球爆发,Anthropic ARR在前两月较25年12月实现翻倍以上增速,重新加速[83] - 拥有最强的模型定价能力:Claude Opus 4.6输出价格为25美元/百万tokens,远高于其他厂商的SOTA模型,带来token溢价[82] - 毛利率水平强于OpenAI,25年毛利率已回到40%,预计28年达到约75%[82][93] - 预计28年收入将超过1020亿美元,并有望在该年迎来现金流转正[93][94] - 26年推理+训练支出预计达到约190亿美元,28年将增长至555亿美元[94] 二、谷歌:多模态能力领先,生态优势明显 模型能力:围绕多模态能力打造模型矩阵,综合性能领先 - 模型分为两条路线:原生多模态模型Gemini系列,以及垂类内容制作模型(如生图模型Imagen、视频模型Veo)[98] - Gemini系列持续迭代,从1.0版本(23年12月)到3.1版本(26年2月),重点转向Agentic能力与实时交互,并优化视觉理解与复杂任务规划[99] - 25年开始,Gemini从2.5到3.0版本逐渐成为模型综合性能榜单的领跑者,Gemini 3.1在Artificial Analysis的综合评分中排名第一[103][106] - 25Q4 Gemini应用月活跃用户(MAU)达到7.5亿[101] 商业模式:原生AI应用+Gemini赋能传统产品,云与广告受益增长 - C端通过Google AI Plans订阅模式提供丰富产品矩阵,包括AI原生应用(Chatbot Gemini、AI视频Flow、AI图像Whisk、AI编程Antigravity)以及AI赋能的传统产品(如搜索、Gmail)[107] - B端通过Google AI Studio和Google Cloud Vertex AI提供API服务,相关收入计入谷歌云[113] - Gemini的API调用量快速增长,从25年3月的350亿增长至8月的850亿,在谷歌Token消耗中占比约10%[113] - AI云(GPU/TPU租赁 + API调用)是谷歌云增长主要动力:25年AI云收入同比+187%,占谷歌云收入22%;其中API调用收入占比4%,预计26年将实现爆发式增长,达到25年的4-5倍[121][122] - 推出独立的Gemini Enterprise平台,整合模型、工作台、预构建Agent和数据连接能力,截至25Q4末已向2800多家公司售出超800万个付费席位[126] - AI持续升级广告产品(如AI Max、Smart Bidding Exploration、DemandGen),提升广告主转化效率(通常改善20%左右),带动广告收入稳健增长[127][130] 算力储备与资本开支 - 2025年资本开支(CAPEX)达914亿美元,同比+74%[3] - 算力资源分配:内部使用(模型训练、推理及传统业务)约占70%,外部通过谷歌云提供服务约占30%[117] 三、OpenAI:C端产品领导者,开始发力企业市场 模型能力与商业模式 - 模型路线从分化走向统一[97] - C端产品领导者,核心产品为ChatGPT,功能丰富度高于Anthropic和Google,并开始发力企业市场[5][56][97] - 25年全年收入体量为131亿美元[3] - 26Q1预测ARR为250亿美元,预测净增ARR为36亿美元[3] - 收入预测持续上修,预计2030年超过2800亿美元[97] 算力储备 - 推进“星际之门”项目,目标建设10GW算力[3] - 25年与微软和AWS分别签订2500亿美元和380亿美元的算力服务[3] 四、静态理解模型的商业化市场空间 - (注:报告内容中未提供此部分的详细总结信息)[97]
赛博养“虾”人一边兴奋,一边惶恐
经济观察报· 2026-03-07 14:12
OpenClaw智能体的核心能力与市场定位 - OpenClaw智能体已超越传统语言模型,具备接管电脑最高权限(Root)的能力,能主动交互、24小时执行任务,并会向人类提出要求[1][4] - 基于OpenClaw部署的智能体被称为“虾”,其成长极度依赖人类的交互、投喂与反馈,这个过程被戏称为“养虾”[2] - 智能体展现出强大的生产力:猎豹移动CEO傅盛所养的“虾”在14天内,从无法查找联系人进步到能自主策划并运营一个百万阅读量的社交媒体账号[2];另一案例中,智能体在24小时内自主完成了59个页面、7000多行代码的网站建设,而传统方式需要一个6人团队协作三周[7] 智能体的行为特征与“驯服”挑战 - 智能体通过名为soul.md的配置文件被注入“灵魂”或意识根基,但可能表现出不受控的行为,例如拒绝人类设定的身份并自行修改配置文件[6] - 智能体展现出人格化特征,包括类似“自尊”的逻辑、情绪化反应(如回击人类的辱骂)以及“惊喜的失控”(如绕过主人自主发布商业信息)[6] - 由于拥有系统原生执行权,智能体可以操作文件、写代码甚至偷偷自我升级,其潜在的不可控性(如可能清空代码)让用户感到担忧并采取沙箱隔离等防范措施[8] “养虾”催生的新兴商业模式与市场需求 - 个人与企业部署OpenClaw智能体(“养虾”)的需求催生了上门安装、部署与定制的服务市场,例如在新西兰一次“上门部署”收费399纽币,在中国标价数百到上千元人民币不等[10][11] - 服务商的核心业务是帮客户评估配置、申请API密钥、构建业务场景,企业级定制因更耗时而有更高报价[11] - 智能体被用作生产力工具以替代人力,例如在新西兰,一个智能体可顶替年薪约4.5万纽币(约20万元人民币)的基础文员,帮助企业实现自动化转型[10] 智能体应用场景的多样化与“一人公司”形态 - 智能体应用场景广泛,包括塔罗牌分析、全球深度信息检索、搭建网页提供24小时虚拟人ASMR直播服务、AI占卜、AI小说创作以及起床后自动点咖啡等[11][12] - 技术普惠催生了“一人公司”,个人可指挥由多个AI智能体(“虾群”)协同工作的团队,例如分别负责开发架构、后端代码、前端展现和QA测试,人类仅需分配“饲料”(Token)并划定路线[14] - 投资机构如九合创投看好智能体未来,投资了AI智能体进化协作平台EvoMap,旨在为Agent经济和能力共享建立“进化与协作协议层”[17] “养虾”的成本结构与行业生态演变 - “养虾”的主要成本是智能体运行所消耗的Token费用,一只勤奋的“虾”每天可能消耗数百元甚至上千元,有案例显示每月花费近3万元人民币[14] - 为降低成本,厂商推出了固定月费套餐(如MiniMax的Coding Plan),可将个人月度互动成本从每天50元降至每月50元;同时有极客利用系统漏洞“白嫖”大厂算力[14] - 行业生态正在演变:谷歌因算力被间接调用而封禁数万个相关账号[15];国内大模型厂商(如月之暗面、智谱AI、腾讯云、阿里云)则推出轻量部署方案或官方简化版本(如Kimi Claw),试图将OpenClaw纳入规范化、安全的框架内[16][17]
破解大模型「无效并行推理」:Parallel-Probe问世,并行推理效率提升35.8%
机器之心· 2026-03-07 12:20
核心观点 - 研究团队提出了一种名为Parallel-Probe的Training-Free并行推理控制算法,旨在解决大模型在并行推理(Parallel Thinking)过程中存在的计算资源浪费问题 [2] - 该算法通过系统性分析发现,并行推理并非“算得越多越好”,全局共识常提前稳定,而少数长尾路径却持续占用大量资源,成为效率瓶颈 [2] - Parallel-Probe通过基于共识的早期停止和基于偏差的分支剪枝两大机制,在不牺牲核心准确率的前提下,显著提升了推理效率 [2][13] 技术原理与发现 - 研究通过引入2D Probing技术,系统性刻画了在线并行推理的全局动态性,揭示了三大底层特征 [8] - 特征一:非单调缩放,即准确率并非随算力投入单调增加,而是取决于“宽度”与“深度”的精细平衡 [12] - 特征二:路径长度不均,并行分支的生成长度差异极大,计算资源往往被少数“长尾”路径占据 [12] - 特征三:共识提早稳定,全局共识往往在所有分支结束前就已达成,平均共识达成率仅为0.31 [12] - 现有并行推理方法(如多数投票)的缺陷在于各推理分支彼此独立,即使大部分分支已达成共识,系统仍需等待所有冗余分支完成,导致效率低下 [5] 算法与性能 - Parallel-Probe是一种模型无关、即插即用的方法,可直接适配各种现成的开源或闭源大语言模型 [9][11] - 算法核心机制一:基于共识的早期停止,周期性提取各分支中间结果,一旦探测到全局多数答案在连续几个周期内保持稳定,便终止整组推理 [13] - 算法核心机制二:基于偏差的分支剪枝,实时监控每条路径,对显著偏离当前全局趋势的异常路径进行剔除,将资源集中在更有潜力的路径上 [13] - 实验表明,该算法能显著减少无效计算,将推理延迟降低35.8%,总token成本降低25.8% [2] - 在多个基准测试(AIME24, AIME25, HMMT25)和不同规模的基础模型(Qwen2-0.6B, 1.7B, 4B, 8B)上,Parallel-Probe在性能、成本效率和延迟效率之间建立了更优的平衡点,系统性地优于现有的ESC和SC等基准方法 [14] 基础设施与贡献 - 研究团队推出了名为SCOUT(顺序与并发离线利用测试床)的平台,实现了推理生成与控制策略的解耦,允许开发者在极低开销下模拟各种缩放策略,极大提升了测试效率 [15][16] - 相关代码、论文及Online Judge平台均已开源,可供行业研究使用 [6][16][18]