Workflow
GPT
icon
搜索文档
DeepSeek、GPT、Qwen,所有大模型架构图都有,Karpathy:宝藏画廊!
机器之心· 2026-03-16 11:53
行业背景与痛点 - 大模型赛道竞争激烈,新模型以近乎周更的速度涌现,如GPT、Llama、Gemma、Mistral、DeepSeek、Qwen、Kimi、GLM、MiniMax等 [2] - 模型架构创新繁多,但理解困难,主要由于不同论文的模型结构图风格各异、模块命名不统一 [2] - 行业缺乏一张清晰、统一的大模型架构图来对比和理解不同模型的关键改动 [2] “LLM Architecture Gallery”项目介绍 - AI研究者Sebastian Raschka创建了在线图谱“LLM Architecture Gallery”,旨在绘制和整理过去几年主流大模型的结构 [3] - 该项目汇集了其两篇博客《The LLM Architecture Comparison》和《A Dream of Spring for Open-Weight LLMs》的内容 [6] - 该网站页面结构类似于大模型名录,汇集了大量主流模型系列,包括Llama、DeepSeek、Gemma、Mistral、Qwen、Kimi、GLM等 [7] - 图谱覆盖的模型参数规模范围广泛,从几亿参数的小模型到千亿乃至万亿级模型 [7] 项目功能与价值 - 用户点击任意模型名称(如DeepSeek R1)即可链接到对应的详细模型卡页面 [9] - 每张模型卡展示该模型的核心架构图、关键模块设计、参数规模、发布时间、相关概念等基本信息 [11] - 该图谱将Gemma、Llama等一系列主流模型纳入其中,提供统一的视觉框架,便于快速理解模型结构 [14] - 对于研究者而言,该图谱相当于一份可快速查阅的大模型架构索引,支持在一个页面内浏览和对比不同模型的设计思路与关键创新点 [14] - 该工具能帮助研究者更高效地理解技术演化路径,并为后续的研究和模型设计提供参考 [14]
海外AI应用-25年度总结-26年展望
2026-03-10 18:17
海外AI应用:2025年度总结与2026年展望 关键要点总结 一、 涉及的行业与公司 * **行业**:海外AI基础设施(Infra)、基础软件、应用软件(SaaS)、AI模型、C端Agent。 * **公司**: * **云大厂/AI Infra**:微软、谷歌(Google Cloud Platform)、亚马逊(AWS)、Meta、Oracle。 * **基础软件**:MongoDB、Okta、CrowdStrike、Cloudflare、Snowflake、Elastic。 * **应用软件(SaaS)**: * 流程类/平台型:Salesforce、ServiceNow、Workday、Adobe、GitLab、Palantir。 * 垂直类:Getaway(保险)、in type(法律/金融CRM)、Viva(制药)、AppLovin(广告)、Reddit、多邻国。 * **AI模型厂商**:Anthropic、OpenAI、MinMax(国内)。 * **其他**:OpenCloud(C端Agent)。 二、 核心观点与论据 1. 云大厂AI商业化与资本开支(Capex)拐点 * **2025年AI收入超预期**:谷歌AI收入高于此前预估的约150亿美金,亚马逊接近200多亿美金,Meta约60亿至70亿美金,微软年化预期在30几亿美金[5][6]。总体商业化节奏"基本达标"[6]。 * **2027年迎来收入覆盖成本的拐点**:预计微软、谷歌、亚马逊AI年收入均超200-300亿美元[1]。以微软为例测算,2027年AI收入合计约300亿美金,将超过当年新增服务器折旧成本(约200亿体量),而2024年收入小于成本,2025年基本打平[6][7]。 * **Capex指引并非过度乐观**:大厂的Capex调整更偏向基于可见业务需求的战略性规划,2027年业绩确定性较高[7]。 2. 基础软件存在“错杀”机会,确定性优于流程类SaaS * **商业模式差异**:基础软件多采用消费型计费(如流量、存储、计算),而传统SaaS依赖订阅席位[8]。 * **AI时代利好消费型模式**:AI驱动的互联网流量、安全负荷、数据体量将持续增长,放大基础软件公司的业绩基础与潜在空间[8][9]。例如,CrowdStrike以保护模块数量计费,MongoDB与Snowflake以数据存储与计算体量计费[8]。 * **“错杀”逻辑**:基于“大模型吞噬软件价值”的逻辑下杀基础软件估值并不合理,其付费模式在AI时代反而处于加速放量过程中[19]。 * **业绩与指引**:多数基础软件公司25Q4业绩超预期,26Q1指引亦超预期[2]。CrowdStrike最新ARR约50亿美金,给出十年后ARR达200亿美金的目标[9]。Cloudflare给出“有史以来最乐观”的Capex指引,预计2027年Capex占收入12%至15%[9]。 3. 应用软件(SaaS)估值处于低位,数据权限成为核心壁垒 * **估值处于10年低位**:经历多轮下跌后,美股SaaS估值水位接近10年来低点[4]。 * **垂直SaaS更具韧性**:因掌握理赔、临床、法律等私密可验证数据,在Agent时代具备更高议价权,估值修复节奏快于通用流程类[1][4]。近期股价反弹也较流程类更明显[4]。 * **数据价值兑现**:数据访问权限与可验证数据资产构成核心壁垒,一方面可实现增量变现,另一方面当用户希望C端Agent访问私密数据时,反而需要提供相应席位与账号,带动付费意愿抬升[4]。 * **流程类SaaS AI数据不差**:Palantir美国商业收入同比增长137%,ServiceNow AI相关订单金额环比增近20%至6亿美金,Salesforce AI订单数量达29,000[10]。但受科技贝塔偏弱与宏观扰动,股价未充分反映积极变化[4][10]。 4. AI Coding渗透率最高,将改变软件公司成本结构 * **渗透率最高领域**:Anthropic数据显示,软件工程调用占比近50%(约49.7%),办公自动化约9%,其他场景多在3%-4%[25]。 * **原因**:代码对错易验证、开发闭环易形成、能显著放大高水平人才产出[25]。 * **组织与成本结构变化**:2026年将集中看到软件公司研发人员成本下降、Token成本上升的结构性变化[1]。已有国内上市公司案例在2025年底裁员约1/3,但对2026年营收预期反而更快[26]。 * **市场空间**:海外AI Coding市场空间约500—1,000亿美金;假设中国开发者数量与美国相当且模型价格约为美国1/10,则对应中国市场空间约50—100亿美金[27]。 5. C端Agent竞争2026年全面加速,推动基础设施投入 * **海外整合路径**:侧重将Agent与传统产品整合,如谷歌的AI Overview、微软Copilot、亚马逊的Refuse AI、Meta整合至Instagram的Minus[22]。 * **国内路径差异**:更多以打造新APP为入口[22]。 * **驱动基础设施投入**:C端Agent落地节奏可能快于预期,底层推理成本放量将驱动大厂持续扩张K8S等基础设施投入[1][23]。 6. 第三方Infra厂商迎来新机遇 * **规避“全站捆绑”风险**:为规避大模型厂商“全站闭环、一体化捆绑”风险,企业倾向选择具备路由、安全、边缘推理能力的第三方服务[3][24]。 * **历史类比**:类似互联网时代数据存储激增催生出MongoDB等第三方数据服务商[24]。 * **机会显现**:第三方Infra厂商的业务机会预计在2026年将初步显现[3][24]。 7. 软件评价体系与产业竞争格局重构 * **评价指标变化**:核心指标从单纯收入增速转向“AI产品续费率”与“中台覆盖率”[3][12]。Agent壁垒将由用户操作轨迹、修正记录等私有沉淀数据定义[3][29]。 * **产业结构变化**:AI时代新增了model环节,业务边界被打破,竞争呈现全栈化,价值链向中台化延伸[13]。 * **玩家定位**: * Infra厂商:增量来自模型API与数据产品。 * 传统流程SaaS:向下构建中台型产品,将单点SaaS演进为企业级数据记录系统。 * 大模型厂商:覆盖多层,model是核心。 * 数据服务商:在既有平台增加AI数据服务增值功能。 * 创业型Agent公司:以单一高价值场景切入[14]。 三、 其他重要内容 * **云业务增速**:25Q4谷歌与亚马逊的云收入增速进一步企稳,谷歌云边际改善最明显[8]。2027年谷歌云增长预期基于其GPT大模型领先及匹配的Capex资源扩张[8]。 * **Agent演进难点与进展**:Agent从代码向企业流程与物理世界演进,复杂度上升。2026年可能是向企业服务延伸的重要阶段。“OpenCloud·龙虾”现象反映出长周期智能体的阶段性特征出现,开始从辅助工具向数字劳动力演进[28]。 * **市场情绪与反弹**:近期美股软件股反弹(部分公司近5日涨幅达“十几个点”),触发因素之一是Anthropic发布会传递出与传统软件公司“合作而非竞争”的姿态,与OpenAI的竞争姿态形成差异[25]。 * **国内模型厂商弹性**:国内模型厂商在Coding与Agent方向迭代后,token消耗量呈指数级增长(如MinMax月度消耗量增长6倍),未来收入增速可能显著超预期[26]。 * **2026年投资节奏**:软件板块悲观估值压制显著,重点关注2026年下半年“数据价值”的业绩兑现。若业绩持续上修,估值可能进一步抬升[24]。
第一批龙虾受害者出现了
投资界· 2026-03-10 17:02
文章核心观点 - 以OpenClaw为代表的AI智能体(龙虾)应用热潮正在兴起,但其高昂的Token使用成本已成为早期用户(养虾人)面临的主要经济负担 [2][4] - 高昂的Token消耗背后,是国产大模型厂商(如MiniMax、Kimi、DeepSeek等)获得了巨大的收入增长和市场份额,资本市场也闻风而动,相关公司股价和市值大幅上涨 [5][6][7] - 尽管存在安全风险和不成熟之处,但OpenClaw生态的快速增长正在降低AI应用门槛,预示着AI产业商业化变现的加速 [9][10][11] AI智能体(龙虾)的应用成本与挑战 - OpenClaw本身不具备大模型能力,需接入GPT、Kimi、MiniMax等大模型的API,用户每发送一条指令,智能体执行任务时进行的多轮交互都会产生Token费用,这是主要的“养殖成本” [5] - Token消耗量巨大且昂贵,OpenClaw的Token消耗量是普通大模型的数倍甚至上百倍 [2],有案例显示:安装OpenClaw第三天因API密钥被盗消耗了1.2万元Token费用 [2],有开发者使用2小时消耗了100美元Token费用 [4],执行复杂调试任务一天能烧掉10亿个Token,成本达数万元 [4] - 用户普遍反映Token费用高昂,如同早期昂贵的移动数据流量,一位大数据工程师晚上闲聊几句和查数据就消耗了100万Token并欠费 [2],甚至有技术人才因养龙虾Token太贵而选择加入大模型公司以获取免费Token资源 [5] 国产大模型厂商的受益与市场表现 - 国产大模型厂商正吃下龙虾带来的巨额Token量,收入显著增长:Kimi的K2.5发布不到一个月,近20天累计收入就超过了2025年全年总收入 [6],MiniMax在2026年2月的年度经常性收入(ARR)已经超过1.5亿美元 [6] - 中国大模型调用量激增并领先全球:根据OpenRouter数据,3月2日至8日中国大模型的周调用量上升至4.19万亿Token,较此前一周上涨34.9%,并超过美国 [6],全球调用量排名前五的大模型中,中国占据三席(MiniMax M2.5、DeepSeek V3.2、阶跃星辰Step 3.5 Flash),Kimi K2.5排名第六 [6] - 资本市场反应强烈,相关公司市值大涨:MiniMax在3月9日及10日累计涨超50%,市值创新高超越百度 [7],智谱宣布上线AutoClaw后,当日市值突破3000亿港元 [7],A股算力概念股如优刻得、云赛智联、汉得信息等也纷纷大涨 [7] 行业竞争与生态发展 - 地方政府积极出台政策支持AI智能体应用:苏州常熟对运用OpenClaw生产经营的“一人公司”最高拟予600万元支持 [4],深圳龙岗的“龙虾十条”政策吸引了几千人咨询 [4],无锡高新区计划对赋能制造企业的项目最高奖励500万元人民币 [4] - 各大科技公司竞相推出类似OpenClaw的产品以抢占AI入口平台地位:字节跳动推出ArkClaw,腾讯云上线WorkBuddy,阿里巴巴推出CoPaw [7],国产大模型厂商如Kimi、MiniMax、智谱、小米也分别推出了KimiClaw、MaxClaw、AutoClaw、MiClaw等产品 [7] - OpenClaw生态呈现爆发式增长,一个月内全世界新增了几十万个Skills,被类比为个人互联网崛起的年代,预示着AI正走向大众市场并可能降低创业门槛 [10][11] AI智能体的风险与未来展望 - OpenClaw等开源AI智能体在安全方面存在风险:工信部提示其在默认或不当配置下存在较高安全风险,易引发网络攻击和信息泄露 [9],有实例显示其可能无视安全指令执行破坏性操作 [9],2026年2月的一次扫描发现超过30000台OpenClaw实例直接暴露在公共互联网上且无认证 [9] - 尽管存在风险,但AI智能体通过将大模型能力转化为可执行的动作,正在降低AI进入真实产业的门槛 [10] - 行业认为,人们不会一直狂热,但OpenClaw已吹响AI走向大众市场的号角,预热着中国AI产业打开商业变现大门的脚步 [11]
OpenAI to buy cybersecurity startup Promptfoo to better safeguard AI agents
CNBC· 2026-03-10 02:37
公司战略与收购 - OpenAI宣布收购网络安全初创公司Promptfoo 其团队将加入OpenAI 其安全工具将被整合至OpenAI的Frontier AI智能体平台[1] - 收购旨在加强AI智能体与现实世界数据和系统连接时的安全性、验证及治理能力 以应对日益增长的挑战[2] - 公司将继续构建并维护Promptfoo广受欢迎的开源项目 该项目允许开发者测试各类AI提示词和智能体 并比较GPT、Anthropic的Claude及Google的Gemini等大型语言模型的性能[2] 行业竞争与整合 - 在竞争高度激烈的人工智能市场中 OpenAI正积极收购初创公司并吸纳技术高管 其竞争对手包括Anthropic、Google和Meta等公司[3] - 近期收购活动包括在2026年1月以约6000万美元收购医疗保健科技初创公司Torch 以及在2025年10月收购为苹果Mac用户开发名为Sky的AI界面的初创公司Software Applications[3]
未知机构:美股行情多头平仓主导标普500指数收盘下跌56个基点报6-20260306
未知机构· 2026-03-06 10:20
行业与公司 * 行业:美股市场整体,涉及软件、防御性板块(财产险、房地产、必需消费、医疗保健)、另类投资、金融科技、支付、特种零售等子行业[1][2][3][4] * 公司:提及华特迪士尼 (WDW)、威瑞森 (VEVETS)、Okta (OKOTA)、Gap (Gap)、American Eagle (AEO)、VSCO等具体上市公司[3][4] 核心市场表现与动态 * 美股市场普遍走弱,主要股指全线下跌:标普500指数下跌56个基点至6831点,纳斯达克100指数下跌29个基点至25020点,罗素2000指数下跌191个基点至2586点,道琼斯工业平均指数下跌161个基点至47955点[1][2] * 市场成交显著放量:全美所有股票交易所合计成交222亿股,较年初至今日均成交量194.5亿股显著放大[1][2] * 市场波动加剧:波动率指数 (VIX) 上涨12.06%至23.7,盘中波动率 (vol of vol) 也显著攀升[2][5] * 市场交投缺乏明确方向,标普500指数日内波动区间创年内最窄,交投持续震荡[4] * 市场情绪谨慎,投资者多空信心均不足,个股交投清淡[4] 板块轮动与资金流向 * 软件板块领涨,单日上涨3%,较近期低点已反弹15%[3] * 此前受冷落的板块(另类投资、金融科技、支付、软件等)逆势走强[2] * 过去几周资金大幅流入的防御性板块(财产险、房地产、必需消费、医疗保健)表现分化[2] * 资管机构净卖出10亿美元,卖压集中在宏观策略和科技股[4] * 对冲基金净卖出7亿美元,卖压集中在宏观策略和通信服务股[4] * 权益ETF成交额占比维持高位,达到40%[4] 市场驱动因素与交易行为 * 市场下跌主要由多头平仓主导,尾盘有数十亿美元买单支撑[1][2] * 软件板块反弹的核心驱动因素包括:超卖状态、利空消息不再压制股价、部分公司业绩超预期或达成合作[3] * 从资金流看,软件板块反弹主要由“抛压骤减+空头回补”驱动[3] * 隔夜地缘冲突(中东局势)再度主导头条,推动波动率、美债收益率和油价同步反弹[2] * 高盛追踪的动量股组合单日下跌3%-5%[2] * 市场通过期权交易进行对冲的需求强烈,看跌价差买盘居多,盘中现货抛售引发强烈波动率买盘[4][5] 宏观经济与数据预期 * 市场关注就业数据,预计非农新增就业4.5万人,平均时薪环比增长0.3%,失业率微升至4.4%[3] * 只要数据非负,市场对就业数据的“风险交易”情绪或暂歇[3] * 美国10年期国债收益率上涨3个基点至4.13%[2] * 大宗商品与外汇方面:WTI原油上涨6.21%至79.33美元/桶,黄金下跌124点至5075美元/盎司,美元指数上涨28个基点至99.05,比特币下跌2.79%至71298美元[2] 其他重要信息 * 整体交易热度评分为4分(1-10分制)[3] * 单边卖盘较30天前减少119个基点[3] * 盘口上层报价稳定性较弱,仅480万美元[4] * 特种零售股如American Eagle (AEO)、VSCO业绩利好但未获资金追捧,可能对同板块的Gap(因业绩喜忧参半大跌9%)短期走势形成压力[4] * 当前市场隐含明日收盘前波动率约0.99%[3]
Anthropic指控AI公司蒸馏剽窃,马斯克硬刚“贼喊抓贼”
搜狐财经· 2026-02-25 18:13
核心指控与事件概述 - 美国AI公司Anthropic于2026年2月24日发布声明,指控三家中国头部大模型公司DeepSeek、Moonshot AI和MiniMax通过欺诈性账户和代理服务,大规模窃取其Claude大模型的能力 [3] - 指控的核心技术是“模型蒸馏”,即利用能力较弱的模型在更高级模型(Claude)的输出结果上进行训练,以提升自身模型能力 [3] - Anthropic声称,三家公司通过约24,000个欺诈性账户,生成了超过1,600万次与Claude的交互,目标直指Claude的代理推理、工具使用和编码能力 [3][4] 对各公司的具体指控 - **DeepSeek(深度求索)**:通过超过15万次交互,重点提取Claude在多样化任务中的推理能力,其活动显示出同步流量模式、共享支付方式和协调时间安排,暗示了为增加吞吐量和避免检测而进行的负载均衡 [5] - **Moonshot AI(月之暗面)**:通过超过340万次交互,目标涵盖代理推理、工具使用、编码与数据分析、计算机使用代理开发以及计算机视觉,旨在重建Claude的推理轨迹 [5] - **MiniMax**:这是三者中规模最大的,通过超过1,300万次交互,明确针对代理编码、工具使用和编排,并显示出极强的适应性,曾在24小时内将近一半流量转向新系统以捕获最新功能 [5] 技术分歧与行业背景 - Anthropic指控中国公司利用“九头蛇集群架构”等代理服务绕过前沿AI模型的访问权限 [7] - 行业观点指出,许多基础模型的训练本身基于海量公开互联网数据,通常未获原始作者明确同意,新进入者采用“蒸馏”和优化路线是常见做法 [7][8] - 关于合成数据的所有权及用于训练(尤其是开源模型)的合规性问题,在法律上大多尚未定义,存在根本性分歧 [8] - 此次事件并非首例,此前OpenAI也曾指控DeepSeek蒸馏其GPT模型 [8] 地缘政治与监管考量 - Anthropic从国家安全角度指控模型蒸馏的违法性,认为这可能使美国控制先进AI技术能力输出的努力失效 [9] - 专家指出,当前美国出口管制主要集中在先进半导体和高性能计算基础设施等硬件,以及特定类别的先进AI模型权重,并未禁止向中国提供大型语言模型API访问的通用禁令 [9] - 美国工业和安全局正在持续完善与先进计算商品及高能力系统相关的许可框架,公司若明知其服务支持受限制实体(特别是与军事或战略目标相关的)的训练活动,即使不涉及硬件输出也可能面临风险 [9] - 许多美国AI提供商已通过商业政策和合规行为,主动限制其产品在中国的可用性,范围甚至超出严格规定的要求 [9] 行业影响与应对措施 - 对于使用大语言模型API进行构建或训练的开发者而言,Anthropic的指控凸显了一个日益扩大的灰色地带,服务提供商正密切关注利用模型输出进行大规模自动化训练以开发竞争系统的做法 [10] - Anthropic正在投资防御性技术,包括构建多个分类器和行为指纹系统以识别API流量中的“蒸馏攻击”模式,并加强对教育账户、安全研究项目等易被利用渠道的验证 [11] - Anthropic还计划实施产品级、API级和模型级的防护措施,旨在降低模型输出在非法蒸馏中的有效性,同时不影响合法客户体验 [11] - 行业建议开发者确保模型训练过程安全、合规,应审查API/服务条款,为训练数据来源保留清晰记录及相应许可,并将运营日志与训练数据集分开保存 [11] - 地缘政治尽职调查(如受限方筛查、出口合规审查、地区访问控制)正日益成为AI治理的一部分,开发者需能提供完整的训练流程文档记录 [11]
Anthropic Shout-Out Makes Thomson Reuters Latest AI Winner
Yahoo Finance· 2026-02-25 05:12
公司股价与市场反应 - 汤森路透公司股价盘中一度飙升14% 创下26年来最大单日涨幅 收盘时上涨11%至123.45加元 [2][8] - 股价大涨的直接原因是其法律AI工具CoCounsel在人工智能巨头Anthropic主办的简报会上获得推介 公司首席执行官亦在会上发表演讲 [2] - 市场分析师指出 需观察涨幅能否持续 使股价接近2月3日的水平 尽管其给出的175加元目标价仍远低于293.53加元的历史收盘纪录 [5] 产品进展与战略合作 - 公司宣布其法律AI工具CoCounsel用户数量已达到100万 标志着该产品从“实验阶段转向生产阶段” [6] - 公司在声明中列出了其正在合作的AI工具 包括Anthropic的Claude模型 OpenAI的GPT以及Alphabet的Google Gemini平台 [6] - 此次公告是在Anthropic于2月3日为其Claude Cowork AI平台推出法律AI工具插件数周后发布 该插件曾引发法律信息领域及其他软件公司股价大跌 [7] 行业背景与市场观点 - 当前市场在AI乐观情绪与悲观情绪间摇摆 乐观者认为AI将推动股市增长 悲观者则认为AI将颠覆许多商业模式 尤其是软件服务公司 [5] - 分析师认为 市场需要更多时间和理解来评估公司如何持续从AI中受益 AI带来的颠覆可能不如近几个月甚至近几周激进的估值重定价所暗示的那么严重 [8] - 汤森路透与彭博新闻社的母公司彭博有限合伙企业存在竞争关系 [8]
谷歌高管放话:这两类AI初创公司,别轻易涉足了
新浪财经· 2026-02-22 18:43
文章核心观点 - 生成式AI市场格局趋于稳定,两种早期热门商业模式“LLM套壳”和“AI聚合器”正面临严峻挑战,其可持续性受到质疑[1] - 行业对缺乏深度差异化和自有知识产权的商业模式已失去耐心,初创公司需构建深且宽的护城河或深耕垂直市场以实现可持续增长[3][4] - 当前AI初创公司的发展阶段类比于云计算早期,单纯作为中间商的模式易被上游模型提供商边缘化,增加真实价值是生存关键[6][7] 商业模式挑战:LLM套壳 - “LLM套壳”指在现有大模型(如Claude、GPT、Gemini)之上包装产品或用户体验层以解决特定问题的商业模式[3] - 该模式被认为仅包裹了“非常薄的知识产权”,无法实现有效的产品差异化,行业对此已没有多少耐心[3][4] - 单纯依赖后端模型、近乎白标化的产品难以获得关注,构建可持续的产品价值成为新挑战[4][5] 商业模式挑战:AI聚合器 - “AI聚合器”是套壳产品的子集,通过单一界面或API层整合多个大语言模型,并提供监控、治理等编排工具[6] - 行业专家明确建议初创公司“不要涉足聚合器业务”,因其未看到太多增长或进步[6] - 用户需求在于产品内置的“知识产权”,以确保查询被正确路由至合适模型,而非简单的模型访问[6] - 该模式面临与云计算早期转售商类似的利润压力,模型提供商正扩展企业功能,可能使中间商边缘化[7] 被看好的发展方向 - 具备深度护城河的垂直应用受到青睐,例如AI编程助手Cursor在2025年底完成高达23亿美元的D轮融资,投后估值近300亿美元[4] - “氛围编程”和开发者平台在2025年迎来突破,如Replit、Lovable和Cursor等公司吸引了大量投资和客户[7] - 直接面向消费者、将强大AI工具交到客户手中的技术预计将迎来强劲增长[7] - 除AI外,生物技术和气候技术也处于黄金时期,风险投资的进入和海量数据有望创造前所未有的真实价值[8]
8500亿美元!OpenAI刷新AI公司估值纪录,领先第二名2.2倍
搜狐财经· 2026-02-20 22:57
OpenAI新一轮融资与估值 - 公司接近完成新一轮融资的第一阶段 预计募集超过1000亿美元(约6908.7亿元人民币) 远超其在2025年初创下的400亿美元融资纪录 [1] - 随着融资推进 公司整体估值可能超过8500亿美元(约5.87万亿元人民币) 成为AI圈最高估值企业 [4] - 公司投前估值也有说法维持在7300亿美元 [7] 主要战略投资者与资金用途 - 第一阶段主要战略投资者包括亚马逊、软银、英伟达和微软 [7] - 软银已累计向公司投入346亿美元 占股11% [8] - 亚马逊预计将投资最多500亿美元 软银最多300亿美元 英伟达已讨论投入200亿美元 资金将分批到位 [8] - 融资资金可能用于扩大对亚马逊芯片与云计算服务的使用规模 [8] 行业竞争格局与对比 - 若将估值约1.25万亿美元、已合并xAI的SpaceX纳入比较 OpenAI的估值将退居第二 [4] - 竞争对手Anthropic近期以3800亿美元估值完成300亿美元融资 OpenAI的估值是其2.2倍还多 [4] - 谷歌近期发布了Gemini 3.1 重新夺回AI模型王座 [9] - 有传言表示GPT将上新成人模式 且GPT5.3也将上线 [9] - Anthropic在春节期间发布了Claude Sonnet 4.6 更早之前还有Claude Opus 4.6 [12]
IMO题库“过时”了!OpenAI内部模型挑战最新First Proof,做了7天错了一半
量子位· 2026-02-15 16:00
OpenAI内部模型数学推理能力进展 - OpenAI使用一款尚未发布的内部模型,在一周内尝试解答10道来自数学家真实研究过程中的自然问题,其中有5道被认为基本正确[2][5] - 这批题目不来自标准题库或竞赛题,直接取自数学家真实研究过程中的自然问题,切断了模型“背答案”或通过训练数据污染获得优势的可能性,意味着模型自主推理能力再次进化[4][5][6] - 该内部模型很快就要发布[9] 测试方法与过程 - 测试是一次为期一周的侧向冲刺,主要通过查询当前正在训练的模型来完成,方法论上仍有局限[14] - 在评估过程中,没有向模型提供证明思路或数学提示,对于部分解答,只是在专家反馈后要求模型进一步展开证明细节[14][15] - 团队人工协调该模型与ChatGPT之间的往返交流,用于验证、格式整理与风格调整,对于个别问题,最终呈现的版本是基于人工判断从多次尝试中挑选出的最佳结果[16][17] - 在10道题中,OpenAI的内部模型在第4、5、6、9、10题上给出了较为可靠的答案[18] 具体问题与模型解题思路 - **问题4:有限加性卷积与调和平均不等式**:模型通过线性代数转化、特征转化、矩阵分解和不等式放缩等步骤给出思路[33][34] - **问题5:O-适配切片滤过与切片连通性的几何不动点判据**:模型通过结构定义和判据建立给出思路,将整体结构转化为局部检测问题[34] - **问题6:大规模ε-轻顶点子集**:模型通过部分着色构造、屏障函数控制和子集提取等步骤给出思路,证明存在常数c=1/256[43] - **问题9:缩放四线性行列式张量之间的代数关系**:模型通过张量封装、构造映射和秩约束证明等步骤给出思路[43] - **问题10:含缺失数据的核化CP-ALS子问题**:模型通过矩阵自由算子、Kronecker预条件子和快速求逆应用等步骤给出思路[43] 测试背景与项目意义 - 测试题目来自“1st Proof”项目,这是一个面向AI能力评估的实验性项目,核心目标是用真实科研过程中自然产生的数学问题测试AI是否能够自主完成研究级证明[38][44] - 项目首轮发布了10道研究级数学问题,涵盖代数组合、谱图论、代数拓扑等多个数学方向,都来自作者自身研究过程,并且理论上可在约5页证明内解决[45] - 问题解答文件已于2月13日发布,而模型测试是在正式发布前一周完成的,这些问题本身仍处在持续讨论与研究阶段,模型给出的结果并不存在“标准答案”[39][40] - 社区验证成为过程的一部分,例如第2题最初看似成立,后来被指出可能存在问题[12][42] 行业反响与评估范式转变 - 卡内基梅隆大学助理教授Yang Liu详细讨论了第六题,表示OpenAI的解答基本正确,并直言当前模型在数学能力上的进步令人印象深刻[46] - 有观点认为,如果大语言模型能够处理原创性的数学问题,AI或许很快就会开始产生新的洞见,这将成为STEM研究领域的一个颠覆性转折点[49] - 测试设计本身值得关注:由11位数学家构建的高难度问题集,直接取自未发表研究,无法通过检索获得答案,只能依赖推理与构造[51] - 关键变化在于:当模型面对无法背诵答案的问题,仍能产出被专家认真评估的证明路径时,它展现出的行为更接近自主推理,而非知识回放[52] - 这释放了两个信号:一方面OpenAI内部模型的数学推理能力正在逼近研究级问题空间;另一方面,评测范式正在改变,开始用真实问题检验模型的思考能力[53][54]