Workflow
Scaling Law
icon
搜索文档
终于发布的GPT-5,和它改变世界的982天
36氪· 2025-08-08 08:07
模型发布与性能 - GPT-5采用多层级架构整合o3系列推理能力 重点提升智能体能力 未公布具体参数规模 [9] - 上线后迅速屠榜LMArena竞技场 所有细分类目均位列第一 [10][12] - 提供四个版本:标准版GPT-5 轻量版GPT-5 mini 高速版GPT-5 nano 以及ChatGPT专用版GPT-5 Chat [18] - 系统由三部分组成:基础模型 深度推理模型GPT-5 thinking 实时路由器real-time router [20] 技术架构创新 - 统一模型架构整合GPT系列语言模型与o系列推理模型 具备调度子模型能力 [19] - 开源两款MoE模型gpt-oss-20b(21B参数)和gpt-oss-120b(117B参数) 采用Apache 2.0许可协议 [52][53] - 开源模型专门为智能体设计 120B版本可在高端笔记本运行 20B版本适配手机端 [54] - 词表超过20万 支持多语种与代码混合输入 直接对标DeepSeek与阿里Qwen3 [54] 商业化策略 - API价格显著降低 GPT-5输入1.25美元/M Tokens 仅为o1-pro价格的1/120 [24][25] - 美国联邦政府机构可1美元订阅企业版 同时GitHub Copilot提供免费预览版 [31] - 年化收入达120亿美元 70%来自C端订阅 20%来自API调用 [84][85] - 微软Azure AI与Copilot带动云收入同比增39% Meta广告转化率提升5个百分点 [90][91] 行业竞争格局 - 7月中国开源模型占据OpenRouter趋势榜前10名中的9席 [6] - 开源闭源差距缩小 阿里Qwen3 月之暗面K2等中国模型引发硅谷关注 [95][99] - Anthropic创始人公开质疑开源AI价值 Meta考虑将旗舰模型Behemoth转向闭源 [100] - 全球AI数据中心投入预计达3万亿美元 半数用于GPU等加速芯片 [74] 用户与市场表现 - ChatGPT周活跃用户达7亿 占全球人口近10% 去年同期的4倍 [76][77] - 成为最快达到10亿下载量与5亿月活的应用 周末使用频率趋近工作日 [80][81] - 推出人格模式包含四种输出风格 语音多模态能力显著提升教育医疗场景体验 [39][46] - 现场演示生成带关卡音效的小游戏仅需几分钟 代码量达一两百行 [36][38]
这家百人“作坊”,凭什么年入70亿,还成了OpenAI的“御用陪练”?
36氪· 2025-08-02 08:03
公司概况 - Surge AI是一家专注于高质量数据标注的AI公司,仅有110名正式员工,却在2024年创造了超过10亿美元的年营收,反超行业巨头Scale AI [1] - 公司正启动首轮融资,目标募资10亿美元,估值或达150亿美元 [1] - 创始人Edwin Chen是37岁的华人理工男,曾任Twitter工程主管,对行业痛点有深刻理解 [3][7] 商业模式创新 - 重构数据标注行业竞争维度,形成"极致质量 × 精英团队 × 自动化系统 × 使命感文化"的乘法模型 [10] - 专注RLHF(基于人类反馈的强化学习)等高价值环节,收费是同行的2-5倍,项目最低门槛数百万美元 [13] - 开发智能人机协同系统,110人团队每周处理数百万条高质量数据,人均产出是Scale AI的近9倍 [16][17] 人才战略 - 筛选全球最顶尖的1%标注人才,包括博士、硕士,将其视为"AI工程师"而非"数据工人" [11] - 创始人对初创公司招聘有独特见解,认为早期应追求10-100倍突破而非微调,产品方向应由创始人亲自把控 [12] - 通过使命感凝聚团队,标注者被视为"AI的父母",许多高学历人才因能实践毕生所学而长期工作 [19] 行业对比 - 2024年营收10亿美元,超过Scale AI的8.7亿美元 [21] - 与传统模式相比,解决了质量堪忧、效率低下、价值密度低三大痛点 [6][7][9] - 与Snorkel AI的程序化标注相比,更擅长需要人类价值观和常识判断的复杂任务 [23] - 与Turing的专家众包平台相比,通过自研平台将精英人才整合成高效协同团队 [24] 核心优势 - 重新定义行业问题:AI需要的是蕴含人类智慧的"养料"而非简单"标注" [25] - 打破"数据=劳力"的铁律,证明"更聪明的人力+更聪明的系统"可超越线性规模增长 [25] - 构建了包括人才、技术、文化在内的全方位质量导向体系 [10][19] - 创始人坚持不卖公司,以"培育AGI"为使命,形成难以复制的精神护城河 [17][19]
GPT-5真身曝光,首测编程惊艳全网,一句话秒生游戏,OpenAI双雄备战AGI
36氪· 2025-08-01 18:25
GPT-5更近了!今天,神秘模型Horizon Alpha火遍全网,编码首测性能逆天,各种三方基准实测相继放出。就在发布前夕,OpenAI核心大脑专访坦言模 型还有瓶颈,但坚信Scaling Law没有尽头。 GPT-5的发布前兆,愈发强烈了。 今早,一款神秘模型Horizon Alpha突然上线OpenRouter,各种榜单和测试席卷了全网。 Horizon Alpha模型的上下文为256K,响应极速,非常擅长创意写作。 它还具备了「推理」功能,不过,推理token的预算是o4-mini的两倍。 它可以一句话生成「水果忍者」、「外星人抓奶牛」等各种游戏,能根据logo图直出广告,还能轻而易举地通过「六边形物理模拟」测试。 UFO Cow Abduction Speed Bearn Cows Shuffle Field Pause Tip: The UFO anducts grazing co Untitled . Cinematic Shoe Maker Upload your shoe image Nike App onergy-return running pload you (side profile ...
一个“蠢问题”改写模型规则,Anthropic联创亲曝:瞄准Claude 5开发爆款应用,最强模型的价值会让人忽略成本负担
36氪· 2025-07-30 18:42
Anthropic 联合创始人 Jared Kaplan 是一名理论物理学家,研究兴趣广泛,涉及有效场论、粒子物理、宇宙学、散射振幅以及共形场论等。过去几年,他 还与物理学家、计算机科学家们合作开展机器学习研究,包括神经模型以及 GPT-3 语言模型的 Scaling Law。 近期,他在 YC 分享了 Scaling Law 未来如何影响大模型发展,以及对 Claude 等模型的意义。他在演讲中透露,Scaling Law 的发现源于他物理研究中的 习惯:问更基本的、看似"愚蠢"的问题。 在 Jared Kaplan 看来,AI 的大部分价值可能还是来自最强模型。他认为,目前 AI 的发展非常不平衡:AI 在快速进步、事情在迅速变化,模型能力尚未完 全解锁,但我们在释放越来越多的功能。他认为的平衡状态是 AI 发展速度变慢、成本极低。而 AI 的快速进化会让人优先关注能力,而非成本。 我也对理解宇宙本身特别感兴趣,比如事物是如何运作的、我们周围所见的各种现象背后有哪些宏观规律?宇宙从何而来,是决定论吗?人有没有自由意 志?我对这些问题都非常着迷。 幸运的是,从事物理研究的那段时间里,我认识了很多非常聪明、非 ...
一个“蠢问题”改写模型规则!Anthropic联创亲曝:瞄准Claude 5开发爆款应用,最强模型的价值会让人忽略成本负担
AI前线· 2025-07-30 17:09
核心观点 - Scaling Law是大模型持续进步的核心动力 通过增加计算资源投入可系统性提升模型性能[10][17] - AI发展目前处于不平衡状态 能力快速提升但成本仍高 未来可能达到发展速度变慢且成本极低的平衡状态[50] - AI大部分价值可能来自最强模型 而非低配版[51] - 建议在AI能力边界上构建产品 用AI集成AI 并快速找到大规模应用突破口[29][30][31] Scaling Law发现与应用 - 源于物理学思维 通过问基础问题发现预训练和强化学习阶段都存在精确的Scaling规律[13] - 预训练阶段 扩大规模与模型性能提升呈线性关系 该规律在5个数量级内成立[11][13] - 强化学习阶段 计算资源投入与模型能力提升同样存在线性关系 最初通过六子棋实验发现[14][17] - Scaling Law可作为训练诊断工具 若失效更可能是训练方法出现问题而非规律本身问题[48] AI能力发展趋势 - 用两个维度衡量AI能力:Y轴为适应性(处理多模态能力) X轴为任务时长跨度[18][19] - 任务时长处理能力约每7个月翻一倍 从几分钟逐步扩展到几天、几周甚至几年[20][23] - 未来可能出现成千上万AI模型协作 完成人类组织或科学界几十年才能完成的工作[25] - Claude 4重点优化了记忆功能 使AI能保存和调用信息 处理更长跨度任务[35][36] AI发展建议与方向 - 需突破三个关键点:组织知识整合、长期记忆能力、细致监督信号[27][28] - "广度型"AI在整合跨领域知识方面潜力巨大 如生物医学研究[40] - 技术门槛高且依赖电脑/数据的领域(金融、法律等)是AI应用空白地带[41] - 人机协作是重要方向 初期需人类管理 长期将更多任务完全自动化[39] 物理思维对AI研究的价值 - 物理学方法强调寻找宏观趋势并精确量化 如质疑"指数增长"说法并要求精确函数形式[43] - 将神经网络视为无限大系统研究 借鉴物理学中大矩阵近似方法[44] - 坚持问基础问题 因AI领域仍有许多基本原理未解 如可解释性问题[44][46]
直击WAIC 2025丨AI智能体元年,究竟需要怎样的算力?超节点、高性价比推理芯片还是全栈协同
每日经济新闻· 2025-07-29 20:14
每经记者|朱成祥 每经编辑|陈俊杰 站在AI(人工智能)发展的长河中,2025年可能是非常重要的节点。 2025年,被认为是AI走向大规模应用的开始,是AI智能体的元年。随着AI应用爆发,算力芯片的需求 逻辑也被重塑。推理而不是训练,将成为未来算力需求的核心增长点。 此外,人形机器人的发展也将助推对算力芯片的需求。人形机器人分为大脑、小脑和本体,而算力芯片 正是人形机器人大脑的计算核心。 在WAIC 2025上,各大厂商带来了它们的解决方案。比如华为昇腾的384超节点,摩尔线程"AI工厂"理 念,施耐德电气"算电协同"三层架构等。 华鲲振宇副总裁宋璇表示:"AI产业中,我们定位为'国产算力生态的技术转化者'与场景落地者,华鲲 振宇不仅要发展积累AI产品能力,更要坚定地投入到国产AI生态建设中,我们深耕鲲鹏+昇腾生态,通 过与华为在服务器领域深度协同,将生态技术红利精准输送到千行百业。目前我们已实现整机出货量第 一,在金融、运营商、政府等领域积累了深厚实践经验。" 除了华为昇腾这类NPU,在当下火热的GPGPU(通用图形处理器)赛道,国产厂商也带来了各自的产 品。其中摩尔线程以全功能GPU为核心的"云边端"全栈 ...
Kimi K2拿到了世界第一,也杀死了过去的自己
新财富· 2025-07-28 10:58
月之暗面Kimi K2大模型发布 - 7月12日月之暗面发布最新大模型Kimi K2 模型权重和代码全部开源 在LMArena排行榜中综合排名全球第五 开源大模型中位居全球第一 超越Claude 4和DeepSeek-R1-0528 [2] - Kimi K2提出"模型即Agent"新概念 原生具有调用各种工具的能力 在LiveCodeBench测试中取得53.7%的成绩 超越GPT-4.1的44.7%和Claude 3.5 Opus的47.4% [23][35][44] - Kimi K2参数量扩展至1T量级 放弃自研架构转向DeepSeek V3 通过减少Attention Heads数量增加Experts数量 突破智能上限 [24][28][29] Kimi发展历程与战略转型 - 月之暗面曾是Scaling Law忠实信徒 采取激进买量策略 2024年营销预算接近9亿人民币 但6月月活降至2352万 同比下降2.19% [8][11][17] - 2024年底全球高质量公开数据耗尽 深度求索通过DeepSeek R1开辟新范式 依靠后训练强化学习突破智能上限 月活暴涨至6181万 [13][16][17] - 2025年初公司停掉所有市场营销 集中资源研发K2 转向技术驱动 加入开源阵营 战略重心回归大模型性能提升 [55] Kimi K2技术创新 - 开发MuonClip优化器 解决15.5T tokens预训练稳定性问题 实现零崩溃表现 被海外AI圈称为"完美的Loss曲线" [32][33] - 提出Agent训练新路径 通过AI生成模拟场景合成数百个垂直领域工具调用轨迹 建立自动化Agent数据生产工厂 [38][39][41] - 模型架构上减少DeepSeek V3的Attention Heads 增加Experts数量 在算力有限情况下最大化模型潜力 [28][29] 行业影响与竞争格局 - DeepSeek R1引发AI创业公司存在主义危机 其不花营销预算单靠产品实力月活达6181万 促使行业重新思考发展路径 [17][54] - Kimi K2开源后迅速被阿里Qwen反超 但公司战略转型意义重大 体现从产品驱动转向技术驱动的决心 [55] - 行业验证"模型能力决定市场认可"逻辑 AI公司价值创造核心转向付费用户关注的效率和结果 [53][54]
全球AI应用产品梳理:模型能力持续迭代,智能体推动商业化进程-20250723
国信证券· 2025-07-23 21:20
报告行业投资评级 - 优于大市(维持评级) [1] 报告的核心观点 - 全球AI发展迅速,模型能力提升、开源推动成本降低,智能体技术完善且新产品密集发布,商业化用量增长,国产模型表现亮眼,C端应用重塑流量入口,B端应用推动企业上云 [2] 根据相关目录分别进行总结 模型层:能力迅速提升,开源推动成本降低 - 模型能力提升,主流架构转向MoE,多模态能力增强,采用思维链技术,其他技术发展推动可用性进步 [8] - 模型训练竞赛趋缓,Scaling Law向推理侧迁移,模型推理能力提升,商业化前景打开 [15] - 模型推理成本显著下滑,API调用价格下降利好应用端成本下降 [20] - 开源与闭源模型差距缩小,推动AI应用落地,开源模型降低使用门槛和成本 [25] 智能体:技术逐步完善,新产品密集发布 - AI Agent与传统人工智能不同,能改变人机协同模式,打开垂直行业应用入口 [30] - 模型Agent能力快速提升,在GAIA测试中表现不断刷新 [33] - MCP扩展AI能力边界,海内外大厂纷纷布局,推动Agent加速落地 [38] - 谷歌发布A2A协议,与MCP互补,加速Agent生态完善,推动AI应用向复杂工作流落地 [45] - 海内外智能体快速发展,测评成绩不断刷新,应用效果快速提高 [46] 商业化:用量持续增长,国产模型表现亮眼 - 中国AI发展走出自身路径,形成生态闭环,芯片产业本土化加速,数据成为核心资源 [55] - 中美模型差距缩小,中国依靠开源模型走出自身生态,在开源模型排行榜上表现优异 [65] - 全球AI模型流量持续上涨,为应用侧发展提供基础,推理需求提升,芯片价格上升,API调用量迅速提升,国产模型表现亮眼 [66][73][79] C端应用:借助AI赋能业务,重塑流量入口 - AI应用有望重塑C端流量入口,互联网巨头具备先发优势,可利用专有数据和用户参与度集成AI功能 [85] - 编程成为人机协同主要领域,办公类任务AI占比较低,人机深度协同存在较大空间 [92] - 以Reddit、Robinhood、多邻国为例,展示AI在社区平台、金融、教育等C端领域的应用及价值创造 [94][99][105] B端应用:开源提升投入意愿,推动企业上云 - 开源模型提升企业投入意愿,刺激国内上云需求,AI技术深入多行业,推动智能化转型,提升企业上云意愿 [112] - 以赛富时、ServiceNow、Snowflake为例,展示AI在CRM、工作流管理、数据库等B端领域的应用及功能升级 [118][124][131] - 汇总海外和中国AI应用厂商在各领域的主营业务及AI应用情况 [132][133]
计算机行业双周报(2025、7、4-2025、7、17):Grok4发布验证ScalingLaw依然有效,英伟达将重启H20对华供货-20250718
东莞证券· 2025-07-18 22:49
报告行业投资评级 - 超配(维持) [1] 报告的核心观点 - 申万计算机板块近2周、7月、今年累计涨幅均跑赢沪深300指数 Grok 4发布验证Scaling Law有效 预计全球AI算力需求维持高位 基础模型能力提升有望推动AI应用加速繁荣 建议关注AI算力、AI应用相关投资机遇 [2][27] 根据相关目录分别进行总结 计算机行业行情回顾 - 申万计算机板块近2周累计上涨4.98% 跑赢沪深300指数3.31个百分点 排名第4;7月累计上涨2.58% 跑赢沪深300指数0.08个百分点;今年累计上涨11.68% 跑赢沪深300指数9.15个百分点 [10] - 近两周涨幅前三为信息发展、普联软件和博睿数据 跌幅前三为旋极信息、ST华铭和汇金股份 [15] 板块估值情况 - 截至2025年7月17日 SW计算机板块PE TTM(剔除负值)为53.97倍 处于近5年87.27%分位、近10年74.59%分位 [20] 产业新闻 - Grok 4正式发布 对垒GPT - 5和Claude 4 Opus 模型训练量大幅增加 验证Scaling Law有效 [2][21] - 英伟达将重启H20芯片对华供货 还将推出RTXPRO新显卡 [21] - 上海数交所首提RDA [23] - 谷歌未来两年将在美投资250亿美元建设数据中心和AI基础设施 [23] - OpenAI发布ChatGPT Agent 能主动思考、自选工具 [23] 公司公告 - 星环科技拟发行H股股票并在港交所主板上市 事项待股东会审议及相关批准 [23] - 国网信通子公司中标国家电网采购项目 中标金额9.66亿元 合同未签 [24] - 恒银科技预计2025年半年度净利润扭亏为盈 [24] - 中望软件收到政府补助2800万元 [24] - 金桥信息预计2025年半年度亏损 [25] - 太极股份预计2025年上半年归母净利润盈利 上年同期亏损 [25] - 海量数据预计2025年半年度亏损 数据库业务收入同比增长66% [26] - 四维图新与北汽新能源签署泊车软件产品开发合同 [26] 本周观点 - Grok 4性能预计领先前沿模型 训练量和算力投入大 验证Scaling Law有效 全球AI算力需求将维持高位 基础模型能力提升推动AI应用繁荣 建议关注AI算力、AI应用投资机遇 [27] 建议关注标的 - 广电运通金融科技主业增长 数据要素等领域布局有望成新增长曲线 [29] - 神州数码作为“鲲鹏 + 昇腾”产业链伙伴 受益国产算力需求上升 [29] - 浪潮信息智慧计算行业地位稳固 人工智能服务器排名领先 [29] - 税友股份作为财税信息化服务商 有望受益财税改革 [29] - 软通动力是华为核心伙伴 鸿蒙生态建设领先 [29] - 赛意信息布局AI Agent领域 推出差异化智能体解决方案 [29]
Thinking Machines Lab获20亿美元种子轮融资,人才成为AI行业最重要的要素
36氪· 2025-07-18 07:56
融资与估值 - Thinking Machines Lab获得由a16z领投的20亿美元种子轮融资,估值达到120亿美元,创下科技史上最大种子轮融资记录 [1] - 初始计划融资10亿美元,估值90亿美元,最终融资额和估值均翻倍 [1] - 参与融资的机构包括NVIDIA、Accel、ServiceNow、CISCO、AMD、Jane Street等各领域知名机构 [1] 创始团队与技术方向 - 公司由OpenAI前CTO Mira Murati创立,创始团队包括John Schulman、Barret Zoph、Bob McGrew等AI领域顶尖人才 [1][4] - Mira Murati曾领导开发GPT-3、GPT-4、DALL-E和ChatGPT等开创性技术,并在特斯拉负责Model S/X和Autopilot开发 [2] - 技术方向相对模糊,强调多模态能力和AI安全措施,包括对齐、红队演练和部署后监控等方法 [16] 产品规划 - 首款产品将在数月内发布,包含重要开源组成部分,为开发定制化模型的研究人员和初创公司提供帮助 [16] - 将为企业开发围绕KPI定制的AI解决方案,采用"商业强化学习"和从开源模型中选择性"摘取"特定层进行组合的新技术 [16] 行业趋势 - AI行业三要素中人才的重要性被提到前所未有的高度,算力和数据的Scaling Law效应正在减弱 [17] - DeepSeek在算力受限情况下训练出Sota模型R1,而Meta拥有顶级算力和数据却遭遇Llama 4失利,印证人才的核心地位 [18] - Meta以143亿美元收购ScaleAI 49%股权并组建"超级智能"部门,从OpenAI、DeepMind等公司挖角大量顶尖人才 [18][19] 人才竞争 - OpenAI Mafia中最强大的三家公司Anthropic、Safe Superintelligence和Thinking Machines Lab均以顶尖AI研究员领导 [17] - Google以27亿美元收购Character.AI并吸纳其核心团队,以24亿美元与Windsurf达成许可协议获取人才 [19] - 全球前20%的AI研究人员中47%来自中国,中国在语言、视觉、机器人模型和应用领域表现突出 [20]