Scaling Law

搜索文档
腾讯研究院AI速递 20250812
腾讯研究院· 2025-08-12 00:01
生成式AI 一、 马斯克旗下的xAI宣布,Grok 4向全球所有用户免费开放 1. xAI宣布Grok 4向全球所有用户免费开放,但每12小时限制使用5次,达到限制后Grok完全不可用; 2. 此举被认为是为了跟进GPT-5的发布策略,但引发付费用户强烈不满,认为订阅费被"背刺"; 3. 同时Grok Imagine视频生成服务更新,新增视频分享功能、修复下载问题并增加静音控制,增强了图片审核机 制。 https://mp.weixin.qq.com/s/u4xy4O2kLTVaKJ2n0uYb3Q 二、 浪潮发布面向万亿参数的超节点AI服务器「元脑SD200」 1. 浪潮信息发布超节点AI服务器"元脑SD200",将64张卡融合成统一内存、统一编址的超节点,能同时运行 DeepSeek R1、Kimi K2等四大国产开源模型; 2. 产品采用3D Mesh开放架构,通过远端GPU虚拟映射技术实现地址空间扩增8倍,整机可实现4TB显存与64TB内 存,满足超万亿参数大模型推理需求; 3. 推理性能实现超线性扩展,64卡一同运行DeepSeek R1时性能提升达3.7倍,Kimi K2达1.7倍,专为解决Age ...
OpenAI 惊人自曝:GPT-5 真“降智”了!但重现“神之一手”,剑指代码王座
程序员的那些事· 2025-08-11 10:38
转自: 新智元 【导读】 GPT-5智商测试,仅拿下了70分?全网狂吐槽「降智」背后的真相,竟是「路由」决定 了模型的智能。想要解锁神级GPT-5,秘诀在于prompt。这不,医学家借助GPT-5重现了「神之 一手」时刻。 GPT-5发布72小时后,一张IQ测试结果震惊了全网。 在门萨IQ测试中,GPT-5拿下了118分,离线测试70分;GPT-5 Thinking则分别获得了85分和57 分。 这一结果,创OpenAI模型家族IQ测试有史以来的最低纪录。 实际上,这背后的实际原因,归咎于「路由」问题。 类似的问题,奥特曼也曾在Reddit AMA问答中做出了回应。 他表示,内部出现了严重故障(Sev级),自动切换系统无法工作,导致GPT-5表现得像降智一 样。 METR的最新报告中,可以看出GPT-5依旧处于帕累托前沿,智能呈指数级增长并未放缓。 也就是说,GPT-5还在延续Scaling Law的神话。 并非是GPT-5太笨了,而是作为一个「单体模型」,其中一个组件决定了它的智能。 GPT-5很强,关键在于prompt 那些一味地吐槽GPT-5的网友们,实际上并未发掘出最新模型的潜力。 Cline人工智能 ...
半导体关税、Intel、GPT-5
傅里叶的猫· 2025-08-08 19:30
以下文章来源于More Than Semi ,作者猫叔 More Than Semi . More Than SEMI 半导体行业研究 今天的新闻比较多,我们一个个来分析。 星球中还有更多半导体关税的分析研报,有兴趣的读者可以到星球查看。 1、半导体关税 金融时报昨天发了这样的一个报道: 核心观点就是只要在美国建厂,那就可以豁免,所以除了苹果,英伟达和台积电都承诺在美国扩建产 能,关税对他们的影响也有限。 在晶圆代工方面,台积电和三星若能通过策略规避影响,将继续保持增长动能,而联电在美国市场占比 15%-20%,且缺乏美国本土产能,可能受压。 在光通信/光学器件领域,美国厂商康宁和Coherent有望从中国竞争对手手中夺取份额。 在半导体设备方面,应用材料(Applied Materials)由于被纳入苹果相关项目且美国本土产能最大,可 能受益;Lam Research的美国布局较少,相对劣势;欧洲厂商BESI若苹果推进混合键合(Hybrid Bonding)工艺,也可能获益。 在定制ASIC和网络芯片领域,美国的博通、Marvell可能受益,而联发科及台湾的Allchip可能面临挑 战。 整体来看,市场当前 ...
终于发布的GPT-5,和它改变世界的982天
36氪· 2025-08-08 12:15
模型发布与性能 - GPT-5采用多层级架构整合o3系列推理能力,重点提升智能体能力并屠榜LMArena所有细分类目[3] - 模型提供四个版本:标准模式GPT-5、轻量版GPT-5 mini、高速版GPT-5 nano和ChatGPT专用版GPT-5 Chat[9] - 系统由三部分组成:基础模型解决多数问题、深度推理模型处理复杂问题、实时路由器根据用户反馈持续优化[11][12] 技术架构与创新 - 统一架构整合GPT系列语言模型和o系列推理模型,具备自动调度子模型能力[11] - 开源两款MoE模型gpt-oss-20b(21B参数)和gpt-oss-120b(117B参数),采用Apache 2.0许可协议允许商用[28][29] - 模型加入人格模式提供四种输出风格,在多模态和EQ表现上有显著提升[23][25] 商业化策略 - API价格显著降低,GPT-5输入价格1.25美元/M Tokens仅为o1-pro的1/120[14] - 企业版对美国联邦政府推出1美元/机构的促销价,GitHub Copilot提供免费预览版[17][19][21] - 年化收入达120亿美元,70%来自C端订阅,20%来自API调用[48] 行业竞争格局 - 中国开源模型占据OpenRouter趋势榜前10名中的9席,阿里/月之暗面/智谱等密集发布新模型[1] - 开源闭源差距缩小,2025年起各厂商模型与OpenAI技术代差显著收窄[54][55][57] - 微软/Google/Meta市值因AI实现两位数增长,Meta广告转化率提升5个百分点[52][53] 用户数据与采用 - ChatGPT周活跃用户达7亿占全球人口近10%,年下载量突破10亿次[42][45][47] - 使用场景从工作向生活延伸,周末使用频率与工作日差距缩小至10%以内[47] - 教育/医疗领域应用突出,演示案例显示能处理复杂情感咨询和实时语言教学[25][26] 研发投入与趋势 - 训练资源消耗创纪录,Orion版本两轮训练耗资5亿美元使用10万张GPU[37] - 模型迭代周期延长,GPT-4到GPT-5耗时2年半,GPT-3到GPT-4耗时33个月[34] - 计划投资1000亿美元建设"星际之门"数据中心,可容纳40万颗AI芯片[41]
终于发布的GPT-5,和它改变世界的982天
36氪· 2025-08-08 08:07
模型发布与性能 - GPT-5采用多层级架构整合o3系列推理能力 重点提升智能体能力 未公布具体参数规模 [9] - 上线后迅速屠榜LMArena竞技场 所有细分类目均位列第一 [10][12] - 提供四个版本:标准版GPT-5 轻量版GPT-5 mini 高速版GPT-5 nano 以及ChatGPT专用版GPT-5 Chat [18] - 系统由三部分组成:基础模型 深度推理模型GPT-5 thinking 实时路由器real-time router [20] 技术架构创新 - 统一模型架构整合GPT系列语言模型与o系列推理模型 具备调度子模型能力 [19] - 开源两款MoE模型gpt-oss-20b(21B参数)和gpt-oss-120b(117B参数) 采用Apache 2.0许可协议 [52][53] - 开源模型专门为智能体设计 120B版本可在高端笔记本运行 20B版本适配手机端 [54] - 词表超过20万 支持多语种与代码混合输入 直接对标DeepSeek与阿里Qwen3 [54] 商业化策略 - API价格显著降低 GPT-5输入1.25美元/M Tokens 仅为o1-pro价格的1/120 [24][25] - 美国联邦政府机构可1美元订阅企业版 同时GitHub Copilot提供免费预览版 [31] - 年化收入达120亿美元 70%来自C端订阅 20%来自API调用 [84][85] - 微软Azure AI与Copilot带动云收入同比增39% Meta广告转化率提升5个百分点 [90][91] 行业竞争格局 - 7月中国开源模型占据OpenRouter趋势榜前10名中的9席 [6] - 开源闭源差距缩小 阿里Qwen3 月之暗面K2等中国模型引发硅谷关注 [95][99] - Anthropic创始人公开质疑开源AI价值 Meta考虑将旗舰模型Behemoth转向闭源 [100] - 全球AI数据中心投入预计达3万亿美元 半数用于GPU等加速芯片 [74] 用户与市场表现 - ChatGPT周活跃用户达7亿 占全球人口近10% 去年同期的4倍 [76][77] - 成为最快达到10亿下载量与5亿月活的应用 周末使用频率趋近工作日 [80][81] - 推出人格模式包含四种输出风格 语音多模态能力显著提升教育医疗场景体验 [39][46] - 现场演示生成带关卡音效的小游戏仅需几分钟 代码量达一两百行 [36][38]
这家百人“作坊”,凭什么年入70亿,还成了OpenAI的“御用陪练”?
36氪· 2025-08-02 08:03
这家公司仅有110名正式员工,却在2024年创造了超过10亿美元(约70亿人民币)的年营收,甚至反超了拥有上千员工、背靠Meta这棵大树的行业霸主 Scale AI。 据路透社报道,这家公司正启动首轮融资,目标募资10亿美元,估值或达150亿美元(约合1000亿元人民币)。 这听起来像个天方夜谭,但它真实发生了。 故事的主角叫Surge AI,一个在AI"军备竞赛"的后勤线上掀起风暴的"隐形帝国"。它的创始人,37岁的华人理工男Edwin Chen,面对外界对竞品Scale AI的 热捧,只是淡淡地回应: "他们在追逐资本时,我们在打磨数据纯度。真正的AGI(通用人工智能),需要人类智慧的精粹,而非廉价标签。" 在今天这个AI的"淘金热"时代,所有人都坚信着"大力出奇迹"的"规模法则"(Scaling Law)——更大的模型、更多的数据、更强的算力,就能换来更聪明 的AI。然而,就在所有巨头都在疯狂堆人、烧钱、扩大规模时,一个"异类"悄然崛起。 这句话,几乎点明了Surge AI逆袭的所有秘密,它在告诉世界:在通往AGAI的路上,高质量的"人性",远比海量的"人数"更重要。 风口上的"数据民工" 喂不饱真正的 ...
一个“蠢问题”改写模型规则!Anthropic联创亲曝:瞄准Claude 5开发爆款应用,最强模型的价值会让人忽略成本负担
AI前线· 2025-07-30 17:09
核心观点 - Scaling Law是大模型持续进步的核心动力 通过增加计算资源投入可系统性提升模型性能[10][17] - AI发展目前处于不平衡状态 能力快速提升但成本仍高 未来可能达到发展速度变慢且成本极低的平衡状态[50] - AI大部分价值可能来自最强模型 而非低配版[51] - 建议在AI能力边界上构建产品 用AI集成AI 并快速找到大规模应用突破口[29][30][31] Scaling Law发现与应用 - 源于物理学思维 通过问基础问题发现预训练和强化学习阶段都存在精确的Scaling规律[13] - 预训练阶段 扩大规模与模型性能提升呈线性关系 该规律在5个数量级内成立[11][13] - 强化学习阶段 计算资源投入与模型能力提升同样存在线性关系 最初通过六子棋实验发现[14][17] - Scaling Law可作为训练诊断工具 若失效更可能是训练方法出现问题而非规律本身问题[48] AI能力发展趋势 - 用两个维度衡量AI能力:Y轴为适应性(处理多模态能力) X轴为任务时长跨度[18][19] - 任务时长处理能力约每7个月翻一倍 从几分钟逐步扩展到几天、几周甚至几年[20][23] - 未来可能出现成千上万AI模型协作 完成人类组织或科学界几十年才能完成的工作[25] - Claude 4重点优化了记忆功能 使AI能保存和调用信息 处理更长跨度任务[35][36] AI发展建议与方向 - 需突破三个关键点:组织知识整合、长期记忆能力、细致监督信号[27][28] - "广度型"AI在整合跨领域知识方面潜力巨大 如生物医学研究[40] - 技术门槛高且依赖电脑/数据的领域(金融、法律等)是AI应用空白地带[41] - 人机协作是重要方向 初期需人类管理 长期将更多任务完全自动化[39] 物理思维对AI研究的价值 - 物理学方法强调寻找宏观趋势并精确量化 如质疑"指数增长"说法并要求精确函数形式[43] - 将神经网络视为无限大系统研究 借鉴物理学中大矩阵近似方法[44] - 坚持问基础问题 因AI领域仍有许多基本原理未解 如可解释性问题[44][46]
Kimi K2拿到了世界第一,也杀死了过去的自己
新财富· 2025-07-28 10:58
月之暗面Kimi K2大模型发布 - 7月12日月之暗面发布最新大模型Kimi K2 模型权重和代码全部开源 在LMArena排行榜中综合排名全球第五 开源大模型中位居全球第一 超越Claude 4和DeepSeek-R1-0528 [2] - Kimi K2提出"模型即Agent"新概念 原生具有调用各种工具的能力 在LiveCodeBench测试中取得53.7%的成绩 超越GPT-4.1的44.7%和Claude 3.5 Opus的47.4% [23][35][44] - Kimi K2参数量扩展至1T量级 放弃自研架构转向DeepSeek V3 通过减少Attention Heads数量增加Experts数量 突破智能上限 [24][28][29] Kimi发展历程与战略转型 - 月之暗面曾是Scaling Law忠实信徒 采取激进买量策略 2024年营销预算接近9亿人民币 但6月月活降至2352万 同比下降2.19% [8][11][17] - 2024年底全球高质量公开数据耗尽 深度求索通过DeepSeek R1开辟新范式 依靠后训练强化学习突破智能上限 月活暴涨至6181万 [13][16][17] - 2025年初公司停掉所有市场营销 集中资源研发K2 转向技术驱动 加入开源阵营 战略重心回归大模型性能提升 [55] Kimi K2技术创新 - 开发MuonClip优化器 解决15.5T tokens预训练稳定性问题 实现零崩溃表现 被海外AI圈称为"完美的Loss曲线" [32][33] - 提出Agent训练新路径 通过AI生成模拟场景合成数百个垂直领域工具调用轨迹 建立自动化Agent数据生产工厂 [38][39][41] - 模型架构上减少DeepSeek V3的Attention Heads 增加Experts数量 在算力有限情况下最大化模型潜力 [28][29] 行业影响与竞争格局 - DeepSeek R1引发AI创业公司存在主义危机 其不花营销预算单靠产品实力月活达6181万 促使行业重新思考发展路径 [17][54] - Kimi K2开源后迅速被阿里Qwen反超 但公司战略转型意义重大 体现从产品驱动转向技术驱动的决心 [55] - 行业验证"模型能力决定市场认可"逻辑 AI公司价值创造核心转向付费用户关注的效率和结果 [53][54]
全球AI应用产品梳理:模型能力持续迭代,智能体推动商业化进程-20250723
国信证券· 2025-07-23 21:20
报告行业投资评级 - 优于大市(维持评级) [1] 报告的核心观点 - 全球AI发展迅速,模型能力提升、开源推动成本降低,智能体技术完善且新产品密集发布,商业化用量增长,国产模型表现亮眼,C端应用重塑流量入口,B端应用推动企业上云 [2] 根据相关目录分别进行总结 模型层:能力迅速提升,开源推动成本降低 - 模型能力提升,主流架构转向MoE,多模态能力增强,采用思维链技术,其他技术发展推动可用性进步 [8] - 模型训练竞赛趋缓,Scaling Law向推理侧迁移,模型推理能力提升,商业化前景打开 [15] - 模型推理成本显著下滑,API调用价格下降利好应用端成本下降 [20] - 开源与闭源模型差距缩小,推动AI应用落地,开源模型降低使用门槛和成本 [25] 智能体:技术逐步完善,新产品密集发布 - AI Agent与传统人工智能不同,能改变人机协同模式,打开垂直行业应用入口 [30] - 模型Agent能力快速提升,在GAIA测试中表现不断刷新 [33] - MCP扩展AI能力边界,海内外大厂纷纷布局,推动Agent加速落地 [38] - 谷歌发布A2A协议,与MCP互补,加速Agent生态完善,推动AI应用向复杂工作流落地 [45] - 海内外智能体快速发展,测评成绩不断刷新,应用效果快速提高 [46] 商业化:用量持续增长,国产模型表现亮眼 - 中国AI发展走出自身路径,形成生态闭环,芯片产业本土化加速,数据成为核心资源 [55] - 中美模型差距缩小,中国依靠开源模型走出自身生态,在开源模型排行榜上表现优异 [65] - 全球AI模型流量持续上涨,为应用侧发展提供基础,推理需求提升,芯片价格上升,API调用量迅速提升,国产模型表现亮眼 [66][73][79] C端应用:借助AI赋能业务,重塑流量入口 - AI应用有望重塑C端流量入口,互联网巨头具备先发优势,可利用专有数据和用户参与度集成AI功能 [85] - 编程成为人机协同主要领域,办公类任务AI占比较低,人机深度协同存在较大空间 [92] - 以Reddit、Robinhood、多邻国为例,展示AI在社区平台、金融、教育等C端领域的应用及价值创造 [94][99][105] B端应用:开源提升投入意愿,推动企业上云 - 开源模型提升企业投入意愿,刺激国内上云需求,AI技术深入多行业,推动智能化转型,提升企业上云意愿 [112] - 以赛富时、ServiceNow、Snowflake为例,展示AI在CRM、工作流管理、数据库等B端领域的应用及功能升级 [118][124][131] - 汇总海外和中国AI应用厂商在各领域的主营业务及AI应用情况 [132][133]
计算机行业双周报(2025、7、4-2025、7、17):Grok4发布验证ScalingLaw依然有效,英伟达将重启H20对华供货-20250718
东莞证券· 2025-07-18 22:49
报告行业投资评级 - 超配(维持) [1] 报告的核心观点 - 申万计算机板块近2周、7月、今年累计涨幅均跑赢沪深300指数 Grok 4发布验证Scaling Law有效 预计全球AI算力需求维持高位 基础模型能力提升有望推动AI应用加速繁荣 建议关注AI算力、AI应用相关投资机遇 [2][27] 根据相关目录分别进行总结 计算机行业行情回顾 - 申万计算机板块近2周累计上涨4.98% 跑赢沪深300指数3.31个百分点 排名第4;7月累计上涨2.58% 跑赢沪深300指数0.08个百分点;今年累计上涨11.68% 跑赢沪深300指数9.15个百分点 [10] - 近两周涨幅前三为信息发展、普联软件和博睿数据 跌幅前三为旋极信息、ST华铭和汇金股份 [15] 板块估值情况 - 截至2025年7月17日 SW计算机板块PE TTM(剔除负值)为53.97倍 处于近5年87.27%分位、近10年74.59%分位 [20] 产业新闻 - Grok 4正式发布 对垒GPT - 5和Claude 4 Opus 模型训练量大幅增加 验证Scaling Law有效 [2][21] - 英伟达将重启H20芯片对华供货 还将推出RTXPRO新显卡 [21] - 上海数交所首提RDA [23] - 谷歌未来两年将在美投资250亿美元建设数据中心和AI基础设施 [23] - OpenAI发布ChatGPT Agent 能主动思考、自选工具 [23] 公司公告 - 星环科技拟发行H股股票并在港交所主板上市 事项待股东会审议及相关批准 [23] - 国网信通子公司中标国家电网采购项目 中标金额9.66亿元 合同未签 [24] - 恒银科技预计2025年半年度净利润扭亏为盈 [24] - 中望软件收到政府补助2800万元 [24] - 金桥信息预计2025年半年度亏损 [25] - 太极股份预计2025年上半年归母净利润盈利 上年同期亏损 [25] - 海量数据预计2025年半年度亏损 数据库业务收入同比增长66% [26] - 四维图新与北汽新能源签署泊车软件产品开发合同 [26] 本周观点 - Grok 4性能预计领先前沿模型 训练量和算力投入大 验证Scaling Law有效 全球AI算力需求将维持高位 基础模型能力提升推动AI应用繁荣 建议关注AI算力、AI应用投资机遇 [27] 建议关注标的 - 广电运通金融科技主业增长 数据要素等领域布局有望成新增长曲线 [29] - 神州数码作为“鲲鹏 + 昇腾”产业链伙伴 受益国产算力需求上升 [29] - 浪潮信息智慧计算行业地位稳固 人工智能服务器排名领先 [29] - 税友股份作为财税信息化服务商 有望受益财税改革 [29] - 软通动力是华为核心伙伴 鸿蒙生态建设领先 [29] - 赛意信息布局AI Agent领域 推出差异化智能体解决方案 [29]