Grok 4 Heavy - 财报，业绩电话会，研报，新闻 - Reportify

Grok 4 Heavy

搜索文档

OpenAI最强模型GPT-5来了！免费可用，Altman高呼迈向AGI一大步，微软抢先接入

硬AI· 2025-08-08 09:36

模型性能与突破 - GPT-5是OpenAI首个将o系列模型推理能力与GPT系列快速响应结合的"一体化"AI系统，具备专家级智慧 [2][6] - 编程能力显著提升，SWE-bench Verified测试准确率74.9%，超越Claude Opus 4.1(74.5%)和Gemini 2.5 Pro(59.6%) [7][9] - 健康领域错误信息率降至1.6%，较GPT-4o(15.8%)和o3(12.9%)改善明显 [14] - 幻觉问题大幅优化，事实错误率4.8%，较GPT-4o(20.6%)降低45%，较o3(22%)降低80% [17] 产品部署与商业化 - 免费及付费用户全面开放，Pro用户可无限使用增强版GPT-5 Pro，企业版年费1美元象征性收费 [4] - 微软当日整合GPT-5至365 Copilot、GitHub Copilot等平台，企业用户可处理复杂文档，开发者获得代码支持 [4][27] - Azure AI Foundry提供全系列GPT-5模型，配备智能任务路由功能 [27] 功能创新与用户体验 - 新增四种预设聊天性格(愤世嫉俗者/机器人/倾听者/书呆子)，可调整交互风格 [21] - 支持"氛围编码"，演示案例中根据自然语言提示生成法语学习网页App [12] - 创意写作能力提升，可处理无韵律诗等复杂结构，响应更自然 [12] - 安全训练模式"安全补全"减少过度拒绝，拒绝时提供透明解释 [19] 行业竞争与定位 - 被CEO Altman称为"世界最佳模型"，数学测试中GPT-5 Pro得分42%略低于Grok 4 Heavy(44.4%) [9][24] - 微软AI红队测试显示GPT-5具备历代最强安全配置，防御恶意软件生成等攻击 [28] - 经济价值测试显示GPT-5在40+职业中半数案例达专家水平，覆盖法律、工程等领域 [25]

微软(US:MSFT)

通用人工智能（AGI）

Microsoft 365 Copilot

通用人工智能（AGI）

Microsoft 365 Copilot

全网开测GPT-oss！技术架构也扒明白了

量子位· 2025-08-07 08:56

模型性能表现 - GPT-oss在多项基准测试中表现优异，横扫GPQA Diamond、AIME 2024、AIME 2025和Codeforces榜单，超越DeepSeek R1、Qwen3、Llama 4、Kimi K2等开源模型 [4][5] - 在MMLU测试中Qwen3-235B略胜一筹，Kimi-K2在SWE-Bench上得分更高 [7] - GPT-oss-120B在核心推理基准测试中与o4-mini效果相当，可在单个80GB GPU上高效运行 [9] - 20B模型在编码测试中表现出色，能准确模拟复杂物理场景和完成3D渲染任务 [11][12][13] - 模型通过经典逻辑测试如"英文草莓里有多少个字母'r'"和鹈鹕推理测试，展现强大空间想象力和逻辑连贯性 [15] 技术架构分析 - GPT-oss结构设计更宽，拥有更多注意力头、更高隐藏维度和更多Transformer模块 [22] - 注意力机制中添加了偏差单元，这一结构曾在GPT-2中出现 [24] - 采用MoE Transformer核心架构，通过细节优化提升性能并降低复杂度 [26] - 使用改进的swiglu激活函数，通过α=1.702让silu近似gelu，并采用裁剪激活值等技术防止梯度爆炸 [26][27] - 采用YaRN技术扩展上下文窗口，提升长文本处理能力 [28] 应用场景与生态 - 网友开发多种应用场景，包括论文解读、数据整理和构建GPT-oss Pro版（10个模型连接） [17][18][20] - 模型可轻松将PDF、Word等原始数据转换为LLM测试集 [19] - AWS宣布通过Amazon Bedrock和Amazon SageMaker上线该模型，便于构建生成式AI应用 [34] - 吴恩达等专家测试后认为GPT-oss-120B性能强大，Binyuan Hui指出其合成数据训练方法有助于小模型性能提升 [37] 成本与可用性 - GPT-oss-120B训练成本约420万至2310万美元，20B模型成本为其十分之一 [30] - 20B模型可在16GB内存边缘设备运行，适合本地推理和快速迭代 [9] - 用户可通过LM Studio下载20B模型，或使用AWS平台部署 [33][34] 局限性及改进 - 模型在非英语文本上表现不佳，55%情况下存在语法或拼写错误 [30] - 官方发布技术文档指导用户通过LoRA微调实现多语言支持 [32]

Grok 4遥遥领先，但马斯克想要得更多

首席商业评论· 2025-07-21 11:34

Grok 4技术能力 - Grok 4分为单代理版本Grok 4和多代理版本Grok 4 Heavy，后者支持四个代理同时工作，推理能力更强 [5] - 在SAT、GRE等考试中取得近乎完美成绩，在"人类终极考试(HLE)"测试得分超过Gemini 2.5 Pro和o3，Grok 4 Heavy版本突破40% [5] - 多语言支持全面，尤其在英语和编码混合任务中领先Kimi，深度思考能力使其在科研场景更可靠 [5] - SWE-Bench基准测试中Grok 4达到60%以上，高于GPT-4.5的54.6%，代码分析和bug修复识别准确率达89% [8] - 训练量是Grok 2的100倍，强化学习阶段投入算力是其他模型的10倍以上 [8] - 订阅费为30美元/月，Grok 4 Heavy版本300美元/月，Grok 3维持免费 [8] 行业竞争格局 - 大模型发展从"规模竞赛"转向"效率与场景深耕"，Claude 4代码生成领先，Gemini 2.5 Pro支持200万token上下文 [16] - 模型差异只有数量级没有指数级，OpenAI未形成绝对优势，各家公司你追我赶 [17] - 微软、亚马逊、谷歌和Meta四大巨头2025年AI投资计划高达3200亿美元 [20] xAI财务状况 - 每月支出高达10亿美元，2024年总支出预计130亿美元，营收仅5亿美元 [11] - 计划打造配备100万个英伟达Blackwell GPU的超级计算机，耗资50亿至625亿美元 [13] - 采用合成数据训练，数据集总量约4万亿tokens，近似重复率<1% [13] - 承担马斯克收购推特时产生的银行债务，年初以全股票交易方式收购X，估值330亿美元 [15] - 即将启动第三次大规模融资，目标估值2000亿美元，6月已筹集300亿美元，7月获得100亿美元 [15] 商业化路径 - 向投资者承诺2027年实现盈利，摩根士丹利预测2029年收入或突破130亿美元 [22] - 营收几乎全部依赖X Premium订阅服务，2024年预期收入5亿美元 [23] - 与特斯拉和X构建的商业帝国形成协同，X平台数据资源和算力共享降低投入成本 [20] 技术争议 - 在图像理解和生成上逊于OpenAI、Anthropic等对手 [9] - 合成数据训练可能导致幻觉过高，实测显示回答问题时优先考虑马斯克观点 [13][14] - Grok 3发布后仅留下大尺度聊天内容印象，未能推动用户大幅增长 [16]

AGI（通用人工智能）

合成数据训练

AGI（通用人工智能）

合成数据训练

Grok 4遥遥领先，但马斯克想要得更多

搜狐财经· 2025-07-19 21:37

Grok4技术能力 - Grok4发布两个版本：单代理Grok4和多代理Grok4 Heavy，后者支持四个代理同时工作[3] - 在SAT、GRE考试中取得近乎完美成绩，在HLE测试中得分超过Gemini2.5 Pro和o3，Grok4 Heavy版本突破40%[3] - 多语言支持全面，尤其在英语和编码混合任务中领先Kimi，科研场景中深度思考能力更可靠[3] - 图像理解和生成能力仍逊于OpenAI、Anthropic等对手[6] xAI财务状况 - 每月支出高达10亿美元，2024年总支出预计130亿美元，营收仅5亿美元[7] - 2026年营收或增至20亿美元，但仍难覆盖成本缺口[7] - 计划打造配备100万个英伟达Blackwell GPU的超级计算机，预计耗资50-625亿美元[10] - 采用合成数据训练，成本远高于同行，训练数据集总量约4万亿tokens[10] 市场竞争格局 - 大模型发展从"规模竞赛"转向"效率与场景深耕"，Claude4代码生成能力领先，Gemini2.5 Pro支持200万token上下文[13] - OpenAI将发布GPT-5，微软、亚马逊、谷歌和Meta四大巨头2025年AI投资计划高达3200亿美元[15] - xAI向投资者承诺2027年实现盈利，摩根士丹利预测2029年收入或突破130亿美元[17] 战略布局 - 通过收购X获得数据资源和算力共享优势，省去外部数据采购成本[16] - 采取"烧钱换领先"战略，试图通过大规模融资和硬件投资超越竞争对手[10] - 计划通过推高估值缓解资金压力，即将启动第三次大规模融资目标估值2000亿美元[11] 技术争议 - 合成数据训练可能导致幻觉过高和"以讹传讹"问题[11] - Grok在思维链中明确考虑马斯克观点，存在倾向性争议[11] - 模型跳票引发能力质疑，Grok3.5最终跳过直接发布Grok4[14]

马斯克推出“AI女友”，30美元/月

新华网财经· 2025-07-16 21:14

产品功能更新 - 特斯拉与xAI推出Grok 4大模型的"伴侣"功能允许用户与AI生成的虚拟角色深度互动目前仅限每月支付30美元的SuperGrok订阅用户使用 [1] - 首批上线两名角色：哥特风女孩Ani（需互动增加好感度）和卡通小熊猫"坏鲁迪"（以粗鲁言论为特点） Ani的建模投入更多资源与马斯克的二次元偏好相关 [1] - 代码逆向工程发现开发中的新角色"Chad" 定位为健身教练类形象同时语音聊天模式支持NSFW内容开关用户可自主选择敏感话题互动 [3] 技术发布与性能 - xAI发布Grok 4系列两款模型：单智能体版本Grok 4和多智能体版本Grok 4 Heavy（支持4个智能体并行思考调用更大计算资源完成复杂任务） [6] - Grok 4在"人类的最后考试"中准确率达25.4% 超过谷歌Gemini 2.5 Pro（21.6%）和OpenAI o3高版本（21%）马斯克称其为"世界最强AI模型" [6] - 马斯克宣称Grok 4在所有学科上超越博士水平虽未实现科学新发现但预计年内将突破这一目标 [6] 行业竞争与趋势 - 新功能标志头部AI公司竞争方向转变从单纯追求AI智能性转向拟人化交互体验 [3] - AI模型仿真人类能力持续提升基于AI的数字互动有望成为互联网和游戏产业的新热门赛道 [4]

特斯拉(US:TSLA)

Artificial Intelligence

Artificial Intelligence

为大模型思考装上“猎鹰重装引擎” ：腾讯混元 SEAT 重塑深度思考

AI科技大本营· 2025-07-15 19:30

腾讯混元 SEAT 框架技术解析核心观点 - SEAT 框架通过多轮并行推理（N x M 架构）和语义熵导航，将传统 CoT 单引擎模式升级为"多发并联火箭"，显著提升大模型复杂推理能力 [7][15][44] - 采用非侵入式外挂设计，支持主流大模型即插即用，无需额外训练即可实现 7B 模型 +24.5%、32B 模型 +14.1% 的准确率提升 [24][25][28] - 语义熵机制动态监控推理收敛状态，通过预设阈值和自适应巡航两种模式实现精准终止，避免过度思考 [27][32][36] 技术架构创新动力系统升级 - 引入 N x M 混合扩展范式：N 个并行引擎提供广度探索（N=8 时性能持续提升），M 轮顺序迭代实现深度精炼 [16][17][23] - 每轮推理整合前轮所有分支结果，形成协同进化机制，类似猎鹰火箭的多发并联+多级捆绑设计 [17][20] - 采用轮次间控制策略（inter-round），保持模型黑箱特性，通用性优于需要修改模型结构的方案 [24][25] 智能导航系统 - 语义熵量化 N 个并行答案的语义一致性：低熵（答案趋同）时准确率提升 80% 集中在最低 20% 熵值区间 [30][32][35] - 自适应巡航模式借鉴"秘书问题"，动态比较当前熵值与初始基线，实现无阈值终止决策 [36][37] - 针对 7B 小模型的熵坍塌现象（错误答案重复），自动在性能峰值时终止，防止过载自毁 [38][40] 行业影响 - 推动测试时计算扩展（Test-Time Scaling）成为新趋势，从"更大模型"转向"更聪明推理" [12][42] - 为开源/闭源模型提供统一解决方案，在 AIME-2025 数学竞赛等复杂任务中验证有效性 [7][21][44] - 开创 Hybrid Scaling 新范式，平衡顺序扩展的深度精炼与并行扩展的多样性探索 [15][19][42]

腾讯控股(HK:00700)

测试时计算扩展

思维链（CoT）技术

Artificial Intelligence

腾讯混元SEAT框架

测试时计算扩展

思维链（CoT）技术

Artificial Intelligence

腾讯混元SEAT框架

上海数据交易所首创RDA新范式，深市规模最大的计算机ETF（159998）涨超2%，盘中实时净申购近5000万份

21世纪经济报道· 2025-07-15 15:06

市场表现 - A股计算机板块涨幅居前计算机ETF(159998)涨2.23% 成交额超1.2亿元盘中净申购达4920万份[1] - 成分股中用友网络涨超9% 润泽科技涨超8% 华勤技术光环新网浪潮信息跟涨[1] - 计算机ETF最新规模32.23亿元居同标的首位前十大重仓股包括海康威视中科曙光(占净值比6.86%) 科大讯飞金山办公等[1] AI技术进展 - xAI发布Grok 4大模型在"人类最后考试"中取得25.4%准确率超越谷歌Gemini 2.5 Pro的21.6%和OpenAI o3的21%[2] - 海外AI需求快速增长 Token量呈现加速增长态势持续推动AI Capex保持高投入[2] - 光模块行业仍具备高增长能力建议关注高速光模块液冷等算力产业链[2] 数据要素创新 - 上海数据交易所首次提出RDA新范式构建链接加密货币和数据要素的桥梁[2] - RDA强调锚定实数融合的实体资产强化数据对实体资产的真实性校验和价值提升作用[3] - RDA推动数据要素市场化进程提升实体资产与资本对接效率促进数字经济与实体经济深度融合[3]

中科曙光(SH:603019)

RDA（Real Data Assets）

计算机ETF（159998）

RDA（Real Data Assets）

计算机ETF（159998）

一文看懂：Grok 4到底强在哪里？

虎嗅· 2025-07-14 21:08

Grok 4 模型性能与规格 - Grok 4 模型在 xAI 自研的 Colossus 超算上训练，计算资源投入为 Grok-2 的 100 倍、Grok-3 的 10 倍，实现了推理性能、多模态能力和上下文处理能力的跃升 [4] - 模型拥有两个版本：Grok 4（月费 30 美元）和 Grok 4 Heavy（月费 300 美元），后者为多 Agent 协作版本，能够同时启动多个 Agent 并行工作并整合结果 [5] - 在 HLE 测试中，Grok 4 得分为 38.6 分，而 Grok 4 Heavy 得分达 44.4 分，为行业最高；在 HMMT 测试中，Grok 4 为 90 分，Grok 4 Heavy 达 97 分 [7] - 模型支持 256k tokens 的上下文窗口，并支持实时网络搜索和基础工具调用 [7] 基准测试表现与 HLE 重要性 - Grok 4 在 GPQA、AIME25、LCB（Jan-May）、HMMT25、USAMO25 等多项测评中超越了 o3、Gemini 2.5 Pro、Claude 4 Opus 等模型 [7] - 在 HLE（人类最后考试）基准测试中，Grok 4 Heavy 获得 44.4% 的成绩，显著高于此前冠军 Gemini 2.5 Pro 的 26.9% [9] - HLE 基准测试包含 2500 个极具挑战性的问题，覆盖数学、人文学科、自然科学等超过 100 个学科，设计为无法通过简单互联网检索快速回答的问题 [15] - 在 Grok 4 推出前，市面上最强大模型在 HLE 上表现不理想，例如 GPR-4o 的准确率仅为 2.7% [16] 核心技术创新：多智能体内生化 - Grok 4 的核心创新是在训练阶段引入多智能体协作，即"多智能体内生化"，将 Agent 调用及实时搜索等能力融合到训练过程中 [6][42][43] - 大模型发展主线是能力内生化，从 OpenAI o1 的"思维链内生化"到 Grok 4 的"多智能体内生化"，将多代理协作、动态任务分配等能力训练进模型中 [34][39][42][46] - "多智能体内生化"使 AI 内生化地支持 Agentic AI，更有效地解决复杂任务，相比外部工具调用，内生化的能力发挥更稳定 [40][41][46] AI 模型能力内生化趋势 - 行业发展趋势是 AI 能力内生化，包括深度思考内生化、Agent 内生化以及多模态内生化 [47][50] - 多模态内生化指大模型能够原生地理解图片、音频、视频，而非先转码成文字再理解，业界公认的目标是 Omni Model [51][53][54] - Google Gemini 已支持视频模态输入输出，而 OpenAI 的所有模型尚不支持视频模态输入 [56] - 能力内生化趋势下，大模型应用类公司的核心壁垒在于私域数据的持续积累和对应用场景的深度洞察 [58] AI Coding 能力与市场认知 - Grok 4 在代码生成能力上存在不足，生成的代码常有依赖库丢失、界面 UI 粗糙等问题，例如编写游戏时丢失 pygame 库 [63][64] - 商业场景需要的 coding model 是能整合 Github repo 资源、构建项目级应用的实战派选手，而非仅精通算法的奥赛型选手 [66][67] - Base44 公司专注于 Vibe Coding（氛围编程），通过自然语言交互生成完整软件系统，6 个月内用户达 25 万，并被以 8000 万美元（约 5.7 亿元人民币）收购 [69][70][71] 算力需求与行业竞争格局 - Grok 4 依托 20 万张 GPU 集群的 Colossus 超算中心训练，其计算资源投入是 Grok 2 的 100 倍，上下文窗口扩展至 25.6 万 tokens [76] - Colossus 超算中心目前已部署 35 万块 H100，总浮点运算能力达 100 EFLOPS，预计下半年将扩展至超过 50 万张卡 [79] - 预训练、后训练、测试时均存在 Scaling Law，今年开始后训练、测试时推理需求快速增长，多 Agent 内生化将给全球算力需求带来几何级增长 [80][81] - 随着 Grok 4 打响 Agent 能力内生化第一枪，AI 大厂大概率跟进，新一代大模型训练的军备竞赛已经开始 [83]

多智能体内生化

深度思考内生化

多模态内生化

Artificial Intelligence

多智能体内生化

深度思考内生化

多模态内生化

Artificial Intelligence

马斯克：AI已比多数人聪明五年内将超越人类智慧总和

搜狐财经· 2025-07-14 17:13

人工智能发展时间线 - 人工智能已比大多数人类聪明但尚未超越单个或群体人类[3] - 预计两年内超越任何单个人类五年内超越所有人类总和[3] - 需确保人工智能最大限度寻求真相[3] 历史观点与技术进展 - 曾预测2030年前AI超越人类智慧总和存在20%文明灭绝风险[4] - AI数学与科学推理能力快速逼近人类顶尖水平[4] - Grok 3模型展现远超预期潜力[4] 公司融资与产品整合 - SpaceX向xAI投资20亿美元作为50亿美元股权融资组成部分[5] - xAI与X平台合并后估值达1130亿美元[5] - Grok聊天机器人已应用于星链技术支持系统未来或整合至特斯拉Optimus人形机器人[5] 产品发布情况 - xAI本月正式发布Grok 4单智能体版和Grok 4 Heavy多智能体版[4]

全球最强AI模型？Grok-4继续拉动算力硬件需求，重仓国产AI的589520场内飘红，石头科技涨超10%！

新浪基金· 2025-07-14 14:07

科创人工智能ETF华宝表现 - 7月14日场内价格盘中摸高0.82%，现涨0.58%，成交额达559.64万CNY，单位净值为0.859 [1][2] - 成份股中石头科技涨超10%，奥比中光涨近4%，天准科技、威胜信息、寒武纪涨逾2% [1] - 标的指数覆盖应用软件、终端应用、终端芯片、云端芯片四大环节，具备国产替代特点 [4] xAI发布Grok 4大模型 - 7月10日xAI发布Grok 4，定位为"全球最强大AI模型"，训练计算量较Grok 2提升100倍，依托10万块H100 GPU集群 [2] - 多智能体协作版本Grok 4 Heavy同步推出，技术实现范式跃迁，拉动AI-PCB及算力硬件需求 [2][3] AI-PCB及算力硬件行业趋势 - 谷歌、亚马逊、Meta的ASIC芯片预计2026年总量超700万颗，OpenAI及xAI加速布局ASIC [3] - 英伟达Blackwell芯片放量带动AI-PCB需求，相关公司订单饱满且扩产中，二三季度业绩高增长可期 [3] 国产AI产业链动态 - 国产模型DeepSeek突破海外算力封锁，推动端侧芯片/软件AI化进程 [4] - 电子ETF（515260）覆盖半导体、消费电子、AI芯片等领域，重仓立讯精密、中芯国际、寒武纪等标的 [5]

石头科技(SH:688169)