Grok 4 Heavy

搜索文档
OpenAI最强模型GPT-5来了!免费可用,Altman高呼迈向AGI一大步,微软抢先接入
硬AI· 2025-08-08 09:36
模型性能与突破 - GPT-5是OpenAI首个将o系列模型推理能力与GPT系列快速响应结合的"一体化"AI系统,具备专家级智慧 [2][6] - 编程能力显著提升,SWE-bench Verified测试准确率74.9%,超越Claude Opus 4.1(74.5%)和Gemini 2.5 Pro(59.6%) [7][9] - 健康领域错误信息率降至1.6%,较GPT-4o(15.8%)和o3(12.9%)改善明显 [14] - 幻觉问题大幅优化,事实错误率4.8%,较GPT-4o(20.6%)降低45%,较o3(22%)降低80% [17] 产品部署与商业化 - 免费及付费用户全面开放,Pro用户可无限使用增强版GPT-5 Pro,企业版年费1美元象征性收费 [4] - 微软当日整合GPT-5至365 Copilot、GitHub Copilot等平台,企业用户可处理复杂文档,开发者获得代码支持 [4][27] - Azure AI Foundry提供全系列GPT-5模型,配备智能任务路由功能 [27] 功能创新与用户体验 - 新增四种预设聊天性格(愤世嫉俗者/机器人/倾听者/书呆子),可调整交互风格 [21] - 支持"氛围编码",演示案例中根据自然语言提示生成法语学习网页App [12] - 创意写作能力提升,可处理无韵律诗等复杂结构,响应更自然 [12] - 安全训练模式"安全补全"减少过度拒绝,拒绝时提供透明解释 [19] 行业竞争与定位 - 被CEO Altman称为"世界最佳模型",数学测试中GPT-5 Pro得分42%略低于Grok 4 Heavy(44.4%) [9][24] - 微软AI红队测试显示GPT-5具备历代最强安全配置,防御恶意软件生成等攻击 [28] - 经济价值测试显示GPT-5在40+职业中半数案例达专家水平,覆盖法律、工程等领域 [25]
全网开测GPT-oss!技术架构也扒明白了
量子位· 2025-08-07 08:56
模型性能表现 - GPT-oss在多项基准测试中表现优异,横扫GPQA Diamond、AIME 2024、AIME 2025和Codeforces榜单,超越DeepSeek R1、Qwen3、Llama 4、Kimi K2等开源模型 [4][5] - 在MMLU测试中Qwen3-235B略胜一筹,Kimi-K2在SWE-Bench上得分更高 [7] - GPT-oss-120B在核心推理基准测试中与o4-mini效果相当,可在单个80GB GPU上高效运行 [9] - 20B模型在编码测试中表现出色,能准确模拟复杂物理场景和完成3D渲染任务 [11][12][13] - 模型通过经典逻辑测试如"英文草莓里有多少个字母'r'"和鹈鹕推理测试,展现强大空间想象力和逻辑连贯性 [15] 技术架构分析 - GPT-oss结构设计更宽,拥有更多注意力头、更高隐藏维度和更多Transformer模块 [22] - 注意力机制中添加了偏差单元,这一结构曾在GPT-2中出现 [24] - 采用MoE Transformer核心架构,通过细节优化提升性能并降低复杂度 [26] - 使用改进的swiglu激活函数,通过α=1.702让silu近似gelu,并采用裁剪激活值等技术防止梯度爆炸 [26][27] - 采用YaRN技术扩展上下文窗口,提升长文本处理能力 [28] 应用场景与生态 - 网友开发多种应用场景,包括论文解读、数据整理和构建GPT-oss Pro版(10个模型连接) [17][18][20] - 模型可轻松将PDF、Word等原始数据转换为LLM测试集 [19] - AWS宣布通过Amazon Bedrock和Amazon SageMaker上线该模型,便于构建生成式AI应用 [34] - 吴恩达等专家测试后认为GPT-oss-120B性能强大,Binyuan Hui指出其合成数据训练方法有助于小模型性能提升 [37] 成本与可用性 - GPT-oss-120B训练成本约420万至2310万美元,20B模型成本为其十分之一 [30] - 20B模型可在16GB内存边缘设备运行,适合本地推理和快速迭代 [9] - 用户可通过LM Studio下载20B模型,或使用AWS平台部署 [33][34] 局限性及改进 - 模型在非英语文本上表现不佳,55%情况下存在语法或拼写错误 [30] - 官方发布技术文档指导用户通过LoRA微调实现多语言支持 [32]
Grok 4遥遥领先,但马斯克想要得更多
首席商业评论· 2025-07-21 11:34
Grok 4技术能力 - Grok 4分为单代理版本Grok 4和多代理版本Grok 4 Heavy,后者支持四个代理同时工作,推理能力更强 [5] - 在SAT、GRE等考试中取得近乎完美成绩,在"人类终极考试(HLE)"测试得分超过Gemini 2.5 Pro和o3,Grok 4 Heavy版本突破40% [5] - 多语言支持全面,尤其在英语和编码混合任务中领先Kimi,深度思考能力使其在科研场景更可靠 [5] - SWE-Bench基准测试中Grok 4达到60%以上,高于GPT-4.5的54.6%,代码分析和bug修复识别准确率达89% [8] - 训练量是Grok 2的100倍,强化学习阶段投入算力是其他模型的10倍以上 [8] - 订阅费为30美元/月,Grok 4 Heavy版本300美元/月,Grok 3维持免费 [8] 行业竞争格局 - 大模型发展从"规模竞赛"转向"效率与场景深耕",Claude 4代码生成领先,Gemini 2.5 Pro支持200万token上下文 [16] - 模型差异只有数量级没有指数级,OpenAI未形成绝对优势,各家公司你追我赶 [17] - 微软、亚马逊、谷歌和Meta四大巨头2025年AI投资计划高达3200亿美元 [20] xAI财务状况 - 每月支出高达10亿美元,2024年总支出预计130亿美元,营收仅5亿美元 [11] - 计划打造配备100万个英伟达Blackwell GPU的超级计算机,耗资50亿至625亿美元 [13] - 采用合成数据训练,数据集总量约4万亿tokens,近似重复率<1% [13] - 承担马斯克收购推特时产生的银行债务,年初以全股票交易方式收购X,估值330亿美元 [15] - 即将启动第三次大规模融资,目标估值2000亿美元,6月已筹集300亿美元,7月获得100亿美元 [15] 商业化路径 - 向投资者承诺2027年实现盈利,摩根士丹利预测2029年收入或突破130亿美元 [22] - 营收几乎全部依赖X Premium订阅服务,2024年预期收入5亿美元 [23] - 与特斯拉和X构建的商业帝国形成协同,X平台数据资源和算力共享降低投入成本 [20] 技术争议 - 在图像理解和生成上逊于OpenAI、Anthropic等对手 [9] - 合成数据训练可能导致幻觉过高,实测显示回答问题时优先考虑马斯克观点 [13][14] - Grok 3发布后仅留下大尺度聊天内容印象,未能推动用户大幅增长 [16]
Grok 4遥遥领先,但马斯克想要得更多
搜狐财经· 2025-07-19 21:37
Grok4技术能力 - Grok4发布两个版本:单代理Grok4和多代理Grok4 Heavy,后者支持四个代理同时工作[3] - 在SAT、GRE考试中取得近乎完美成绩,在HLE测试中得分超过Gemini2.5 Pro和o3,Grok4 Heavy版本突破40%[3] - 多语言支持全面,尤其在英语和编码混合任务中领先Kimi,科研场景中深度思考能力更可靠[3] - 图像理解和生成能力仍逊于OpenAI、Anthropic等对手[6] xAI财务状况 - 每月支出高达10亿美元,2024年总支出预计130亿美元,营收仅5亿美元[7] - 2026年营收或增至20亿美元,但仍难覆盖成本缺口[7] - 计划打造配备100万个英伟达Blackwell GPU的超级计算机,预计耗资50-625亿美元[10] - 采用合成数据训练,成本远高于同行,训练数据集总量约4万亿tokens[10] 市场竞争格局 - 大模型发展从"规模竞赛"转向"效率与场景深耕",Claude4代码生成能力领先,Gemini2.5 Pro支持200万token上下文[13] - OpenAI将发布GPT-5,微软、亚马逊、谷歌和Meta四大巨头2025年AI投资计划高达3200亿美元[15] - xAI向投资者承诺2027年实现盈利,摩根士丹利预测2029年收入或突破130亿美元[17] 战略布局 - 通过收购X获得数据资源和算力共享优势,省去外部数据采购成本[16] - 采取"烧钱换领先"战略,试图通过大规模融资和硬件投资超越竞争对手[10] - 计划通过推高估值缓解资金压力,即将启动第三次大规模融资目标估值2000亿美元[11] 技术争议 - 合成数据训练可能导致幻觉过高和"以讹传讹"问题[11] - Grok在思维链中明确考虑马斯克观点,存在倾向性争议[11] - 模型跳票引发能力质疑,Grok3.5最终跳过直接发布Grok4[14]
马斯克推出“AI女友”,30美元/月
新华网财经· 2025-07-16 21:14
产品功能更新 - 特斯拉与xAI推出Grok 4大模型的"伴侣"功能 允许用户与AI生成的虚拟角色深度互动 目前仅限每月支付30美元的SuperGrok订阅用户使用 [1] - 首批上线两名角色:哥特风女孩Ani(需互动增加好感度)和卡通小熊猫"坏鲁迪"(以粗鲁言论为特点) Ani的建模投入更多资源 与马斯克的二次元偏好相关 [1] - 代码逆向工程发现开发中的新角色"Chad" 定位为健身教练类形象 同时语音聊天模式支持NSFW内容开关 用户可自主选择敏感话题互动 [3] 技术发布与性能 - xAI发布Grok 4系列两款模型:单智能体版本Grok 4和多智能体版本Grok 4 Heavy(支持4个智能体并行思考 调用更大计算资源完成复杂任务) [6] - Grok 4在"人类的最后考试"中准确率达25.4% 超过谷歌Gemini 2.5 Pro(21.6%)和OpenAI o3高版本(21%) 马斯克称其为"世界最强AI模型" [6] - 马斯克宣称Grok 4在所有学科上超越博士水平 虽未实现科学新发现 但预计年内将突破这一目标 [6] 行业竞争与趋势 - 新功能标志头部AI公司竞争方向转变 从单纯追求AI智能性转向拟人化交互体验 [3] - AI模型仿真人类能力持续提升 基于AI的数字互动有望成为互联网和游戏产业的新热门赛道 [4]
为大模型思考装上“猎鹰重装引擎” :腾讯混元 SEAT 重塑深度思考
AI科技大本营· 2025-07-15 19:30
腾讯混元 SEAT 框架技术解析 核心观点 - SEAT 框架通过多轮并行推理(N x M 架构)和语义熵导航,将传统 CoT 单引擎模式升级为"多发并联火箭",显著提升大模型复杂推理能力 [7][15][44] - 采用非侵入式外挂设计,支持主流大模型即插即用,无需额外训练即可实现 7B 模型 +24.5%、32B 模型 +14.1% 的准确率提升 [24][25][28] - 语义熵机制动态监控推理收敛状态,通过预设阈值和自适应巡航两种模式实现精准终止,避免过度思考 [27][32][36] 技术架构创新 动力系统升级 - 引入 N x M 混合扩展范式:N 个并行引擎提供广度探索(N=8 时性能持续提升),M 轮顺序迭代实现深度精炼 [16][17][23] - 每轮推理整合前轮所有分支结果,形成协同进化机制,类似猎鹰火箭的多发并联+多级捆绑设计 [17][20] - 采用轮次间控制策略(inter-round),保持模型黑箱特性,通用性优于需要修改模型结构的方案 [24][25] 智能导航系统 - 语义熵量化 N 个并行答案的语义一致性:低熵(答案趋同)时准确率提升 80% 集中在最低 20% 熵值区间 [30][32][35] - 自适应巡航模式借鉴"秘书问题",动态比较当前熵值与初始基线,实现无阈值终止决策 [36][37] - 针对 7B 小模型的熵坍塌现象(错误答案重复),自动在性能峰值时终止,防止过载自毁 [38][40] 行业影响 - 推动测试时计算扩展(Test-Time Scaling)成为新趋势,从"更大模型"转向"更聪明推理" [12][42] - 为开源/闭源模型提供统一解决方案,在 AIME-2025 数学竞赛等复杂任务中验证有效性 [7][21][44] - 开创 Hybrid Scaling 新范式,平衡顺序扩展的深度精炼与并行扩展的多样性探索 [15][19][42]
上海数据交易所首创RDA新范式,深市规模最大的计算机ETF(159998)涨超2%,盘中实时净申购近5000万份
21世纪经济报道· 2025-07-15 15:06
市场表现 - A股计算机板块涨幅居前 计算机ETF(159998)涨2.23% 成交额超1.2亿元 盘中净申购达4920万份[1] - 成分股中用友网络涨超9% 润泽科技涨超8% 华勤技术 光环新网 浪潮信息跟涨[1] - 计算机ETF最新规模32.23亿元 居同标的首位 前十大重仓股包括海康威视 中科曙光(占净值比6.86%) 科大讯飞 金山办公等[1] AI技术进展 - xAI发布Grok 4大模型 在"人类最后考试"中取得25.4%准确率 超越谷歌Gemini 2.5 Pro的21.6%和OpenAI o3的21%[2] - 海外AI需求快速增长 Token量呈现加速增长态势 持续推动AI Capex保持高投入[2] - 光模块行业仍具备高增长能力 建议关注高速光模块 液冷等算力产业链[2] 数据要素创新 - 上海数据交易所首次提出RDA新范式 构建链接加密货币和数据要素的桥梁[2] - RDA强调锚定实数融合的实体资产 强化数据对实体资产的真实性校验和价值提升作用[3] - RDA推动数据要素市场化进程 提升实体资产与资本对接效率 促进数字经济与实体经济深度融合[3]
一文看懂:Grok 4到底强在哪里?
虎嗅· 2025-07-14 21:08
就在几天前,马斯克的xAI正式发布Grok 4大模型,号称世界最强AI。 我们团队这几天仔细研究了Grok 4相关的研究资料,有一些新发现,对未来AI产业趋势及算力展望具有一定价值,遂整理成此 文,用一篇文章的篇幅给大家介绍清楚Grok 4的发展脉络。 核心要点: 下面我们正式开始。 一、大力出奇迹,性能登顶各大Benchmark Grok 4是在xAI自研的Colossus超算上训练而成的,其训练规模远超前代模型,计算资源投入为 Grok-2 的100倍、Grok-3 的 10 倍, 实现了推理性能、多模态能力和上下文处理能力的跃升。 Grok 4拥有两个版本:Grok 4(月费30美金)、Grok 4 Heavy(月费300美金,是的你没看错,300美金!)。其中Grok 4是单Agent 版本,而Heavy是多Agent协作版本,能够同时启动多个Agent并行工作,并最后整合结果。 经过实测,Grok 4在多个Benchmark上均取得了优秀的成绩。在GPQA、AIME25、LCB(Jan-May)、HMMT25、USAMO25等多 项测评中,Grok 4都超越了o3、Gemini 2.5 Pro、Cl ...
马斯克:AI已比多数人聪明 五年内将超越人类智慧总和
搜狐财经· 2025-07-14 17:13
【CNMO科技消息】7月14日,CNMO获悉,马斯克称五年内AI将比所有人加起来更聪明。 马斯克在社交媒体发文称,人工智能已经比大多数人类聪明得多,但还没有比任何人类更聪明,而且比 一群使用计算机的聪明人类(即"一家公司")的聪明程度要低得多。但它终究会实现。它可能在不到两 年的时间内,比任何单个人类都更聪明,在大约五年时间内,将比所有人类加起来都更聪明。他强调, 应确保人工智能可以最大限度地寻求真相,即使过程中会遇到一些障碍。 这并不是他第一次提出这一观点。今年3月,马斯克在《The Joe Rogan Experience》节目中称,AI可能 在2030年前超越人类智慧总和,并存在20%概率导致人类文明灭绝。马斯克指出,AI在数学与科学领域 的推理能力正快速逼近人类顶尖水平,其旗下xAI公司的Grok 3模型已展现"远超预期"的潜力。 据悉,马斯克和他的xAI团队在本月正式发布了最新一代大模型Grok 4和Grok 4 Heavy,其中Grok 4为单 智能体版,Grok 4 Heavy为多智能体版。 据CNMO了解,SpaceX已承诺向马斯克的人工智能初创公司xAI投资20亿美元,作为后者50亿美元股权 ...
全球最强AI模型?Grok-4继续拉动算力硬件需求,重仓国产AI的589520场内飘红,石头科技涨超10%!
新浪基金· 2025-07-14 14:07
科创人工智能ETF华宝表现 - 7月14日场内价格盘中摸高0.82%,现涨0.58%,成交额达559.64万CNY,单位净值为0.859 [1][2] - 成份股中石头科技涨超10%,奥比中光涨近4%,天准科技、威胜信息、寒武纪涨逾2% [1] - 标的指数覆盖应用软件、终端应用、终端芯片、云端芯片四大环节,具备国产替代特点 [4] xAI发布Grok 4大模型 - 7月10日xAI发布Grok 4,定位为"全球最强大AI模型",训练计算量较Grok 2提升100倍,依托10万块H100 GPU集群 [2] - 多智能体协作版本Grok 4 Heavy同步推出,技术实现范式跃迁,拉动AI-PCB及算力硬件需求 [2][3] AI-PCB及算力硬件行业趋势 - 谷歌、亚马逊、Meta的ASIC芯片预计2026年总量超700万颗,OpenAI及xAI加速布局ASIC [3] - 英伟达Blackwell芯片放量带动AI-PCB需求,相关公司订单饱满且扩产中,二三季度业绩高增长可期 [3] 国产AI产业链动态 - 国产模型DeepSeek突破海外算力封锁,推动端侧芯片/软件AI化进程 [4] - 电子ETF(515260)覆盖半导体、消费电子、AI芯片等领域,重仓立讯精密、中芯国际、寒武纪等标的 [5]