Workflow
Grok-4
icon
搜索文档
Grok-4登顶,Kimi K2非思考模型SOTA,豆包、DeepSeek新模型性能提升|xbench月报
红杉汇· 2025-07-18 08:47
AI大模型竞争格局 - xAI发布的Grok-4以65分登顶ScienceQA榜单榜首,相比前代Grok-3-mini提升50%性能,成为当前SOTA模型[1][4] - Kimi K2以1万亿参数规模成为最大开源MoE模型,首次进入榜单前十(49.6分),位列Non-Thinking模型第一[1][11][24] - OpenAI的o3-high(60.8分)、Google Gemini 2.5 Pro(59.4分)、字节跳动Doubao-Seed-1.6(56.6分)保持第二至第五名[3][8] 模型性能突破 - Grok-4采用多智能体协作模块和实时网页检索技术,在Humanity's Last Exam等专家级测试中取得突破[21][23] - Kimi K2通过MuonClip优化器实现15T token稳定训练,预训练阶段即具备agentic tool use能力[24] - o3-pro针对科学/编程领域优化,支持200k token长上下文处理,但存在过度思考现象[25] 成本与效率对比 - 高价高质区:Grok-4($15/百万token)性能优于o3-pro($80)且成本仅其1/4,Gemini 2.5 Pro($10)实现50s内快速响应[15][17] - 性价比区:字节跳动Doubao-Seed-1.6($1.1)与DeepSeek-R1($2.24)成本优势显著,性能均超54分[15][19] - 响应时间:Grok-4达227秒最长,Gemini 2.5 Pro保持59.4分同时将响应时间压缩至44.82秒[3][17] 技术指标分析 - BoN指标显示Grok-4与o3-high以78分并列多步推理第一,DeepSeek-R1(77分)成本更低[22] - 国产模型中DeepSeek-R1(77分)领先,Kimi K2与Doubao-Seed-1.6(73分)并列第二[22] - 推理模型普遍呈现响应时间与得分正相关,非推理模型Kimi K2在低延迟下取得73分BoN成绩[11][14] 行业动态 - xbench开源ScienceQA和DeepSearch评测集,覆盖16家公司43个模型版本[6][26][27] - 主流厂商模型偏序保持稳定,OpenAI/Google/字节跳动/DeepSeek/Anthropic维持原有排名[8] - 万亿参数时代开启,Kimi K2开源推动行业技术共享,xAI通过十倍算力投入实现Grok系列跨越式发展[21][24]
AI产业跟踪:马斯克发布Grok-4,大模型持续突破获得新发展
长江证券· 2025-07-17 22:45
报告行业投资评级 - 看好丨维持 [6] 报告的核心观点 - 7月10日xAI发布Grok - 4,包括单智能体版本Grok 4和更强大的多智能体版本Grok 4 Heavy,定价分别为30美元/月(SuperGrok)、300美元/月(SuperGrok Heavy),可通过xAI API、X平台使用,支持256k token上下文窗口 [2][3] - Grok4多项基准测试超越对手,学术基准测试表现顶尖,在HLE、GPQA、AIME25、哈佛 - 麻省理工数学竞赛、USAMO、Vending Bench等测试中表现优异 [8] - Grok4训练有突破,训练规模跃迁,采用多代理协作架构,工具整合创新,产品化进展中语音模式重大改进,有望加速AI应用层商业化落地 [8] - 2025年内模型能力预计持续补强,马斯克公布xAI近期计划,预计8 - 10月发布不同模型,当前Grok 4基于第6代基础模型,第7代将优化视觉能力,支持企业级物理仿真工具链,持续看好Agent商业化元年及投资机遇,建议关注相关厂商 [8] 根据相关目录分别进行总结 事件描述 - 7月10日xAI发布Grok - 4,包含Grok 4和Grok 4 Heavy,有对应定价,可通过特定平台使用,支持256k token上下文窗口 [2][3] 事件评论 - 多项基准测试表现:Grok4在HLE考试、GPQA、AIME25、哈佛 - 麻省理工数学竞赛、USAMO、Vending Bench等测试中成绩优异,超越众多对手 [8] - 训练突破:训练规模跃迁,构建10万张H100 GPU超算集群,Grok 2到Grok 4训练量提升100倍,强化学习阶段算力投入是其他模型10倍以上;Grok 4 Heavy采用多代理并行计算,推理时算力提升约10倍;工具使用能力内化至训练过程,计划接入企业级工具 [8] - 产品化进展:语音模式延迟降低50%,新增功能,语音功能活跃用户8周内增长10倍;SuperGrok Heavy开放,用户和开发者可开展相关操作,有望加速AI应用层商业化落地 [8] - 未来计划及投资建议:预计8 - 10月发布不同模型,第7代基础模型重点优化视觉能力,支持企业级物理仿真工具链;持续看好Agent商业化元年及投资机遇,建议关注AI Agent相关厂商、云服务厂商、与大厂合作的IDC [8]
全球产业趋势跟踪周报:Grok-4大模型正式发布,多行业聚焦整治“内卷式”竞争-20250717
招商证券· 2025-07-17 20:02
核心观点 本周产业趋势集中在大模型和AI芯片,政策端关注整治“内卷式”竞争及险企长周期考核新规,短期关注五大赛道,中长期关注新科技、国产替代、“双碳”周期及电动智能汽车趋势,全球股市涨多于跌[2][5]。 核心关注与投资建议 本周重要事项前瞻 无具体内容提及[9]。 市场交易热点 上周A股涨跌幅居前的重要主题指数为稀土、炒股软件、稀土永磁[11][12]。 主题与产业趋势变化 - Grok - 4大模型正式发布,xAI确立AI新标杆:当地时间7月9日发布,架构基于全新MoE系统,专家模型数量提升,推理能力提升10倍,在多项测试中超越竞品;采用多代理推理与算力飞跃技术,训练策略升级;性能表现亮眼,在多领域测试中刷新纪录;商业定价高,应用覆盖多领域,未来有望实现科学新发现,产品进化路线明确[15][23][32]。 - 英伟达、AMD芯片供应相继解禁,美方批准H20与MI308X芯片对华销售:7月15日英伟达H20芯片获批销往中国,16日AMD宣布重启对华出口AI芯片;回顾中美贸易争端缓和及技术封锁解除进程;海外AI及算力链带动国内CPO厂家上涨;此前美国限制销售使相关公司受损;H20、MI308芯片是应对出口管制产物,性能有管控限制[42][43][49]。 投资建议 7月关注固态电池、国产算力、非银金融、国防军工、创新药五大具备边际改善的赛道;中长期关注新科技周期下全社会智能化进展、国产替代周期下产业链自主可控、“双碳”周期下碳中和全产业链降本增效以及电动智能汽车渗透率增加[53]。 政策端 整治内卷式竞争 市场监管总局召开企业公平竞争座谈会,建筑行业发出“反内卷”倡议,炼焦行业达成提价共识并坚持预付款交易;回顾整治“内卷式”竞争相关表态及近期各行业举措[55][56][60]。 引导保险资金长期稳健投资 7月11日财政部发布通知,升级国有商业保险公司绩效评价标准,建立三年以上长周期考核机制,要求保险公司提高资产负债管理水平、注重稳健经营、增强投资管理能力[61]。 7.7 - 7.13重要政策梳理 涵盖重要会议、总量政策、资本市场、房地产、营商环境、产业政策、其他政策等多方面政策,包括循环经济促进法执法检查、北京提振消费方案、沪深股通投资者程序化交易报告等[64][66][67]。 全球观察 全球股市行业表现 上周全球股市整体涨多于跌,能源、工业、医疗保健和房地产表现较好,公共事业表现欠佳;美股、欧股、英股、日股、港股、A股各有涨跌表现[68]。 全球强势股与异动股简析 过去一周领涨的200亿美元以上市值公司中运输、半导体与半导体生产设备较多,领跌的公司中软件与服务最多;分析阳光电源异动上涨和FAIR ISAAC股价暴跌原因[74][75][77]。 重要资讯速递 国内重要资讯与产业政策 包括CPI与PPI数据、港股南向通政策、稳定币学习会、市场监管抽查、电子信息规划编制、电网充电设施通知、建筑“反内卷”倡议、绿电供应模式、医疗器械采购措施、软信业发展措施等[80][82][84]。 国外重要资讯与产业政策 涉及关税计划、关税反制、中美贸易磋商、美联储降息、美债收益率、铜关税、俄乌冲突、人工智能浏览器、绿色能源补贴、自动化医疗等[88][90][93]。 全球重点科技公司跟踪 涵盖互联网科技、消费电子、新能源汽车、半导体芯片、人工智能、传媒和游戏等领域公司动态,如苹果高管变动、三星折叠屏手机发布、特斯拉无人驾驶出租车服务扩展等[96][98][99]。
Grok-4引领AI进阶,掘金算力与垂直领域赛道
海通国际证券· 2025-07-17 11:33
投资要点: 风险提示:技术竞争加剧,算力供给不足,数据隐私合规风险 股票研究 /[Table_Date] 2025.07.17 2025-07-17 Grok-4 引领 AI 进阶,掘金算力与垂直领 域赛道 [Table_Industry] 计算机 本报告导读: 7 月 10 日 Grok 4 发布超越现有模型,随着 xAI 率先跨入下一代 AI,将促使行业企 业积极探索与前沿技术的融合,加速创新步伐,推动整个产业迈向更高发展阶段。 股 票 研 究 证 券 研 究 报 请务必阅读正文之后的免责条款部分 行 业 跟 踪 报 告 告 [Table_Invest] 评级: 增持 [Table_Report] 相关报告 计算机《计算机周观点第 9 期:百度华为宣布开 源,政策推动行业生态升级与合规发展》 2025.07.06 计算机《央行拟修订 CIPS 系统业务规则,加速推 广人民币跨境支付》2025.07.05 计算机《计算机 2025 年 7 月研究观点:数字资产 政策推进,科技自主驱动板块新机遇》 2025.06.30 计算机《直击字节原动力大会(一):豆包大模型 1.6 发布,性价比进一步提升》2025.0 ...
AI应用拐点已至,聚焦Infra与大场景
长江证券· 2025-07-16 21:52
报告行业投资评级 - 看好丨维持 [8] 报告的核心观点 - 海外大模型持续更新性能提升,带动海外AI应用落地及大模型调用量提升,催生算力基础设施需求;国产应用增长但增速缓和,随着国产大模型迭代升级有望加速落地;应重视AI应用相关投资机遇,关注中国特色infra和AI应用落地大场景 [2][7] 各部分总结 海外大模型持续更新,性能提升加速AI落地 - 4月以来xAI、谷歌、Anthropic等海外知名大模型厂商密集更新大模型并提升性能,如7月10日发布的Grok - 4多项基准测试超越,学术领域表现顶尖 [16] - GPT - 5或近期发布,作为行业先行者的OpenAI新一代大模型或提升整体行业天花板 [19] - 各厂商技术路线和训练数据有差异,产品效果和领域特点不同,如Claude 4系列大模型编程性能领先 [21] 模型性能提升,带动海外应用调用爆发式增长 - 海外大模型调用量爆发式增长,如谷歌AI Token月均调用量从2024年4月的9.7万亿增长至2025年4月的480万亿,OpenRouter平台大模型整体调用量较年初大幅增长388.32% [25] - 大模型调用量提升催生算力基础设施需求,训练和推理算力需求同步爆发,大厂Capex有望高增带动算力基础设施产业进入高景气周期 [28] 国产大模型保持追赶,应用落地有望提速 - 国产应用保持增长但增速缓和,2025年6月夸克/豆包/DeepSeek/腾讯元宝/Kimi智能助手等国内AI应用MAU分别为15618/12594/9410/4095/2352万,同比上月有不同变化 [31] - 国产大模型持续迭代,随着DeepSeek、Qwen、Minimax等厂商新一代大模型升级,有望缩小与海外差距,加速国产AI应用落地 [34] 投资建议:聚焦Infra与大场景 - 海内外AI应用落地趋势加速,AI应用迎来落地拐点,应重视相关投资机遇 [38] - 推荐关注中国特色infra,重点关注IDC及国产算力产业链;重视AI应用落地大场景,如教育、司法、医疗医药等领域AI应用 [7]
关注稳定币核心配套密码产业投资机会
长江证券· 2025-07-16 13:47
报告行业投资评级 - 看好,维持 [7] 报告的核心观点 - 上周计算机板块随大盘大幅上涨3.02%,在长江一级行业中排名第7,两市成交额占比10.43%,稳定币等相关题材活跃 [2][4] - 建议关注具有深厚密码技术储备和密码相关资质尤其是金融产业相关资质的标的 [2][6] - Grok - 4发布,在多方面取得突破,有望加速AI应用层商业化落地 [19][24] - 稳定币热度提升,人民币稳定币探索工作有望开展,上海或率先探索,多个城市积极研究稳定币,建议关注相关投资机会 [26][30] - 稳定币发展将带动密码产业快速发展 [6][42] 根据相关目录分别进行总结 上周复盘:计算机板块大幅上涨 - 计算机板块走势:上周大盘上攻,上证综指突破3500点,周五报收3510.18点,涨1.09%,计算机板块随大盘涨3.02%,在长江一级行业排第7,两市成交额占比10.43% [4][12] - 热点板块及个股:稳定币/RDA/跨境支付/互金/金融IT相关题材活跃,普联软件等多只个股涨幅居前 [15][16] 上周关键词:Grok - 4、稳定币 - 马斯克发布Grok - 4:7月10日xAI发布Grok - 4,有单智能体和多智能体版本,定价不同,支持256k token上下文窗口;多项基准测试表现顶尖;训练有突破,有更强大的Agent能力;语音模式改进,产品化落地速度加快,有望加速AI应用层商业化落地;2025年内模型能力预计持续补强 [19][24][25] - 上海组织学习稳定币:7月10日上海市国资委党委学习稳定币发展趋势及应对策略;稳定币热度提升,人民币稳定币探索工作有望开展,上海或率先探索,多个城市积极研究稳定币,建议关注相关投资机会 [26][29][30] 重点推荐:密码 - 关注稳定币核心配套密码产业投资机会:8月1日香港《稳定币条例》生效,互联网巨头加快布局稳定币市场;区块链是稳定币核心技术,密码学保障其安全性和可靠性;稳定币应用扩展将带动密码产业发展,建议关注有深厚密码技术储备和相关资质的标的 [6][32][42]
国泰海通:Grok-4引领AI进阶 云服务商和数据中心运营商将直接受益
智通财经网· 2025-07-14 06:38
Grok-4技术突破 - Grok-4实现断层级突破,预训练计算量和推理计算能力较前代提升十倍以上,训练规模达Grok-2的百倍量级 [2] - 在人类最终测试(HLE)中取得45%的成绩,两倍于过往最先进的AI Gemini 2 5pro [2] - 在GPQA、AIME25等权威基准测试中以满分表现刷新纪录,多智能体协同的Grok-4 Heavy在AIME25中取得满分成绩 [2] 现实场景应用 - 语音功能实现响应速度翻倍与延迟减半,Eve英音合成技术显著提升用户体验 [3] - 在自动售货机管理测试(Vending-Bench)中以4694 15的净资产生成值碾压第二的Claude Opus 4两倍以上 [3] - 开放256K上下文API接口,在生物医学领域协助筛选数百万试验数据生成研究假设,4小时完成第一人称射击游戏自主开发 [3] 多模态能力与未来研发 - 当前Grok-4的多模态能力仍是明显短板,图像理解与生成领域需大幅提升 [1][4] - 下一代研发聚焦视频生成技术突破,计划明年推出整合虚幻引擎的3D资源自动生成系统 [4] - 短期将强化专用编程模型并优化图像识别技术,最终目标是构建兼具深度思考、实时响应与多模态协同的超级智能体 [4] 行业影响 - 云服务商和数据中心运营商将直接受益于持续增长的算力需求 [1] - 具备垂直领域优势和数据壁垒的AI解决方案提供商将在竞争中崭露头角 [1]
Grok4正式发布,豆神教育推出AIclass
国盛证券· 2025-07-13 22:40
报告行业投资评级 - 增持(维持) [6] 报告的核心观点 - 本周(7.7 - 7.11)中信一级传媒板块上涨3.22%,在游戏板块带动下继续上涨,临近中报期重视中报预期较好公司的投资机会 [2] - 2025年下半年传媒继续看好游戏等基本面驱动板块,同时弹性方向看好AI应用及IP变现,AI应用聚焦新应用的映射投资及部分较成熟应用的数据跟踪,重点关注AI陪伴、AI教育及AI玩具方向,IP变现聚焦有IP优势及全产业链潜力的公司,潮流玩具、影视内容等方向有机会 [2] 根据相关目录分别进行总结 投资聚焦 行情概览 - 本周(7.7 - 7.11)传媒板块上涨3.22%,涨跌幅前三的板块分别是综合金融(6.73%)、房地产(6.06%)、非银行金融(3.94%),涨跌幅后三的板块分别是银行( - 0.13%)、家电( - 0.18%)、汽车( - 0.56%) [10] - 传媒板块本周涨幅前五为华媒控股(47.0%)、生意宝(15.3%)、中文在线(12.7%)、中青宝(11.0%)、欢瑞世纪(10.9%),跌幅前五为紫天科技( - 51.0%)、吉比特( - 5.0%)、广电网络( - 4.9%)、宝通科技( - 4.5%)、中广天择( - 3.5%) [12] - 教育&人服板块本周涨幅前五为新高教集团(24.2%)、童程童美(19.6%)、宇华教育(17.2%)、中国春来(14.6%)、粉笔(13.4%),跌幅前五为思考乐教育( - 3.3%)、豆神教育( - 2.3%)、开元教育( - 0.5%)、传智教育( - 0.5%)、学大教育(0.0%) [12] - 重点港股&中概股上市公司一周走势为泡泡玛特(0.6%)、快手(2.0%)、猫眼娱乐(2.4%)、爱奇艺(2.8%)、腾讯控股(0.0%)、心动公司( - 2.0%)、网易 - S( - 3.9%)、哔哩哔哩(2.8%)、阅文集团(3.1%)、腾讯音乐(1.7%) [12] 本周子板块观点 - 游戏重点关注ST华通、吉比特等,关注完美世界、冰川网络等 [3][15] - AI关注豆神教育、盛天网络等 [3][15] - 资源整合预期关注中视传媒、国新文化等 [3][15] - 国企关注慈文传媒、皖新传媒等 [3][15] - 教育关注学大教育、粉笔等 [3][15] - 港股关注阿里巴巴、腾讯控股等 [3][15] 重点事件回顾 - Grok - 4大模型于7月10日正式发布,成为首个在“人类最后考试”基准测试中突破50%准确率的模型,训练量是Grok - 2的100倍、Grok - 3的10倍,能进行复杂推理分析、模拟黑洞引力波碰撞等 [4][18] - 豆神教育于7月8日推出AI教育新范式,提出“AI双师 + 超能训练场 + 学伴机器人”的创新教学模式,AI双师 + 超能训练场产品在4天 + 2天内累计销售超3000万元 [4][18] - 腾讯混元于7月7日发布美术级3D生成大模型Hunyuan3D - PolyGen,提升美术师建模效率超70%,已上线腾讯混元3D AI创作引擎并开放API接口 [4][18] 子板块数据跟踪 - 游戏近期热门重点游戏包括《现代战舰》《问鼎三国 - 策略国战手游》等 [19] - 院线内地电影市场周总票房(7.5 - 7.11)约5.78亿元(不含服务费),票房排名前三的电影为《侏罗纪世界:重生》(2.07亿元)、《恶意》(0.94亿元)、《F1:狂飙飞车》(0.87亿元) [20] - 影视视频2025年7月5日至7月11日全平台剧集收视播放量,《书梦一卷》排名第一,全网热度83.3;《以法之名》排名第二,全网热度83.9;《桃花映江山》排名第三,全网热度78.4。综艺收视播放量《奔跑吧第九季》排名第一,全网热度80.1;《麻花特开心第二季》排名第二,全网热度70.1;《风驰赛车手》排名第三,全网热度60.9 [22]
国泰海通|计算机:Grok-4引领AI进阶,掘金算力与垂直领域赛道
报告核心观点 - Grok-4的发布标志着xAI率先跨入下一代AI,其性能显著超越现有模型,将推动行业加速创新并迈向更高发展阶段 [1][2] - Grok-4在推理计算能力、现实场景应用和多模态技术方面取得突破性进展,展现出革命性进步 [2][3][4] 性能突破 - Grok-4的预训练计算量和推理计算能力较前代提升十倍以上,训练规模达到Grok-2的百倍量级 [2] - 在人类最终测试(HLE)中取得45%的成绩,两倍于Gemini 2.5pro,全面超越人类研究生学术能力 [2] - 在GPQA、AIME25等权威基准测试中以满分表现刷新纪录,多智能体协同的Grok-4 Heavy在AIME25中取得满分 [2] 现实场景应用 - 语音功能实现响应速度翻倍与延迟减半,Eve英音合成技术显著提升用户体验 [3] - 在自动售货机管理测试(Vending-Bench)中以4694.15的净资产生成值碾压Claude Opus 4两倍以上 [3] - 开放256K上下文API接口,已在生物医学领域协助筛选数百万试验数据,并在金融决策中成为首选工具 [3] 多模态技术发展 - 当前多模态能力仍是短板,图像理解与生成领域需大幅提升 [4] - 下一代研发将聚焦视频生成技术突破,计划明年推出整合虚幻引擎的3D资源自动生成系统 [4] - 短期目标是强化专用编程模型并优化图像识别技术,最终构建兼具深度思考、实时响应与多模态协同的超级智能体 [4]
通信行业周报:Grok4多模态问题分析能力增强,算力消耗倍增-20250713
国元证券· 2025-07-13 20:44
报告行业投资评级 - 报告给予通信行业“推荐”评级[2][5] 报告的核心观点 - 本周通信行业指数上涨,细分板块主要呈上涨趋势,个股涨幅差异较大,算力产业链值得关注,模型性能优化提振市场预期,推荐关注算力硬件全链[2][3] 根据相关目录分别进行总结 周行情 - 行业指数方面,本周(2025.7.7 - 2025.7.13)申万通信上涨2.13%,同期上证综指上涨1.09%,深证成指上涨1.78%,创业板指上涨2.36%[2][11] - 细分板块方面,通信网络设备及器件涨幅最高为4.16%,通信应用增值服务涨幅最低为0.16%,各细分板块主要呈上涨趋势[2][14] - 个股涨幅方面,本周通信板块上涨、下跌和走平个股数量占比分别为63.20%、25.60%和11.20%,恒宝股份(21.13%)、长芯博创(19.84%)、仕佳光子(14.85%)涨幅分列前三[16] 本周通信板块新闻 - IoT Analytics数据显示2025年Q1全球蜂窝物联网模块出货量同比增长23%,中国移动市场份额第二,全球前五企业合计占73%市场份额,与Counterpoint报告呼应,显示中国企业主导地位[18][19] - 马斯克发布Grok 4,称其为全球最强AI模型,处理学术问题达博士级别,具备多模态功能等新特性,跑分成绩亮眼,定价为每100万tokens输入3美元、输出15美元[20][21] - Dell'Oro预测AI RAN市场规模到2029年将突破100亿美元,占整体RAN市场约三分之一份额,短期内发展重点聚焦分布式RAN等,运营商优先考量效率提升[21][22] 本周及下周通信板块公司重点公告 - 本周(2025.7.7 - 2025.7.13)多家公司发布业绩预告,光迅科技、华测导航、工业富联、华工科技、鼎龙股份、沪电股份、锐捷网络、移远通信、星网锐捷业绩预增,海格通信业绩大幅下降[23][24][28] - 下周(2025.7.14 - 2025.7.20)通信板块公司限售解禁情况为无[29]