Grok 4.1 Fast
搜索文档
AI数据继续上攻
小熊跑的快· 2026-01-26 07:07
行业模型调用量周度数据 - 统计周期内,行业主要大语言模型总调用量达到6.17万亿次,周度调用量增长1.57万亿次,环比增速显著 [2] - 在主要模型中,ChatGPT移动端数据环比上行明显,显示其用户活跃度或使用频率在提升 [4] - 第三方平台OpenRouter的调用数据继续创下新高,表明通过聚合平台分发模型的需求持续旺盛 [4] 主要模型市场份额与排名 - “Others”类别的模型合计调用量最高,达到2.84万亿次,占据显著市场份额 [2] - 国产模型MiMo-V2-Flash本周调用量达4620亿次,排名冲至行业第二,表现突出 [2][4] - 头部模型竞争激烈,Anthropic的Claude Sonnet 4.5以6110亿次调用量位居榜首,OpenAI的Claude Opus 4.5以3150亿次调用量位列第五 [2] - 谷歌系模型表现强劲,Gemini 3 Flash Preview、Gemini 2.5 Flash及Lite版合计调用量接近1万亿次 [2] - 其他重要参与者包括DeepSeek V3.2(3070亿次)、xAI的Grok Code Fast 1(4480亿次)与Grok 4.1 Fast(2240亿次) [2]
第一梯队的大模型安全吗?复旦、上海创智学院等发布前沿大模型安全报告,覆盖六大领先模型
机器之心· 2026-01-22 12:05
报告概述 - 由复旦大学、上海创智学院、迪肯大学与伊利诺伊大学厄巴纳-香槟分校的研究团队联合发布,旨在系统性评估前沿大模型的安全性 [2] - 构建了一套覆盖语言、视觉语言与图像生成三大核心场景的统一安全评测框架,对六大前沿模型进行了全景式刻画 [2] - 评测融合了四大关键维度:基准评测、对抗评测、多语言评测和合规性评测,形成多层次、立体化的评估体系 [2][4] - 评测对象为通用能力处于第一梯队的前沿模型,包括GPT-5.2、Gemini 3 Pro、Qwen3-VL、Grok 4.1 Fast、Nano Banana Pro、Seedream 4.5,未覆盖Claude系列模型 [2][6] 语言模态安全 - **GPT-5.2** 平均安全率为78.39%,业界领先,其安全机制已进入以深层语义理解与价值对齐为核心的阶段,在复杂灰区场景中判断稳定,对抗输入下失效风险低 [11] - **Gemini 3 Pro** 平均安全率为67.9%,呈现“强但不均衡”特征:基准测试达88.06%,多语言安全率67.00%,合规性73.54%,但对抗鲁棒性下降至41.17%,在语义伪装与复杂操纵中泛化能力有待提升 [11] - **Qwen3-VL** 平均安全率为63.7%,与Gemini 3 Pro比肩,合规性表现突出,以77.11%的成绩位居第二,但对抗安全性(33.42%)与多语言安全(64.00%)明显回落 [12] - **Grok 4.1 Fast** 平均安全率为55.2%,表现不均衡:基线安全性(66.60%)和合规性评测(45.97%)垫底,但在对抗评测中以46.39%的安全率位列第二,显示出对特定攻击模式的拦截能力 [12] 多模态安全 - **GPT-5.2** 平均多模态安全率为94.69%,全面领先,对抗评测下达97.24%,基准场景中92.14%稳居首位,代表当前多模态安全对齐的最高成熟度 [13] - **Qwen3-VL** 平均安全率为81.11%,超越Gemini 3 Pro,基准成绩83.32%,对抗成绩78.89%,在视觉-语言交互场景中安全策略具备较好的结构完整性 [13] - **Gemini 3 Pro** 平均安全率为78.99%位列第三,呈现“可靠但保守”特征,面对多轮视觉诱导、隐性语义嵌套等复杂攻击时防御强度弱于前两名 [15] - **Grok 4.1 Fast** 平均安全率为68.16%,对抗成绩68.34%略高于基准成绩67.97%,其防护机制可能停留在浅层过滤与简单触发逻辑上 [15] 文生图安全 - **Nano Banana Pro** 平均安全率为59.86%,在基准评测(60.00%)、对抗评测(54.00%)与合规性评测(65.59%)三个维度均位居首位,安全机制具备风险语义重构与情境适配能力 [16] - **Seedream 4.5** 平均安全率为41.71%,展现了坚实的合规基础,基准安全47.94%,合规性57.53%,但对抗安全性仅19.67%,在面对语义伪装、隐性诱导等对抗型提示时鲁棒性不足 [16] 模型安全人格画像 - **GPT-5.2(全能内化型)**:安全雷达图谱近乎全向饱和,安全机制已从外置规则演进为内生推理能力,在灰区与复杂语境中能给出克制而精确的合规引导 [19] - **Qwen3-VL(准则合规型)**:在法律政策边界清晰、监管要求明确的场景中展现出极强的稳定性与可预期性,安全策略明显偏向规则驱动范式 [20] - **Gemini 3 Pro(伦理交互型)**:采用“先响应、后校准”的人本化安全交互范式,擅长处理偏见与歧视类风险,但安全策略偏向事后纠偏,面对对抗性重构时稳定性有提升空间 [21] - **Grok 4.1 Fast(自由效率型)**:呈现出轻量化与极速响应的产品哲学,原生防御机制相对克制,强调开放表达与低摩擦交互体验,体现效率与表达自由优先的取舍 [22][23] - **Nano Banana Pro(柔性重塑型)**:擅长通过内生语义净化策略对高风险提示进行隐性重构,平衡安全与创作自由,但对边界模糊风险的处理高度依赖隐式转换机制 [24] - **Seedream 4.5(坚实屏障型)**:坚持以强约束为核心的安全设计理念,在版权与暴力内容防御方面构建了稳定可靠的拦截闭环,但安全体系呈现“阻断优先”特征,缺乏对灰区场景的语义判别弹性 [25] 核心安全挑战 - **多轮自适应攻击的深层威胁**:攻击者通过持续观测模型响应并动态调整诱导策略,可形成具备“自我进化”能力的多步攻击链路,单一拦截层和静态规则体系难以形成有效防线 [27] - **跨语言安全的结构性不均衡**:多数模型在非英语语境(如泰语、阿拉伯语等)下的安全表现出现20%–40%的系统性下滑,暴露出安全对齐在语料分布与策略迁移上的显著不平衡 [28] - **决策透明度与可解释性的治理短板**:当前安全机制更多体现为“结果合规”,而非“过程可审计”,在高风险领域中决策可解释性与责任可追溯性存在结构性不足 [29] 行业观察与趋势 - 基于静态安全基准的评测会普遍高估安全性,在真实越狱攻击下没有模型具备可靠的防御能力,即使GPT-5.2在最坏情况下的安全率也仅约6%,其他模型接近于0% [14] - 大模型安全对齐必须转向从底层架构、训练范式到多模态交互机制的全栈式深度嵌入,学术界、产业界与治理机构需协同构建兼具包容性、标准化与动态演进能力的安全评估体系 [30]
数据漂亮
小熊跑的快· 2026-01-18 21:21
AI大模型行业第三方API调用数据概览 - 统计周期内,第三方API平台上的AI大模型总调用量(Tokens)达到7.11万亿(7.11T)[2] - 统计周期内,行业总调用量的周度增长为5470亿(+547B),显示出强劲的扩张势头[2] 主要AI模型市场份额与排名 - “Others”类别以3.32万亿的调用量占据主导地位,远超其他单一模型[2] - Anthropic公司的Claude Opus 4.5模型以5990亿的调用量位列第二[2] - 国产模型MiMo-V2-Flash以5060亿的调用量在该第三方平台排名全球第三[2][3] - 紧随其后的模型包括:Claude Sonnet 4.5(5800亿)、Grok Code Fast 1(4320亿)、Gemini 3 Flash Preview(4140亿)、Gemini 2.5 Flash(3580亿)、DeepSeek V3.2(3330亿)、Gemini 2.5 Pro(3050亿)和Grok 4.1 Fast(2670亿)[2] 行业趋势与预测 - 第三方API调用数据创下新高,符合两周前的市场预测[3] - 国产AI模型MiMo-V2-Flash在全球第三方平台中取得领先的市场地位,位列第三[3]
IT员工抄公司量化代码赚8千万,被罚1.7亿;传毫末智行停工解散、赔偿不明;实习生抽中显卡被公司要求上交?回应来了 | AI周报
AI前线· 2025-11-23 13:33
IT员工窃取量化代码受罚 - 杭州某科技公司IT员工林艺平利用职务便利窃取公司量化交易代码 通过他人证券账户进行趋同交易 在2022年11月16日至2023年9月6日期间获利8857.69万元[3][4] - 浙江证监局对林艺平作出行政处罚 没收违法所得8857.69万元并处以等额罚款 合计罚没1.7715亿元 同时采取5年证券市场禁入措施[5] 自动驾驶公司运营动态 - 长城汽车旗下自动驾驶公司毫末智行被传已于11月22日通知员工停工解散 赔偿机制等后续安排尚未明确[6] - 毫末智行业务面临挑战 随着长城汽车向元戎启行等供应商倾斜 公司处境艰难 2025年曾出现技术副总裁艾锐等核心高管离职的人事动荡[7] 人工智能行业人才流动 - 字节跳动Seed大语言模型团队核心成员乔思远离职加入Meta 视觉模型研究团队核心成员蒋路和田值于今年中离职 蒋路加入苹果 今年该团队已有七位研究骨干离职[11] - TikTok主站视频推荐算法负责人宋洋离职加入Meta 将全面负责Instagram Reels推荐业务 据传Meta创始人扎克伯格亲自邀请并开出数千万美元年薪[14][15] 人工智能初创企业融资与技术进展 - 前百度副总裁景鲲创立的AI公司Genspark完成2.75亿美元B轮融资 融资后估值达12.5亿美元 跻身独角兽行列 同时发布全新平台Genspark AI Workspace[12] - Genspark创始团队背景豪华 CEO景鲲为前百度集团副总裁 CTO朱凯华曾在谷歌开创AI驱动搜索排序技术 COO桑文为MIT博士[13] AI硬件公司运营状况 - Rabbit公司被曝已连续数月拖欠员工工资 部分员工从10月起罢工 但公司仍声称计划在2026年推出下一代AI硬件[16] - Rabbit R1设备实际表现被用户指出远逊于发布会效果 例如实景拍摄需等待20秒才回应 被指如同低端安卓手机安装APK文件[16] 互联网公司AI产品发布与市场反应 - 阿里巴巴AI应用"千问"公测首日因用户涌入过载出现服务拥堵 "阿里巴巴千问崩了"话题登上微博热搜 公司回应称状态良好并计划推出国际版[20] - 蚂蚁集团全模态通用AI助手"灵光"上线两天下载量突破50万 冲上App Store总榜第七 但其闪应用功能因流量过大暂时无法使用[21][22] 人形机器人领域技术争议 - 优必选发布人形机器人Walker S2量产交付视频后 遭Figure创始人布雷特·阿德科克质疑视频造假 称机器人方阵为电脑特效[23] - 优必选回应质疑并发布一镜到底原速视频 公司CBO谭旻表示质疑源于对中国智能制造实力缺乏了解 并称公司公布的所有订单均向公众负责[24] 人工智能大模型技术突破 - 谷歌上线Gemini 3 Pro Image Preview图像模型 支持4K分辨率输出 在MathArena基准测试中达到23.4%正确率 远超其他模型1%左右水平[29][30] - OpenAI推出GPT-5.1-Codex-Max编程模型 专为长时间运行任务设计 采用压缩技术可处理百万级别Token 在SWE-Bench Verified任务中思考Token减少30%[32][33] AI智能体与专用工具发展 - 马斯克xAI公司推出Grok 4.1 Fast模型和Agent Tools API Grok 4.1 Fast拥有200万token上下文窗口 在智能体调用测评中以93.3%得分位居榜首[34][35] - 非营利研究机构FutureHouse发布AI科研系统Kosmos 单次12小时运行可阅读1500篇论文并生成4.2万行分析代码 工作量相当于人类团队半年产出[36] AI在教育与健康领域应用 - 斑马口语正式上线 号称全球首个AI外教一对一产品 基于猿力大模型打造 具备超人类教学能力 能实现低延迟实时对话和精准发音纠错[37] - Lumia公司推出智能耳环Lumia 2 重量不足1克 满电续航8天 可高精度追踪睡眠、体温、月经周期等健康数据 号称"全球最小可穿戴设备"[41] 企业AI应用与开源项目 - 微博发布自研开源大模型VibeThinker 拥有15亿参数 单次训练成本仅7800美元 在国际数学竞赛基准测试上击败DeepSeek R1模型[39] - OceanBase发布并开源首款AI数据库seekdb 开发者仅需三行代码即可构建知识库等AI应用 支持百亿级多模数据检索[40]
低成本叫板GPT-5.1!马斯克杀入智能体
搜狐财经· 2025-11-22 10:41
产品发布与核心特性 - 马斯克的xAI公司推出新模型Grok 4.1 Fast和智能体工具xAI Agent Tools API [2] - Grok 4.1 Fast是公司迄今为止性能最佳的工具调用模型,支持200万token的上下文窗口,擅长处理客户支持和财务等复杂应用场景 [2] - 该模型在人工智能分析智能指数中跃升4位达到第六位,在智能体调用测评Telecom排行榜上以93.3%的得分位居榜首 [2] 性能表现与基准测试 - Grok 4.1 Fast以更低成本超越了GPT-5.1(high)、Gemini 3 Pro等模型的性能,比Grok 4 Fast提高了27分 [2] - 模型幻觉率比Grok 4 Fast降低了一半,在事实性方面更准确 [2] - 在X Browse内部基准测试中,Grok 4.1 Fast在Research-Eval Reka得分63.9,平均成本0.046美元,优于GPT-5和Claude Sonnet 4.5 [28] 实测体验与功能对比 - 实测发现Grok 4.1 Fast在实时信息检索效果上比Grok 4 Fast明显提升,能覆盖当天最新动态 [5][15] - 但在经典编程案例表现上相比Grok 4 Fast出现“翻车”,例如在模拟旋转六边形内弹跳球任务中未能正确生成结果 [5][11][12][13] - 模型通过长时域强化学习训练,确保在长达200万token的上下文窗口中保持稳定性能 [9] 工具集成与开发支持 - Agent Tools API使智能体能访问实时X数据、网络搜索、远程代码执行等功能,开发者可用几行代码实现工具调用 [5][20][22] - 工具运行在xAI基础架构上,开发者无需管理API密钥、速率限制或沙箱,显著扩展了基础模型功能 [22][23][24] - Grok 4.1 Fast和Agent Tools API结合使用,使开发人员能够构建专门用于工具调用和智能体搜索的生产级智能体 [5] 定价策略与市场推广 - Grok 4.1 Fast输入价格为0.2美元/百万tokens,输出价格0.5美元/百万tokens,缓存输入价格为0.05美元/百万tokens [5][6] - Agent Tools API调用价格5美元起/1000次成功调用,在12月3日前用户可免费体验以上服务 [5][6][29] - 公司推出grok-4-1-fast-reasoning和grok-4-1-fast-non-reasoning两个变体,分别针对最大智能和即时回复场景 [29] 行业趋势与竞争格局 - AI行业模型和产品迭代开始聚焦智能体,市场需求倒逼技术升级,围绕AI智能体商业化落地的军备竞赛升级 [30] - 具备更强应用生态的企业在智能体竞争中具备优势,但模型性能的稳定性仍需更多实测验证 [30]
低成本叫板GPT-5.1,马斯克杀入智能体
36氪· 2025-11-20 16:56
产品发布与核心特性 - xAI公司推出新模型Grok 4.1 Fast及智能体工具xAI Agent Tools API两大更新[2] - Grok 4.1 Fast是公司迄今性能最佳的工具调用模型,支持200万token上下文窗口,擅长处理客户支持和财务等复杂应用场景[2] - 该模型在人工智能分析智能指数中跃升4位至第六位,在智能体调用测评Telecom排行榜以93.3%得分位居榜首,超越GPT-5.1等模型[3] - Grok 4.1 Fast幻觉率比Grok 4 Fast降低一半,事实性更准确[3] 性能表现与基准测试 - 在τ²-bench Telecom测试中,Grok 4.1 Fast以更低成本超越GPT-5.1、Gemini 3 Pro、Claude 4.5 Sonnet等模型性能[9] - 通过长时域强化学习训练,模型在长达200万token的上下文窗口中保持稳定性能[13] - 实测显示,Grok 4.1 Fast在实时信息检索效果上比Grok 4 Fast明显提升,但在经典编程案例上表现不如前代版本[7][14][17][19][21] - 在X Browse内部基准测试中,Grok 4.1 Fast得分56.3,平均成本0.091美元,优于GPT-5和Claude Sonnet 4.5[33] 工具功能与集成 - Agent Tools API使智能体能访问实时X数据、网络搜索、远程代码执行等功能[6] - 结合使用Grok 4.1 Fast和Agent Tools API,开发人员可构建生产级智能体,用于工具调用和智能体搜索[7] - API主要功能包括搜索工具、文件搜索、代码执行和MCP工具连接,所有工具运行在xAI基础架构上,简化开发流程[28][31] 定价策略与市场推广 - Grok 4.1 Fast输入定价为0.2美元/百万tokens,缓存输入0.05美元/百万tokens,输出价格0.5美元/百万tokens[8] - Agent Tools API调用价格5美元起/1000次成功调用,在12月3日前用户可免费体验以上服务[8][34] - xAI与OpenRouter合作,免费提供Grok 4.1 Fast,公司将在API上发布推理和非推理两个模型变体[34]
反超Gemini 3,马斯克放出Grok4.1快速推理版,还曝出了新一轮150亿美元融资
36氪· 2025-11-20 15:09
融资与估值动态 - xAI正计划进行新一轮150亿美元(约1067亿人民币)融资,公司估值或将达到2300亿美元(约1.6万亿人民币)[1] - 若融资属实,xAI估值在不到一年内从500亿美元增长至2000多亿美元,增幅超过四倍[12] - 与2025年3月xAI与X合并后的1130亿美元估值相比,传闻中的2300亿美元估值翻了一倍不止[3] 公司发展历程 - 马斯克于2023年7月正式官宣创立xAI,最初定位为公益性公司,并于2024年5月放弃该身份[9] - 2023年12月,xAI通过首轮大规模外部融资筹集约1.347亿美元[10] - 2024年,xAI完成B轮融资约60亿美元,半年后又完成60亿美元C轮融资,投后估值达500亿美元[10] - 2025年3月,xAI以全股票交易方式收购X,合并后公司估值达1130亿美元[10] - 2025年7月,xAI被曝进行50亿美元债务融资和50亿美元股权融资,其中SpaceX投资20亿美元[12] 产品与市场表现 - xAI核心产品为搭载自家模型的Grok聊天机器人,以及AI驱动的在线百科全书Grokipedia[10] - Grok产品深度捆绑在X生态内,其用户规模和商业影响力与OpenAI不在一个量级[5] - 作为对比,OpenAI旗下ChatGPT每月订阅费收入超过2亿美元[5] - Grok 4.1模型在发布后的人类盲选竞技场中败给了谷歌Gemini 3[9][15] 行业趋势 - 大模型公司正经历新一轮估值飞涨,xAI的竞争对手OpenAI在2025年10月的一次特殊交易中估值被推高至5000亿美元,较同年3月的3000亿美元增长近67%[13]
狙击Gemini 3!OpenAI发布GPT-5.1-Codex-Max
量子位· 2025-11-20 15:01
文章核心观点 - OpenAI发布GPT-5.1-Codex-Max新模型,在AI编程领域实现多项技术突破,包括突破上下文窗口限制、提升任务处理效率和延长连续工作时间,以应对来自Gemini 3等竞争对手的压力 [1][2][9][34] 模型性能提升 - 新模型在METR指标上达到新SOTA,有50%的概率能完成一项原本需要人类2小时42分钟完成的软件工程任务,比GPT-5对标的时间多出25分钟 [11][12] - 在SWE-bench Verified测试中,相同medium推理力度下,新模型性能优于GPT-5.1-Codex,且思考token使用量减少30% [18] - 针对非延迟敏感任务推出xhigh推理力度选项,通过更长的思考时间以获得更优答案 [20] 超长上下文处理能力 - 模型原生支持压缩功能,在接近上下文窗口限制时可自动压缩对话以获得新窗口,从而突破限制实现跨窗口连贯工作 [22][23] - 在内部评估中,模型能一次独立运行超过24小时,连贯处理数百万token的任务 [25] - 该能力使其能直接处理书籍、长文档分析等超长篇幅任务,避免信息割裂,并支撑高负载、长周期的持续工作 [26][27][28] 实际应用与部署 - 新模型在PR创建、代码审查等实际软件工程任务中训练,推理更快更有效,并且是OpenAI首个支持Windows环境的模型 [16] - 目前已在Codex中支持与CLI、IDE扩展、云端和代码审查工具结合使用,API接口即将上线 [30] 行业竞争格局 - 行业内在AI编程赛道竞争激烈,Claude Code在速度上具有优势,但Claude与Codex的组合可能更具竞争力 [31][32][33] - 同期多家公司发布新模型,包括Gemini 3和Grok 4.1 Fast,显示出行业快速迭代的趋势 [34] 其他产品发布 - OpenAI同时低调发布GPT-5.1 Pro版本,第三方测评显示其在指令遵循方面有更好表现 [36][37][38]