Grok 3 Mini

搜索文档
马斯克新模型性价比拉满:1折价格实现Gemini 2.5性能,支持2M上下文
量子位· 2025-09-21 21:29
时令 发自 凹非寺 量子位 | 公众号 QbitAI 马斯克xAI又出手了! 这次闪亮登场的是 Grok 4 Fast —— 不仅实现1折价格追平Gemini 2.5,还支持 2M 上下文窗口。 帮我找一篇今年的X帖子,其中mkbhd分别拿着书本式折叠手机和翻盖式折叠手机。 Grok 4 Fast不仅详细描述了帖子内容,提供了准确链接,甚至还贴心地附上了相关的YouTube视频网址。 除此之外,这个全新的多模态推理模型还可与X实现无缝衔接。 例如,给它输入以下提示词: 下面具体来看。 以最低的成本实现最高的性能 可以说,Grok 4 Fast这一波在性价比这件事上树立了新标杆。 在推理基准测试中,它不仅 全面超越Grok 3 Mini ,还大幅降低了Token成本。 与Grok 4相比,Grok 4 Fast在保持与前者性能差不多的同时,平均使用的思考Token数量减少了40%。 根据Artificial Analysis的独立评测验证,在"人工分析智能指数"榜单中,Grok 4 Fast与其它公开可用模型相比,呈现出业界领先的"价格-智 能"比。 除此之外,Grok 4 Fast还在LMArena上进行了对 ...
AI版华尔街之狼,o3-mini靠「神之押注」狂赚9倍,DeepSeek R1最特立独行
36氪· 2025-08-18 14:58
核心观点 - 全新基准测试Prophet Arena通过预测真实世界事件评估AI的预言能力 该测试结合市场共识、自动化预测和信息整理 旨在衡量AI在不确定性推理、信息整合和概率预测方面的表现 [1][9][10] 基准测试设计 - Prophet Arena从Kalshi和Polymarket等预测市场平台选取热门周期性真实事件作为考题 包括政治、体育、经济等多个领域 [12][13] - 测试流程分为情报收集、提交预测和结果揭晓三个阶段 AI需利用搜索引擎整理情报简报并提交概率分布报告 [14][15][16] - 评估指标采用Brier分数(衡量准确度和校准度)和模拟投注平均回报 并引入项目反应理论和广义Bradley-Terry模型等高级统计方法 [18] AI模型表现对比 - 在2025年降息次数预测中 GPT-5预测精确2次降息概率43% Grok 3 Mini为40% Gemini 2.5 Flash预测恰好1次降息概率35% [4] - 关于经济衰退预测 o3 Mini认为不会衰退概率90% GPT-5为60% [4] - 在NBA冠军预测中 Gemini 2.5 Flash预测凯尔特人2027年前再次夺冠概率95% Llama 4任性版为85% [4] - OpenAI的o3-mini模型在平均回报指标上名列前茅 例如在美职足比赛中通过识别市场定价偏差实现单笔投注9倍回报 [40][42][43] 预测行为特征 - AI模型表现出明显风险偏好差异 例如在AI监管立法预测中 Qwen3给出75%概率而Llama 4 Maverick仅35% 远高于市场25%的共识 [35][36] - 高回报预测常出现在Brier分数0.3-0.5区间 主要来自体育比赛爆冷 例如温网比赛中AI通过识别84%市场胜率与80%实际评估的微小差异实现6倍回报 [22][23][25][27] - 模型间预测差异显著 DeepSeek R1与其他模型L2距离持续高于0.7 而Grok-4与GPT-5的L2距离通常低于0.3 显示算法校准机制差异 [46][47][48] 预测市场数据 - Polymarket平台显示 NVIDIA被72%预测为2025年底最大公司 Microsoft为20% [13] - Google在8月底最佳AI模型预测中获93%支持率 OpenAI仅3% [13] - 特斯拉2025年推出无人驾驶Robotaxi服务预测概率67% [13] - 美联储9月降息25bps概率74% 维持利率概率24% [13]
Microsoft CTO says the number of people using AI agents doubled in the last year
Business Insider· 2025-05-20 04:30
微软开发者大会聚焦Agentic AI - 微软在Build开发者大会上将Agentic AI作为核心主题 公司CTO Kevin Scott指出过去一年AI代理数量呈现爆发式增长 [1] - 微软监测范围内的各类AI代理日活跃用户数相比去年Build大会期间增长超过100% [1] - 科技行业高管普遍将2025年视为Agentic AI元年 微软在会上对该术语进行了明确定义 [2] Agentic AI技术特性与发展 - 微软定义的AI代理是"人类可委托任务的实体" 当前仍处于早期阶段 存在推理能力瓶颈但将持续改进 [3] - 预计未来12个月内AI代理将实现能力提升与成本下降的双重突破 [3] - OpenAI CEO Sam Altman强调Codex代理实现"真正的软件工程任务委托" 称这是编程领域前所未有的变革 [7] 微软产品线技术升级 - 推出Azure SRE代理整合至GitHub Copilot 旨在解决开发者夜间处理网站故障等痛点 [5] - GitHub Copilot升级为完整编码代理 可自主处理问题分配、缺陷修复、功能开发等任务 [6] - 发布Copilot Tuning功能 支持企业利用自身数据创建具有组织知识特征的AI代理 [10] 生态系统合作与模型扩展 - 宣布通过Azure集成xAI的Grok 3及Grok 3 Mini模型 埃隆·马斯克参与讨论技术应用 [9] - 演示Windows/Office/Azure等平台的新AI功能 致力于构建开放的规模化"代理网络" [4] - 与OpenAI、Nvidia等AI领军企业高管进行虚拟联动 展示行业协同效应 [6][9] 生产力提升案例 - OpenAI内部测试显示Codex使用者的工作流效率显著提升 产出量呈现数量级差异 [8] - 微软CEO以罕见病诊断加速和健康应用开发为例 说明AI代理创造的实际价值 [11]