Claude 4 Sonnet

搜索文档
Grok4全网玩疯,成功通过小球编程测试,Epic创始人:这就是AGI
猿大侠· 2025-07-12 09:45
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 发布还不到一天,马斯克的Grok4就已经被网友们玩疯了。 比如有网友报告,Grok-4已经 成功通过了著名的六边形小球氛围编程测试 。 只见随着六边形的不断旋转,小球错落有致地从开口下落。 拿着显微镜捉虫的网友发现小球在返回中心位置时会穿墙,但作者表示这是故意为之。 | Plutus � @PlutusCosmos · 17小时 | | | | | --- | --- | --- | --- | | The balls penetrate the walls when the go back to the center. Is it intended? | | | | | O3 | U | ♡ 74 | 111 2.5万 | | Flavio Adamo � @flavioAd · 17小时 | | | | | yes | | | | | 01 | 17 | C 59 | 1 1 2.5万 | | SoyTeslike � @soyteslike · 16小时 | | | | | damn, already screenshotted but it wa ...
Grok4全网玩疯,成功通过小球编程测试,Epic创始人:这就是AGI
量子位· 2025-07-11 15:20
核心观点 - Grok4发布后迅速引发广泛测试和讨论,展示出强大的多领域能力,包括物理规律理解、法律推理、代码翻译、数学可视化等 [1][6][10][23][30] - 在多项对比测试中,Grok4表现优于OpenAI的o3模型,尤其在复杂任务处理方面优势明显 [13][16][21] - 用户开发出高阶应用方法如"专家调度器",验证了Grok4在模拟专业协作环境方面的潜力 [52][54][62] 技术能力测试 - **物理规律理解**:通过六边形小球测试验证对物理运动的理解,虽然存在穿墙现象但被证实为设计意图 [2][4][11][12] - **法律推理**:用表格清晰展示公司收购中的债务违约连锁反应,结构化和逻辑性优于对比模型 [14][15][16] - **代码翻译**:成功将Python递归函数转换为Go语言并添加西班牙语注释,完成度高于对比模型 [18][19] - **知识可视化**:四轮对话内生成欧拉恒等式交互式网页,帮助用户直观理解复杂数学概念 [23][24][25][29] 多模态能力 - **SVG绘图**:在美国地图绘制中避免区块重叠错误,在专辑封面设计任务中保持基本正确 [30][38] - **生化知识**:三羧酸循环绘制测试中虽不完美但展示出基础生物化学理解能力 [42][44] - **创意表达**:在模型自画像任务中与其他主流模型相比无明显劣势 [48][51] 高阶应用场景 - **专家协作模拟**:通过精心设计的提示工程,Grok4能在52秒内完成跨领域专家协作的问题解决 [52][54][62] - **动态交互**:成功生成小人动画组成"Hello World"等文字,展示动态模式识别和生成能力 [6] - **专业见解**:对未见过的论文问题提供深刻分析,获得行业领袖认可 [7][8][9] 用户创新应用 - **全面测试框架**:提示词工程师设计8项测试覆盖多领域能力,Grok4全部通过而对比模型仅通过2项 [10][21] - **快速原型开发**:两轮对话即可完成数学可视化工具的核心功能开发 [29] - **社区期待**:用户提出更多潜在测试场景如宝可梦挑战,显示产品持续创新空间 [64]
马斯克发布“全球最强AI模型”Grok 4,称这是人工智能第一次能够解决真实世界中难以解决的复杂工程问题
搜狐财经· 2025-07-10 19:42
Grok 4技术规格 - Grok 4为推理模型,支持文本和图像输入,具备函数调用和结构化输出能力 [2] - 上下文窗口为256K token,低于Gemini 2 5 Pro的1M token但领先Claude 4 Sonnet/Opus的200K token和R1 0528的128K token [2] - 定价为每百万输入/输出token 3/15美元,缓存输入token每百万0 75美元,与Claude 4 Sonnet持平但高于Gemini 2 5 Pro和o3 [2] - 输出速度75 token/s,介于o3的188 token/s和Claude 4 Opus的66 token/s之间 [3] Grok 4性能表现 - 在Humanity's Last Exam、MMLU-Pro、AIME 2024等基准测试中均位列第一,超越OpenAI的o3和Google的Gemini 2 5 pro [3] - 马斯克称其为首个能解决真实世界复杂工程问题的AI,这些问题答案无法通过互联网或书籍获取 [4] - 编程能力突出,可分析完整源代码文件并进行修复,用户体验优于Cursor [4] 产品路线图 - xAI计划8月推出AI编程模型,9月发布多模态智能体,10月推出视频生成模型 [5]
1.93bit版DeepSeek-R1编程超过Claude 4 Sonnet,不用GPU也能运行
量子位· 2025-06-10 12:05
DeepSeek-R1性能表现 - 最新优化版R1-0528在编程榜单aider上取得60分 超过Claude 4 Sonnet的56.4分以及1月满血版R1 [1] - R1-0528满血版在aider得分71.4分 超过不开启思考的Claude 4 Opus [5] - aider榜单侧重现实软件工程任务评估 非单纯解题能力 [2] 量化技术突破 - 1.93bit量化版文件大小比8bit原始版降低70%以上 [3][9] - 最小1.66bit版本文件仅162GB 比8bit版缩减80% [9] - Unsloth工作室推出9种量化版本 涵盖1.66bit至5.5bit [7][8] - 推荐2.4bit和2.7bit版本 实现精度与体积最佳平衡 [14] 硬件适配性 - 1.78bit版本搭配64GB内存可实现每秒1token生成 [10] - 24GB显存显卡(如3090)配128GB内存可达每秒5token [11] - 建议180GB以上统一内存或显存+RAM组合以突破5token/秒 [12] Unsloth工作室技术能力 - 微调模型覆盖DeepSeek、Qwen、Phi、Mistral、Llama等主流模型 [16] - 优化后模型内存占用减少50%-80% 速度提升50%-2.2倍 [17] - GitHub仓库获4万星标 推出蒸馏版Qwen3-8B性能对标235B大模型 [16][19] 游戏场景表现 - R1-0528在Lmgame Bench六款游戏中表现突出 俄罗斯方块成绩超越o4-mini [22][25] - 糖果传奇得分548分 领先o4-mini约20分 [32] - 推箱子、2048等游戏表现较1月版本有显著提升 [28]
DeepSeek-R1 再进化,这次的更新好强啊...
36氪· 2025-06-04 11:32
模型升级 - DeepSeek-R1-0528 是 DeepSeek R1 的升级版本,沿用了 DeepSeek V3 Base 模型架构,但通过增加算力提升了性能 [3][4] - 新版模型在复杂推理、前端开发和降低幻觉等方面有显著改进 [3] - 模型命名延续了 DeepSeek 的低调风格,仅添加日期后缀 [3] 性能提升 - 在 AIME 2025 测试中,新版模型的 tokens 使用量从 12K 增加到 23K,准确率从 70% 提升至 87.5% [4] - 在 AIME 2024 数学竞赛 pass@1 测试中得分为 91.4,接近 OpenAI-03 的 91.6 [5] - 在 GPQA Diamond 科学测试 pass@1 中得分为 81.0,略低于 OpenAI-03 的 83.3 [5] - 在 LiveCodeBench 代码生成 pass@1 中得分为 73.3,接近 04-Mini (High) 的 79.5 [11] 编程与推理能力 - 新版模型在代码生成任务中一次性输出 728 行代码,优于 Claude 4 Sonnet 的 542 行 [11] - 在数学推理测试中,是唯一能稳定回答"9.9 - 9.11 等于多少"的模型 [13] - 在编程挑战中能生成干净代码和工作测试文件,且首次运行即完美无误 [14] 语言与创意能力 - 作为本土 AI,新版模型在中文语境下的表现优于国外模型 [16][17] - 幻觉率降低 45%~50%,输出内容更可靠 [18] - 在创意写作中能一气呵成生成逻辑顺畅的论文、小说和散文 [19] 行业影响 - 新版模型在国内 AI 领域处于领先地位,并接近国际顶尖模型如 o3 和 Gemini 2.5 Pro [15] - 部分用户认为更新"雷声大雨点小",但更多人期待其成为"国产之光" [22][23] - 模型在细节处理上优于 Claude 4 Sonnet,如光影反射和物理模拟 [13]
整理:每日科技要闻速递(5月23日)
快讯· 2025-05-23 08:02
新能源汽车 - 比亚迪4月欧洲纯电车销量首次超过特斯拉 [1] - 长安汽车未来3年将推出35款数智新汽车 2026年实现固态电池装车验证 [1] - 小米汽车2025年累计交付目标258000台 4月交付超28000台 [1] - 小米发布首款SUV小米YU7 零百加速3.23s 最高时速253km/h [1] - 美国参议院投票通过终止加州禁售燃油车的法案 [1] 集成电路(芯片) - 台积电等厂商提议美商务部豁免半导体相关关税 [1] - 小米玄戒O1旗舰处理器采用16核GPU 实验室跑分突破300万 [1] - 英特尔全新Xeon6系列处理器上市 其中一款用作英伟达DGX B300主机CPU [1] 人工智能 - 高合汽车获1亿美元投资 黎巴嫩商人成为新老板 [1] - Anthropic发布Claude4 Opus和Claude4 Sonnet人工智能模型 [1] - G42、OpenAI等多家公司合作建设阿联酋"星际之门"数据中心 [1] 机器人 - 众擎机器人格斗赛将于12月在深圳举办 [1] - 彩虹-YH1000无人物流机成功首飞 [1] 其他科技 - 全固态电池新标准出台 解决行业界定模糊等问题 [1] - 小米未来5年研发投入翻倍至2000亿 芯片对标苹果 [1] - 苹果、特斯拉和英伟达股票将作为代币在Kraken交易 [1] - 美国联邦航空管理局批准SpaceX星舰复飞 [1] - 苹果拟2026年推出智能眼镜 暂停销售带摄像头手表 [1] - 联想集团2024/2025财年全年营收690.8亿美元 [1] - 美国FTC撤销微软690亿美元收购动视暴雪诉讼 [1]
人工智能公司Anthropic发布Claude 4 Opus和Claude 4 Sonnet人工智能模型。
快讯· 2025-05-23 00:40
人工智能模型发布 - Anthropic公司发布Claude 4 Opus和Claude 4 Sonnet两款人工智能模型 [1]