Large Language Model

搜索文档
真够卷的!DeepSeek更完智谱更:GLM-4.6,代码国内最强
量子位· 2025-09-30 16:26
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 好好好,都赶着国庆节之前开卷是吧。 前脚DeepSeek更新到了V3.2,现在 智谱 又更新了—— 正式推出 GLM-4.6 ,代码能力直接推到了 国内最强 。 根据智谱的测试结果,他们在Claude Code环境下进行了74个真实场景编程任务测试:GLM-4.6实测超过Claude Sonnet 4,超越其他国 产模型。 类似的结果还出现在了其它测评中。 例如在通用能力评测上,GLM-4.6在AIME 25、GPQA、LCB v6、HLE、SWE-Bench Verified、BrowseComp、Terminal-Bench、τ^2- Bench、GPQA,这八大榜单中大部分都已经对齐了Claude Sonnet 4,国内第一。 分数高还只是一方面,智谱的GLM-4.6甚至还把 "平均token消耗" 给打了下来——比GLM-4.5节省30%以上,为同类模型最低。 而且智谱这次还大大方方地把全部测试题目与Agent轨迹亮了出来,方便大家复现验证: https://huggingface.co/datasets/zai-org/CC-Bench-traj ...
Prediction: Wall Street's Most Valuable Public Company by 2030 Will Be This Dual-Industry Leader (No, Not Nvidia)
The Motley Fool· 2025-09-28 15:06
A historically inexpensive trillion-dollar business has the necessary catalysts to leapfrog the likes of Nvidia, Apple, and Microsoft by the turn of the decade.For much of the last 16 years, the stock market has been unstoppable. With the exception of the five-week COVID-19 crash in February-March 2020, and the roughly nine-month bear market in 2022, the bulls have been in firm control on Wall Street.The catalyst for this ongoing outperformance primarily rests with Wall Street's trillion-dollar businesses. ...
视远·正心明智——机器之心2025年度AI榜单正式启动
机器之心· 2025-09-26 11:31
人工智能技术发展 - 大模型快速迭代 几乎每天都有新的突破性模型和训练方法登场[3] - GPT-4.5到GPT-5、Genie 3等模型在理解、生成、推理能力上不断突破[4] - 模型能力进步催生新应用形态 包括代码生成领域自动完成复杂程序编写和智能体领域自主完成多步骤任务[4] 中国人工智能进展 - 国产大模型性能逐步逼近甚至领先国际水平[4] - 开源生态展现强劲势头 Design Arena排行榜前15名开源AI模型全部来自中国[4] - 中国人工智能发展在2025年表现更加精彩[4] 年度评选榜单体系 - 最强技术实力企业TOP10评选标准包括长期技术研发布局、领先技术储备和人工智能技术在核心业务中的关键作用[7] - 人工智能领军企业TOP20要求企业在技术研发、落地应用和商业模式等方面构建完整运营能力[8] - 最佳大模型TOP20评选国内有代表性且实力强大的基础大模型[9] - 最佳大模型产品TOP20聚焦国内最有价值的大模型产品与应用[10] - 具身智能领军企业TOP10评选具备系统性技术布局与持续创新能力的企业[12] - ScienceAI领军企业TOP10关注人工智能与其他学科的交叉领域应用[13]
阿里巴巴(09988)正式推出其迄今为止规模最大、能力最强的模型 Qwen3-Max
智通财经网· 2025-09-24 11:07
模型性能与排名 - Qwen3-Max-Instruct预览版在LMArena文本排行榜上位列第三 超越了GPT-5-Chat [1] - 正式版本在代码能力和智能体能力方面进一步提升 在涵盖知识、推理、编程、指令遵循、人类偏好对齐、智能体任务和多语言理解的全面基准测试中均达到业界领先水平 [1] - Qwen3-Max-Thinking推理增强版本在AIME 25、HMMT等高难度推理基准测试中取得100%准确率 [1] 模型规模与技术参数 - Qwen3-Max模型总参数超过1T(万亿)[1] - 预训练使用了36T(万亿)tokens [1] - 模型结构沿用了Qwen3系列的模型结构设计范式 使用了global-batch load balancing loss技术 [1] 技术特性与创新 - Qwen3-Max-Thinking版本集成代码解释器并运用并行测试时计算技术 [1] - 该模型是阿里云通义千问迄今为止规模最大、能力最强的模型 [1] - 模型作为Qwen3-2507系列的后续升级版本推出 [1]
Trump Brings in Oracle to Manage the TikTok Algorithm in US
Youtube· 2025-09-23 01:03
The White House is definitely keen to get a deal done. And uh as you said, there are multiple parties involved. Oracle is the publicly traded entity that's uh front and center in terms of being the lead company that will be owning Tik Tok along with these other private investors.And look, at the end of the day, it's clear the algorithm would be rewritten or they would be licensing it. that is that was a sticking point all along. So, uh Oracle already has the data for Tik Tok in their data centers.So, that p ...
Ark's Cathie Wood on H-1B Visas, China Tech Sector, TikTok Takeover
Youtube· 2025-09-22 16:54
We want to get into your tech investments. We want to get into your views. But we got to put this question to you around H-1B visas and this new application fee.What do you make of it. What's the impact. Well, again, this is part of President Trump's negotiating process, and I think he's negotiating quite intensively right now with India.I think India would be have the biggest impact here in terms of, you know, workers in the United States. So I think this is a little bit like tariffs and it's going to capt ...
GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍
量子位· 2025-09-22 16:08
文章核心观点 - Scale AI发布的新软件工程基准测试SWE-BENCH PRO显著提升了难度 导致主流大语言模型的解决率普遍低于25% 远低于旧基准SWE-Bench-Verified约70%的水平[1][5][23] - 尽管整体表现不佳 但GPT-5在已提交的任务中准确率达到63% 显著优于Claude Opus 4.1的31% 显示其在优势领域的稳定性[3][4] - 新基准通过采用全新商业代码库、排除琐碎修改任务、增加多文件复杂场景以及严格防数据污染设计 更真实地反映工业级软件工程挑战[9][12][13] 基准测试设计特点 - 测试集包含1865个问题 分为公共集(731题)、商业集(276题)和保留集(858题) 覆盖消费者应用、B2B服务和开发者工具等多元化代码库[12][18] - 严格排除1-10行代码的简单修改 专注于需要大量多文件修改的复杂任务 更符合实际开发场景[13][8] - 采用人工增强的问题陈述 包含详细的需求说明和接口信息 确保模型获得充分上下文[16][19] - 测试环境容器化运行 每个任务在特定语言环境中评估 失败测试经人工筛选 偶尔失败的测试运行三次确保结果稳定性[20][21][22] 模型性能表现 - 在公共集上GPT-5以23.3%解决率领先 Claude Opus 4.1以22.7%紧随其后 Claude Sonnet 4达到16.3% Gemini 2.5 Pro Preview为13.5%[25][26] - 商业集表现更差 最优模型Claude Opus 4.1仅17.8% GPT-5为14.9% 显示模型在真实商业场景能力有限[26][27] - 老模型表现不佳 DeepSeek Qwen-3 32B和GPT-4o解决率分别只有3.4%和3.9%[24] - 编程语言差异显著 Go和Python表现较好(部分模型超30%) JavaScript和TypeScript波动大(0%-30%) 不同代码库解决率差异明显(低于10%至超50%)[30] 模型失败模式分析 - Claude Opus 4.1主要失败在语义理解(错误解答48.5%)和语法错误(32.7%) 显示技术执行强但算法理解存在挑战[31][34] - GPT-5未回答率高达63.1% 但提交答案的准确率较高 工具使用有效性存在差异[32][31] - Claude Sonnet 4主要问题为上下文溢出(61.6%)和无休止文件读取(29.5%) 显示上下文管理能力不足[31][34] - Gemini 2.5失败模式较均衡 含工具错误(38.8%)、语法错误(30.5%)和错误解答(18%)[34] - Qwen-3 32B工具错误率高达42% 凸显集成化工具使用的重要性[34]
ScienceQA最新榜单出炉!多家公司新模型分数均提升|xbench 月报
红杉汇· 2025-09-22 08:27
备注: • 汇率取 1 USD=7.1491CNY xbench最新一期Leaderboard出炉啦! 新一期双轨评估体系 (Dual Track) AGI进程 (AGI Tracking) 系列的科学问题解答测评集 (xbench- ScienceQA) 榜单,有6家模型发布的版本更新进入前10,包括GPT-5-high、Qwen3-235B-A22B-Thinking- 2507、Kimi K2 0905、GLM-4.5、Hunyuan-T1-20250711以及Claude Opus 4.1-Extended Thinking,各公司的新 模型分数均有3-5分小幅提升。 双轨评估体系 (Dual Track) AGI进程 (AGI Tracking) 系列的中文互联网深度搜索测评集 (xbench- DeepSearch) 正在进行新一期题库升级,将于近期公布基于全新题库的Leaderboard,并对新测评集题库进行 开源。 xbench采用长青评估机制,持续汇报最新模型的能力表现,更多榜单未来将陆续更新,期待你的关注。 你 可 以 在 xbench.org 上 追 踪 我 们 的 工 作 和 查 看 ...
DeepSeek-R1登上Nature封面:朝着AI透明化迈出的可喜一步
36氪· 2025-09-18 10:02
研究突破 - DeepSeek-R1 论文以封面文章形式发表于权威科学期刊 Nature 证明其研究价值获得学术界高度认可[1] - 研究团队提出无限制强化学习 RL 训练可激发大语言模型 LLM 新推理能力涌现 减少对人类标注数据的依赖[3] - 实验证明纯 RL 训练在数学 编程竞赛和 STEM 研究生水平问题等任务上表现优于传统方法训练的 LLM[3] 技术方法 - 提出群体相对策略优化 GRPO 算法 基于基础模型 DeepSeek-V3 Base 训练 DeepSeek-R1 系列模型[10] - 采用多阶段训练 pipeline 包括拒绝采样 RL 和监督微调 SFT 逐步提升模型能力[12] - RL 训练使模型自然学会输出推理过程 通过评分系统验证答案正确性进行自我改进[9] 模型表现 - DeepSeek-R1 在 GitHub 上获得 91100 个 star 显示全球开发者广泛认可[4] - 在 MMLU MMLU-Pro C-Eval GPQA Diamond 等 21 个主流基准测试中几乎全部取得更好成绩[15] - 模型展现出高级推理模式如自我反思 验证和动态策略适应 并能指导增强小型模型[16] 行业影响 - Nature 社论肯定 DeepSeek-R1 是首个经同行评审后发表的主流 LLM 推动行业透明化[5] - 同行评审机制可澄清 LLM 工作原理 评估模型真实性 避免基准测试被操控[6][17] - 开源模型使更广泛社区能理解修复缺陷 但需加强安全性测试应对潜在风险[18] - Nature 呼吁更多 AI 公司提交模型评审 用证据支持言论 验证相关主张[18]
DeepSeek-R1开创历史,梁文锋论文登上《自然》封面
第一财经· 2025-09-18 07:09
与今年1月发布的DeepSeek-R1的初版论文相比,本次论文披露了更多模型训练的细节,并正面回应了 模型发布之初的蒸馏质疑。 DeepSeek-R1也是全球首个经过同行评审的主流大语言模型。Nature评价道:目前几乎所有主流的大模 型都还没有经过独立同行评审,这一空白"终于被DeepSeek打破"。 本次论文正面回应了模型发布之初的蒸馏质疑。 由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文,登上了国际权威期 刊《自然(Nature)》的封面。 ...