Large Language Model
搜索文档
视远·正心明智——机器之心2025年度AI榜单正式启动
机器之心· 2025-09-26 11:31
人工智能技术发展 - 大模型快速迭代 几乎每天都有新的突破性模型和训练方法登场[3] - GPT-4.5到GPT-5、Genie 3等模型在理解、生成、推理能力上不断突破[4] - 模型能力进步催生新应用形态 包括代码生成领域自动完成复杂程序编写和智能体领域自主完成多步骤任务[4] 中国人工智能进展 - 国产大模型性能逐步逼近甚至领先国际水平[4] - 开源生态展现强劲势头 Design Arena排行榜前15名开源AI模型全部来自中国[4] - 中国人工智能发展在2025年表现更加精彩[4] 年度评选榜单体系 - 最强技术实力企业TOP10评选标准包括长期技术研发布局、领先技术储备和人工智能技术在核心业务中的关键作用[7] - 人工智能领军企业TOP20要求企业在技术研发、落地应用和商业模式等方面构建完整运营能力[8] - 最佳大模型TOP20评选国内有代表性且实力强大的基础大模型[9] - 最佳大模型产品TOP20聚焦国内最有价值的大模型产品与应用[10] - 具身智能领军企业TOP10评选具备系统性技术布局与持续创新能力的企业[12] - ScienceAI领军企业TOP10关注人工智能与其他学科的交叉领域应用[13]
阿里巴巴(09988)正式推出其迄今为止规模最大、能力最强的模型 Qwen3-Max
智通财经网· 2025-09-24 11:07
模型性能与排名 - Qwen3-Max-Instruct预览版在LMArena文本排行榜上位列第三 超越了GPT-5-Chat [1] - 正式版本在代码能力和智能体能力方面进一步提升 在涵盖知识、推理、编程、指令遵循、人类偏好对齐、智能体任务和多语言理解的全面基准测试中均达到业界领先水平 [1] - Qwen3-Max-Thinking推理增强版本在AIME 25、HMMT等高难度推理基准测试中取得100%准确率 [1] 模型规模与技术参数 - Qwen3-Max模型总参数超过1T(万亿)[1] - 预训练使用了36T(万亿)tokens [1] - 模型结构沿用了Qwen3系列的模型结构设计范式 使用了global-batch load balancing loss技术 [1] 技术特性与创新 - Qwen3-Max-Thinking版本集成代码解释器并运用并行测试时计算技术 [1] - 该模型是阿里云通义千问迄今为止规模最大、能力最强的模型 [1] - 模型作为Qwen3-2507系列的后续升级版本推出 [1]
Trump Brings in Oracle to Manage the TikTok Algorithm in US
Youtube· 2025-09-23 01:03
The White House is definitely keen to get a deal done. And uh as you said, there are multiple parties involved. Oracle is the publicly traded entity that's uh front and center in terms of being the lead company that will be owning Tik Tok along with these other private investors.And look, at the end of the day, it's clear the algorithm would be rewritten or they would be licensing it. that is that was a sticking point all along. So, uh Oracle already has the data for Tik Tok in their data centers.So, that p ...
Ark's Cathie Wood on H-1B Visas, China Tech Sector, TikTok Takeover
Youtube· 2025-09-22 16:54
H-1B签证政策对科技行业的影响 - H-1B签证新规及申请费是特朗普总统与印度谈判进程的一部分,预计短期内将对科技公司产生影响[1][4] - 该政策可能迫使科技公司提高效率,同时人工智能的兴起正大幅减少编码岗位需求,改变劳动力结构[4][5] - 长期来看,政策可能放宽,但当前谈判会占据舆论焦点,掩盖美国在政策方面的积极基本面活动[2][4] 人工智能对生产效率与竞争格局的影响 - 生成式AI和自然语言编程正在提升生产效率,科技公司已享受到巨大的生产率提升,从而维持了利润率[5][12] - 大型语言模型领域的竞争公司数量已经减少,目前主要竞争者包括OpenAI、Anthropic、xAI和Gemini[11][12] - AI公司获得企业愿意付费的明确信号,企业为替代博士级员工愿意每月支付2000美元或更多,这激励了持续投资[13] 中美科技竞争与市场估值 - 中国科技公司估值约为美国同类公司的一半,中国在开源软件领域发展迅速,部分源于美国公司因担心知识产权盗窃而停止对华销售[7] - 中国开始反思商品化是否过度,特别是在电动汽车领域,同时开发大型语言模型成本高昂,对非盈利公司构成挑战[8][9] - TikTok事件被视为特例,而非新常态,这可能是中美更广泛谈判的一部分,特朗普总统可能在对华关系上取得超出预期的进展[19][20][21] 加密货币与数字资产前景 - 尽管比特币当日出现抛售,但投资组合对数字资产领域的敞口仍在增加,比特币被视为该领域的领导者[24] - 区块链技术正推动三大革命:货币革命、金融服务革命以及前所未有的数字产权革命[25] 投资研究公司的差异化策略 - 研究能力是核心差异化优势,采用类似“共享经济”的模式免费提供研究成果,例如公开特斯拉模型[14][15] - 尽管主动管理基金普遍出现资金外流,但该公司资金流保持平稳,并且在进入英国和欧洲市场两年后,即将达到10亿美元规模,势头强劲[16][17]
GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍
量子位· 2025-09-22 16:08
文章核心观点 - Scale AI发布的新软件工程基准测试SWE-BENCH PRO显著提升了难度 导致主流大语言模型的解决率普遍低于25% 远低于旧基准SWE-Bench-Verified约70%的水平[1][5][23] - 尽管整体表现不佳 但GPT-5在已提交的任务中准确率达到63% 显著优于Claude Opus 4.1的31% 显示其在优势领域的稳定性[3][4] - 新基准通过采用全新商业代码库、排除琐碎修改任务、增加多文件复杂场景以及严格防数据污染设计 更真实地反映工业级软件工程挑战[9][12][13] 基准测试设计特点 - 测试集包含1865个问题 分为公共集(731题)、商业集(276题)和保留集(858题) 覆盖消费者应用、B2B服务和开发者工具等多元化代码库[12][18] - 严格排除1-10行代码的简单修改 专注于需要大量多文件修改的复杂任务 更符合实际开发场景[13][8] - 采用人工增强的问题陈述 包含详细的需求说明和接口信息 确保模型获得充分上下文[16][19] - 测试环境容器化运行 每个任务在特定语言环境中评估 失败测试经人工筛选 偶尔失败的测试运行三次确保结果稳定性[20][21][22] 模型性能表现 - 在公共集上GPT-5以23.3%解决率领先 Claude Opus 4.1以22.7%紧随其后 Claude Sonnet 4达到16.3% Gemini 2.5 Pro Preview为13.5%[25][26] - 商业集表现更差 最优模型Claude Opus 4.1仅17.8% GPT-5为14.9% 显示模型在真实商业场景能力有限[26][27] - 老模型表现不佳 DeepSeek Qwen-3 32B和GPT-4o解决率分别只有3.4%和3.9%[24] - 编程语言差异显著 Go和Python表现较好(部分模型超30%) JavaScript和TypeScript波动大(0%-30%) 不同代码库解决率差异明显(低于10%至超50%)[30] 模型失败模式分析 - Claude Opus 4.1主要失败在语义理解(错误解答48.5%)和语法错误(32.7%) 显示技术执行强但算法理解存在挑战[31][34] - GPT-5未回答率高达63.1% 但提交答案的准确率较高 工具使用有效性存在差异[32][31] - Claude Sonnet 4主要问题为上下文溢出(61.6%)和无休止文件读取(29.5%) 显示上下文管理能力不足[31][34] - Gemini 2.5失败模式较均衡 含工具错误(38.8%)、语法错误(30.5%)和错误解答(18%)[34] - Qwen-3 32B工具错误率高达42% 凸显集成化工具使用的重要性[34]
ScienceQA最新榜单出炉!多家公司新模型分数均提升|xbench 月报
红杉汇· 2025-09-22 08:27
xBench科学问题解答测评榜单更新 - 最新一期xBench双轨评估体系的科学问题解答测评集榜单显示,有6家公司的模型版本更新进入前10名,包括GPT-5-high、Qwen3-235B-A22B-Thinking-2507、Kimi K2 0905、GLM-4.5、Hunyuan-T1-20250711以及Claude Opus 4.1-Extended Thinking [1] - 各公司的新模型分数均有3-5分的小幅提升 [1] - 中文互联网深度搜索测评集正在进行题库升级,将于近期公布基于全新题库的榜单并对新题库进行开源 [1] 主要大语言模型性能对比 - 在ScienceQA测评集中,对来自16家公司的52个不同版本模型进行了测试 [8] - Grok-4以65.0的平均分和78.0的BoN分数位列第一,平均响应时间为227.24秒,API价格为输入3美元/百万tokens、输出15美元/百万tokens [3] - GPT-5-high以64.4的平均分和77.0的BoN分数排名第二,平均响应时间为149.91秒,API价格为输入1.25美元/百万tokens、输出10美元/百万tokens [3] - 前五名模型的BoN分数均在76-78分区间,前九名均在70分以上,显示模型能力上限的区分度在减小 [10] 重点公司模型更新与性能分析 - **OpenAI GPT-5**:平均分从o3-high的60.8提升至64.4,通过集成智能模式、深度推理与实时路由三大能力增强了稳定性和可靠性,在处理复杂问题时更高效且降低了错误率 [9][12] - **阿里巴巴Qwen3**:最新思考模型平均分从45.4大幅提升至55.0,BoN分数从66提升至77,在多语言长尾知识覆盖和长文本处理能力上取得明显进步 [9][35] - **Anthropic Claude Opus**:4.1版本平均分从46.6提升至53.2,BoN分数从69小幅提升至72 [9] - **Moonshot AI Kimi K2**:作为唯一上榜的非思考模型,平均分提升至51.6,BoN分数74,在模型能力和响应速度间取得平衡,并支持256K上下文长度和60-100 Token/s的输出速度 [9][28] - **智谱GLM-4.5**:采用混合专家架构,总参数3550亿,激活参数320亿,在TAU基准测试中得分70.1%,代理能力排名全球第二 [31] - **腾讯Hunyuan-T1**:近期更新模型平均分44.4,BoN分数63 [9] - **XAI Grok**:从Grok-3-mini到Grok-4实现20多分的大幅提升,达到65分,成为当前最先进的模型 [9] 行业技术发展趋势 - 除Grok外,其他厂商每次发布新模型分数提升幅度为3-5分,且分数越高提升幅度越小,表明模型在前沿科学领域可能已进入瓶颈期 [9] - 高质量数据成为模型能力提升最紧迫的瓶颈,远超竞品的计算资源投入并未在分数上实现明显领先 [9] - 模型表达风格出现分化,例如GPT-5有意降低“谄媚”倾向,语言更简洁事实导向,以换取可靠性和一致性 [14] 新兴模型与技术框架 - **Google Genie3**:首个支持实时交互的通用世界模型,可从文本或图片生成可交互AI空间,帧率达24fps,具备极强的3D世界一致性,有望成为下一代训练平台 [29][30] - **StepFun Step3**:具备多模态能力和开源属性,通过Step3 MFA架构降低KV Cache内存消耗最高达90%,实现注意力与前馈网络解耦以提升解码吞吐量 [32] - **腾讯HunyuanWorld 1.0**:融合2D与3D优势的世界生成框架,支持360°沉浸式体验和网格导出,可应用于虚拟现实、游戏开发和物理仿真等领域 [34] - **OpenAI GPT-oss系列**:包含120B和20B参数规模模型,采用Apache 2.0许可证允许商业应用,其中GPT-oss-120B性能接近o4-mini [27]
DeepSeek-R1登上Nature封面:朝着AI透明化迈出的可喜一步
36氪· 2025-09-18 10:02
研究突破 - DeepSeek-R1 论文以封面文章形式发表于权威科学期刊 Nature 证明其研究价值获得学术界高度认可[1] - 研究团队提出无限制强化学习 RL 训练可激发大语言模型 LLM 新推理能力涌现 减少对人类标注数据的依赖[3] - 实验证明纯 RL 训练在数学 编程竞赛和 STEM 研究生水平问题等任务上表现优于传统方法训练的 LLM[3] 技术方法 - 提出群体相对策略优化 GRPO 算法 基于基础模型 DeepSeek-V3 Base 训练 DeepSeek-R1 系列模型[10] - 采用多阶段训练 pipeline 包括拒绝采样 RL 和监督微调 SFT 逐步提升模型能力[12] - RL 训练使模型自然学会输出推理过程 通过评分系统验证答案正确性进行自我改进[9] 模型表现 - DeepSeek-R1 在 GitHub 上获得 91100 个 star 显示全球开发者广泛认可[4] - 在 MMLU MMLU-Pro C-Eval GPQA Diamond 等 21 个主流基准测试中几乎全部取得更好成绩[15] - 模型展现出高级推理模式如自我反思 验证和动态策略适应 并能指导增强小型模型[16] 行业影响 - Nature 社论肯定 DeepSeek-R1 是首个经同行评审后发表的主流 LLM 推动行业透明化[5] - 同行评审机制可澄清 LLM 工作原理 评估模型真实性 避免基准测试被操控[6][17] - 开源模型使更广泛社区能理解修复缺陷 但需加强安全性测试应对潜在风险[18] - Nature 呼吁更多 AI 公司提交模型评审 用证据支持言论 验证相关主张[18]
DeepSeek-R1开创历史,梁文锋论文登上《自然》封面
第一财经· 2025-09-18 07:09
与今年1月发布的DeepSeek-R1的初版论文相比,本次论文披露了更多模型训练的细节,并正面回应了 模型发布之初的蒸馏质疑。 DeepSeek-R1也是全球首个经过同行评审的主流大语言模型。Nature评价道:目前几乎所有主流的大模 型都还没有经过独立同行评审,这一空白"终于被DeepSeek打破"。 本次论文正面回应了模型发布之初的蒸馏质疑。 由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文,登上了国际权威期 刊《自然(Nature)》的封面。 ...
100轮工具调用,8B小模型也能做复杂长搜索!MiniMax&港科大最新开源
量子位· 2025-09-12 16:46
网络搜索智能体性能瓶颈与解决方案 - 当前开源网络智能体在处理复杂搜索任务时表现有限,而更强大的商业模型缺乏透明的训练细节 [10] - 性能瓶颈的核心并非模型参数不足,而是缺乏足够有挑战性的训练数据 [1] - 现有评测基准已发展至极其困难水平,例如BrowseComp-en基准测试中超过一半的问题人类标注者也无法在两小时内解决 [11] WebExplorer方法的核心创新 - 提出两阶段探索-演化框架WebExplorer,用于创建需要多步推理和复杂网络导航的高难度QA对 [13] - 第一阶段为模型驱动的探索,从种子实体开始,利用强大LLM通过迭代搜索和浏览操作模拟图构建过程 [15][16] - 第二阶段为迭代查询演化,通过移除显著信息、引入战略性模糊化和寻找替代描述三个策略提高查询难度 [18][19][26] WebExplorer-QA数据集构建与效果 - 通过探索-演化过程构建了包含约4万个演化后问答对的WebExplorer-QA数据集 [22] - 演化过程效果显著:强性能商业模型的准确率从86.6%大幅下降到67.1% [27] - 解决问题的平均工具调用次数从7.9次显著增加到9.9次,表明成功创建了需要广泛多步推理的复杂查询 [27] WebExplorer-8B模型性能表现 - 基于Qwen3-8B模型训练,支持128K上下文长度和100次工具调用轮次的长视野推理 [7][28] - 在强化学习训练后能够平均高效搜索16轮,在BrowseComp-en/zh上实现比WebSailor-72B更高的准确率 [30] - 在WebWalkerQA和FRAMES数据集上取得了小于100B参数模型中的最佳性能,在HLE学术前沿基准上取得17.3%的成绩 [30][33] 行业影响与意义 - 证明了数据质量比模型规模更重要,较小的模型通过高质量数据可以在复杂任务上超越更大模型 [5][29][33] - 这种参数效率对于AI技术在资源受限环境中的应用和部署具有重要意义 [34] - 为训练高级网络智能体提供了一条实用路径,方法已开源包括模型和数据集 [8][35]
阿里通义千问发布迄今最大模型——Qwen3-Max-Preview
新浪财经· 2025-09-06 00:40
模型发布 - 阿里巴巴旗下通义千问推出Qwen3-Max-Preview模型 参数量达到1T 为迄今为止最大模型 [1] - 模型在中英文理解 复杂指令遵循 工具调用等维度实现显著增强 [1] - 模型大幅减少知识幻觉问题 [1]