Workflow
Large Language Model
icon
搜索文档
阿里巴巴(09988)正式推出其迄今为止规模最大、能力最强的模型 Qwen3-Max
智通财经网· 2025-09-24 11:07
模型性能与排名 - Qwen3-Max-Instruct预览版在LMArena文本排行榜上位列第三 超越了GPT-5-Chat [1] - 正式版本在代码能力和智能体能力方面进一步提升 在涵盖知识、推理、编程、指令遵循、人类偏好对齐、智能体任务和多语言理解的全面基准测试中均达到业界领先水平 [1] - Qwen3-Max-Thinking推理增强版本在AIME 25、HMMT等高难度推理基准测试中取得100%准确率 [1] 模型规模与技术参数 - Qwen3-Max模型总参数超过1T(万亿)[1] - 预训练使用了36T(万亿)tokens [1] - 模型结构沿用了Qwen3系列的模型结构设计范式 使用了global-batch load balancing loss技术 [1] 技术特性与创新 - Qwen3-Max-Thinking版本集成代码解释器并运用并行测试时计算技术 [1] - 该模型是阿里云通义千问迄今为止规模最大、能力最强的模型 [1] - 模型作为Qwen3-2507系列的后续升级版本推出 [1]
Trump Brings in Oracle to Manage the TikTok Algorithm in US
Youtube· 2025-09-23 01:03
TikTok交易结构与关键方 - 甲骨文将作为公开上市实体牵头收购TikTok并与多家私人投资者共同拥有TikTok [1] - 交易涉及TikTok算法将被重写或由甲骨文授权使用算法此前一直是谈判的难点 [1] - 甲骨文已在其数据中心托管TikTok数据技术基础设施部分已准备就绪 [1] - 交易完成后TikTok将由美国实体和基于美国的私人投资者拥有甲骨文将在运营中扮演关键角色包括重新训练一套从字节跳动租赁的算法副本 [3] - 交易法律复杂性在于美国法律强制要求TikTok出售给美国所有者但禁止字节跳动参与运营中国法律则禁止算法等敏感技术出口 [10][11] 甲骨文公司治理与战略定位 - 甲骨文宣布首席执行官Safra Catz将由两位联合首席执行官接任此次领导层变更是向更年轻管理层过渡 [3][4][5] - 新任联合首席执行官之一目前负责甲骨文云基础设施该部门正是TikTok交易以及公司当前所有人工智能合作的技术支撑 [5] - 甲骨文处于非常强势的市场地位尤其通过其云基础设施业务抓住了人工智能领域的合作机遇 [4][5] 行业竞争格局与AI战略转向 - TikTok的不确定性使部分用户和内容创作者转向替代平台如YouTube、Instagram和Snapchat [6][7] - 行业竞争焦点已从推荐算法优劣转向基于自有数据训练大语言模型的能力例如OpenAI利用开放互联网数据Meta利用社交网络数据开发大模型 [7][8] - 规模较小的参与者如Snapchat尽管可能获得用户参与度增长但缺乏基于自身数据训练大语言模型的基础设施处于竞争劣势 [8][9] - 市场期望美国版TikTok能专注于利用其视频数据训练专属大语言模型但多方投资者参与可能导致战略更侧重于短期盈利和投资回报而非长期产品构建 [9][10][14]
Ark's Cathie Wood on H-1B Visas, China Tech Sector, TikTok Takeover
Youtube· 2025-09-22 16:54
H-1B签证政策对科技行业的影响 - H-1B签证新规及申请费是特朗普总统与印度谈判进程的一部分,预计短期内将对科技公司产生影响[1][4] - 该政策可能迫使科技公司提高效率,同时人工智能的兴起正大幅减少编码岗位需求,改变劳动力结构[4][5] - 长期来看,政策可能放宽,但当前谈判会占据舆论焦点,掩盖美国在政策方面的积极基本面活动[2][4] 人工智能对生产效率与竞争格局的影响 - 生成式AI和自然语言编程正在提升生产效率,科技公司已享受到巨大的生产率提升,从而维持了利润率[5][12] - 大型语言模型领域的竞争公司数量已经减少,目前主要竞争者包括OpenAI、Anthropic、xAI和Gemini[11][12] - AI公司获得企业愿意付费的明确信号,企业为替代博士级员工愿意每月支付2000美元或更多,这激励了持续投资[13] 中美科技竞争与市场估值 - 中国科技公司估值约为美国同类公司的一半,中国在开源软件领域发展迅速,部分源于美国公司因担心知识产权盗窃而停止对华销售[7] - 中国开始反思商品化是否过度,特别是在电动汽车领域,同时开发大型语言模型成本高昂,对非盈利公司构成挑战[8][9] - TikTok事件被视为特例,而非新常态,这可能是中美更广泛谈判的一部分,特朗普总统可能在对华关系上取得超出预期的进展[19][20][21] 加密货币与数字资产前景 - 尽管比特币当日出现抛售,但投资组合对数字资产领域的敞口仍在增加,比特币被视为该领域的领导者[24] - 区块链技术正推动三大革命:货币革命、金融服务革命以及前所未有的数字产权革命[25] 投资研究公司的差异化策略 - 研究能力是核心差异化优势,采用类似“共享经济”的模式免费提供研究成果,例如公开特斯拉模型[14][15] - 尽管主动管理基金普遍出现资金外流,但该公司资金流保持平稳,并且在进入英国和欧洲市场两年后,即将达到10亿美元规模,势头强劲[16][17]
GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍
量子位· 2025-09-22 16:08
文章核心观点 - Scale AI发布的新软件工程基准测试SWE-BENCH PRO显著提升了难度 导致主流大语言模型的解决率普遍低于25% 远低于旧基准SWE-Bench-Verified约70%的水平[1][5][23] - 尽管整体表现不佳 但GPT-5在已提交的任务中准确率达到63% 显著优于Claude Opus 4.1的31% 显示其在优势领域的稳定性[3][4] - 新基准通过采用全新商业代码库、排除琐碎修改任务、增加多文件复杂场景以及严格防数据污染设计 更真实地反映工业级软件工程挑战[9][12][13] 基准测试设计特点 - 测试集包含1865个问题 分为公共集(731题)、商业集(276题)和保留集(858题) 覆盖消费者应用、B2B服务和开发者工具等多元化代码库[12][18] - 严格排除1-10行代码的简单修改 专注于需要大量多文件修改的复杂任务 更符合实际开发场景[13][8] - 采用人工增强的问题陈述 包含详细的需求说明和接口信息 确保模型获得充分上下文[16][19] - 测试环境容器化运行 每个任务在特定语言环境中评估 失败测试经人工筛选 偶尔失败的测试运行三次确保结果稳定性[20][21][22] 模型性能表现 - 在公共集上GPT-5以23.3%解决率领先 Claude Opus 4.1以22.7%紧随其后 Claude Sonnet 4达到16.3% Gemini 2.5 Pro Preview为13.5%[25][26] - 商业集表现更差 最优模型Claude Opus 4.1仅17.8% GPT-5为14.9% 显示模型在真实商业场景能力有限[26][27] - 老模型表现不佳 DeepSeek Qwen-3 32B和GPT-4o解决率分别只有3.4%和3.9%[24] - 编程语言差异显著 Go和Python表现较好(部分模型超30%) JavaScript和TypeScript波动大(0%-30%) 不同代码库解决率差异明显(低于10%至超50%)[30] 模型失败模式分析 - Claude Opus 4.1主要失败在语义理解(错误解答48.5%)和语法错误(32.7%) 显示技术执行强但算法理解存在挑战[31][34] - GPT-5未回答率高达63.1% 但提交答案的准确率较高 工具使用有效性存在差异[32][31] - Claude Sonnet 4主要问题为上下文溢出(61.6%)和无休止文件读取(29.5%) 显示上下文管理能力不足[31][34] - Gemini 2.5失败模式较均衡 含工具错误(38.8%)、语法错误(30.5%)和错误解答(18%)[34] - Qwen-3 32B工具错误率高达42% 凸显集成化工具使用的重要性[34]
ScienceQA最新榜单出炉!多家公司新模型分数均提升|xbench 月报
红杉汇· 2025-09-22 08:27
xBench科学问题解答测评榜单更新 - 最新一期xBench双轨评估体系的科学问题解答测评集榜单显示,有6家公司的模型版本更新进入前10名,包括GPT-5-high、Qwen3-235B-A22B-Thinking-2507、Kimi K2 0905、GLM-4.5、Hunyuan-T1-20250711以及Claude Opus 4.1-Extended Thinking [1] - 各公司的新模型分数均有3-5分的小幅提升 [1] - 中文互联网深度搜索测评集正在进行题库升级,将于近期公布基于全新题库的榜单并对新题库进行开源 [1] 主要大语言模型性能对比 - 在ScienceQA测评集中,对来自16家公司的52个不同版本模型进行了测试 [8] - Grok-4以65.0的平均分和78.0的BoN分数位列第一,平均响应时间为227.24秒,API价格为输入3美元/百万tokens、输出15美元/百万tokens [3] - GPT-5-high以64.4的平均分和77.0的BoN分数排名第二,平均响应时间为149.91秒,API价格为输入1.25美元/百万tokens、输出10美元/百万tokens [3] - 前五名模型的BoN分数均在76-78分区间,前九名均在70分以上,显示模型能力上限的区分度在减小 [10] 重点公司模型更新与性能分析 - **OpenAI GPT-5**:平均分从o3-high的60.8提升至64.4,通过集成智能模式、深度推理与实时路由三大能力增强了稳定性和可靠性,在处理复杂问题时更高效且降低了错误率 [9][12] - **阿里巴巴Qwen3**:最新思考模型平均分从45.4大幅提升至55.0,BoN分数从66提升至77,在多语言长尾知识覆盖和长文本处理能力上取得明显进步 [9][35] - **Anthropic Claude Opus**:4.1版本平均分从46.6提升至53.2,BoN分数从69小幅提升至72 [9] - **Moonshot AI Kimi K2**:作为唯一上榜的非思考模型,平均分提升至51.6,BoN分数74,在模型能力和响应速度间取得平衡,并支持256K上下文长度和60-100 Token/s的输出速度 [9][28] - **智谱GLM-4.5**:采用混合专家架构,总参数3550亿,激活参数320亿,在TAU基准测试中得分70.1%,代理能力排名全球第二 [31] - **腾讯Hunyuan-T1**:近期更新模型平均分44.4,BoN分数63 [9] - **XAI Grok**:从Grok-3-mini到Grok-4实现20多分的大幅提升,达到65分,成为当前最先进的模型 [9] 行业技术发展趋势 - 除Grok外,其他厂商每次发布新模型分数提升幅度为3-5分,且分数越高提升幅度越小,表明模型在前沿科学领域可能已进入瓶颈期 [9] - 高质量数据成为模型能力提升最紧迫的瓶颈,远超竞品的计算资源投入并未在分数上实现明显领先 [9] - 模型表达风格出现分化,例如GPT-5有意降低“谄媚”倾向,语言更简洁事实导向,以换取可靠性和一致性 [14] 新兴模型与技术框架 - **Google Genie3**:首个支持实时交互的通用世界模型,可从文本或图片生成可交互AI空间,帧率达24fps,具备极强的3D世界一致性,有望成为下一代训练平台 [29][30] - **StepFun Step3**:具备多模态能力和开源属性,通过Step3 MFA架构降低KV Cache内存消耗最高达90%,实现注意力与前馈网络解耦以提升解码吞吐量 [32] - **腾讯HunyuanWorld 1.0**:融合2D与3D优势的世界生成框架,支持360°沉浸式体验和网格导出,可应用于虚拟现实、游戏开发和物理仿真等领域 [34] - **OpenAI GPT-oss系列**:包含120B和20B参数规模模型,采用Apache 2.0许可证允许商业应用,其中GPT-oss-120B性能接近o4-mini [27]
DeepSeek-R1登上Nature封面:朝着AI透明化迈出的可喜一步
36氪· 2025-09-18 10:02
研究突破 - DeepSeek-R1 论文以封面文章形式发表于权威科学期刊 Nature 证明其研究价值获得学术界高度认可[1] - 研究团队提出无限制强化学习 RL 训练可激发大语言模型 LLM 新推理能力涌现 减少对人类标注数据的依赖[3] - 实验证明纯 RL 训练在数学 编程竞赛和 STEM 研究生水平问题等任务上表现优于传统方法训练的 LLM[3] 技术方法 - 提出群体相对策略优化 GRPO 算法 基于基础模型 DeepSeek-V3 Base 训练 DeepSeek-R1 系列模型[10] - 采用多阶段训练 pipeline 包括拒绝采样 RL 和监督微调 SFT 逐步提升模型能力[12] - RL 训练使模型自然学会输出推理过程 通过评分系统验证答案正确性进行自我改进[9] 模型表现 - DeepSeek-R1 在 GitHub 上获得 91100 个 star 显示全球开发者广泛认可[4] - 在 MMLU MMLU-Pro C-Eval GPQA Diamond 等 21 个主流基准测试中几乎全部取得更好成绩[15] - 模型展现出高级推理模式如自我反思 验证和动态策略适应 并能指导增强小型模型[16] 行业影响 - Nature 社论肯定 DeepSeek-R1 是首个经同行评审后发表的主流 LLM 推动行业透明化[5] - 同行评审机制可澄清 LLM 工作原理 评估模型真实性 避免基准测试被操控[6][17] - 开源模型使更广泛社区能理解修复缺陷 但需加强安全性测试应对潜在风险[18] - Nature 呼吁更多 AI 公司提交模型评审 用证据支持言论 验证相关主张[18]
DeepSeek-R1开创历史,梁文锋论文登上《自然》封面
第一财经· 2025-09-18 07:09
公司里程碑 - DeepSeek-R1研究论文登上国际权威期刊《自然(Nature)》封面,通讯作者为梁文锋[1] - DeepSeek-R1成为全球首个经过独立同行评审的主流大语言模型[1] - 与今年1月发布的初版论文相比,本次论文披露了更多模型训练细节[1] 行业影响 - 目前几乎所有主流大模型都尚未经过独立同行评审,这一空白被DeepSeek打破[1] - 论文正面回应了模型发布之初关于蒸馏技术的质疑[1]
100轮工具调用,8B小模型也能做复杂长搜索!MiniMax&港科大最新开源
量子位· 2025-09-12 16:46
网络搜索智能体性能瓶颈与解决方案 - 当前开源网络智能体在处理复杂搜索任务时表现有限,而更强大的商业模型缺乏透明的训练细节 [10] - 性能瓶颈的核心并非模型参数不足,而是缺乏足够有挑战性的训练数据 [1] - 现有评测基准已发展至极其困难水平,例如BrowseComp-en基准测试中超过一半的问题人类标注者也无法在两小时内解决 [11] WebExplorer方法的核心创新 - 提出两阶段探索-演化框架WebExplorer,用于创建需要多步推理和复杂网络导航的高难度QA对 [13] - 第一阶段为模型驱动的探索,从种子实体开始,利用强大LLM通过迭代搜索和浏览操作模拟图构建过程 [15][16] - 第二阶段为迭代查询演化,通过移除显著信息、引入战略性模糊化和寻找替代描述三个策略提高查询难度 [18][19][26] WebExplorer-QA数据集构建与效果 - 通过探索-演化过程构建了包含约4万个演化后问答对的WebExplorer-QA数据集 [22] - 演化过程效果显著:强性能商业模型的准确率从86.6%大幅下降到67.1% [27] - 解决问题的平均工具调用次数从7.9次显著增加到9.9次,表明成功创建了需要广泛多步推理的复杂查询 [27] WebExplorer-8B模型性能表现 - 基于Qwen3-8B模型训练,支持128K上下文长度和100次工具调用轮次的长视野推理 [7][28] - 在强化学习训练后能够平均高效搜索16轮,在BrowseComp-en/zh上实现比WebSailor-72B更高的准确率 [30] - 在WebWalkerQA和FRAMES数据集上取得了小于100B参数模型中的最佳性能,在HLE学术前沿基准上取得17.3%的成绩 [30][33] 行业影响与意义 - 证明了数据质量比模型规模更重要,较小的模型通过高质量数据可以在复杂任务上超越更大模型 [5][29][33] - 这种参数效率对于AI技术在资源受限环境中的应用和部署具有重要意义 [34] - 为训练高级网络智能体提供了一条实用路径,方法已开源包括模型和数据集 [8][35]
阿里通义千问发布迄今最大模型——Qwen3-Max-Preview
新浪财经· 2025-09-06 00:40
模型发布 - 阿里巴巴旗下通义千问推出Qwen3-Max-Preview模型 参数量达到1T 为迄今为止最大模型 [1] - 模型在中英文理解 复杂指令遵循 工具调用等维度实现显著增强 [1] - 模型大幅减少知识幻觉问题 [1]
神州泰岳(300002.SZ)目前尚未私有化部署Grok 2.5
格隆汇· 2025-09-03 17:00
业务布局 - 公司多条业务线多款产品已通过在线API接口及私有化部署方式接入DeepSeek等通用大模型[1] - 当前技术接入方式包括在线API接口与开源模型私有化部署双路径[1] - 尚未对Grok 2.5进行私有化部署[1] 技术应用 - 大模型接入服务于客户各类应用场景[1] - 采用DeepSeek等通用大模型支撑产品智能化升级[1] - 私有化部署与API接口并行推进技术落地[1]