推理

搜索文档
阿里Qwen3大模型登顶开源冠军,中国AI应用即将迎来大爆发?
搜狐财经· 2025-05-02 02:34
文章核心观点 4月29日阿里巴巴发布新一代通义千问模型Qwen3,其效率高、成本低,性能卓越,开源后引发行业震动,适配众多厂商,在多方面表现出色,有望推动AI大模型在终端应用落地 [3] 千问3模型亮点 - 模型大小仅为相近性能模型的三分之一,性能超越R1和OpenAI - o1等全球顶尖模型,登顶全球最强开源模型 [3] - 国内首个“混合推理模型”,整合“快思考”与“慢思考”,简单问题低算力“秒回”,复杂问题多步骤思考节省算力 [3] - 在推理能力、指令遵循、工具调用及多语言能力等方面显著提升,创造国产及全球开源模型新性能高峰 [20] - 拥有独特混合推理、推理能力增强、人类偏好对齐卓越、智能体能力突出、多语言能力强大五大关键特性 [20] 千问3性能表现 - 在AIME25测评获81.5分刷新开源纪录,LiveCodeBench评测突破70分超Grok3,ArenaHard测评95.6分超越OpenAI - o1及DeepSeek - R1 [20] - 在多项评测中表现优异,如ArenaHard、AIME'24、AIME'25、LiveCodeBench v5等评测中成绩突出 [27] 混合推理模式 - 将顶尖推理和非推理模型集成,简单问题瞬间作答、算力消耗少,复杂问题开启思考模式 [21] - 技术门槛高,需多轮强化学习训练,热门模型中仅千问3、Claude3.7、Gemini 2.5 Flash可做到 [21] - 可通过API设置“思考预算”,在性能和成本间取得平衡 [22] 开源优势 - 显著降低部署成本,仅4张H20显卡即可部署旗舰版 [24] - 共开源8款模型,含2款MoE模型和6款稠密模型,各模型针对不同场景优化 [24] - 小尺寸模型对智能设备和场景部署友好,企业可免费下载和商用,加速AI大模型终端应用落地 [25] 行业适配情况 - 华为昇腾支持千问3全系列模型部署,开发者可实现0Day适配,此前也同步支持千问系列模型 [28][31] - NVIDIA、联发科、AMD等头部芯片厂商成功适配,联想“百应”接入千问3提升关键能力 [32] 智能体支持 - 在BFCL评测创下70.8新高,超越顶尖模型,降低Agent调用工具门槛 [33] - 原生支持MCP协议,结合Qwen - Agent框架降低编码复杂性,实现高效手机及电脑Agent操作 [33] 语言支持与开源成果 - 支持119种语言和方言,包括主要联合国语言、各国官方语言及多种地方性语言 [20][38] - 从2023年至今开源200多款模型,覆盖“全模态”“全尺寸”参数,多次获权威榜单冠军 [38] - 通义千问Qwen衍生模型超10万,全球下载量超3亿,在HuggingFace社区下载量占比超30% [39] - 在斯坦福HAI研究所报告中,2024年阿里6个模型入选重要大模型,AI贡献位列全球第三 [39]
刚刚!DeepSeek-Prover-V2-671B 发布,网友:DS 是假期终结者
程序员的那些事· 2025-05-01 10:04
DeepSeek-Prover-V2-671B发布 - 公司于4月30日正式推出DeepSeek-Prover-V2-671B模型,标志着AI数学推理能力进入新阶段 [2][4] - 该模型基于6710亿参数混合专家(MoE)架构,专为Lean 4证明辅助框架优化 [4] 技术架构特性 - 采用动态参数激活机制,单次推理仅调用约370亿参数,平衡性能与计算效率 [4][6] - 上下文窗口约128k tokens,支持高阶数学证明中的复杂长逻辑链处理 [6][7] - 可能延续多头潜在注意力机制(MLA),显著降低KV缓存需求并提升吞吐量 [7] 核心突破价值 - 实现形式化数学的"GPT-4级"突破,处理复杂数学证明能力显著提升 [7] - MoE架构相比稠密模型大幅降低内存需求并提高运算速度 [7] - 开放商用许可,预计在Hugging Face开源权重,支持学术与工业应用 [7] 应用场景拓展 - 形式化验证:应用于密码学安全证明、芯片设计验证等自动化流程 [7] - 数学研究加速:辅助定理形式化、新猜想探索及奥赛级难题证明 [7] - 智能教育工具:构建可验证步骤的交互式数学教学系统 [7] - 关键系统安全:通过Lean集成验证核心代码逻辑的正确性 [7] 基础训练数据 - 基础预训练可能超过14.8万亿tokens(基于V3基础),提供广泛知识储备 [6]
不到15万元!清华90后团队发布“褐蚁”一体机,已支持阿里最新Qwen3模型|钛媒体AGI
钛媒体APP· 2025-04-30 23:09
行云集成电路创始人、CEO季宇 4月30日消息,钛媒体AGI获悉,清华90后创立的北京行云集成电路有限公司(简称"行云集成电路") 宣布,推出全新的一体机产品"褐蚁",仅需最高15万元就可以跑满血版DeepSeek R1/V3大模型,并且对 话速度达到了20token/s。 今天下午,行云集成电路创始人、CEO季宇对钛媒体AGI表示,目前"褐蚁"一体机已经支持阿里最新发 布的Qwen3系列开源大模型,包括顶配版Qwen3-235B-A22B。 具体来说,"褐蚁"一体机有三款不同的配置:最高性价比的"超大杯"褐蚁HY90,搭载双路AMD EPYC 9355服务器、24条 48G 6400M频率内存和NV 5090D计算卡,支持FP8、INT4两种数据精度,在FP8精度 下跑满血版DS能达到21token/s的对话速度,在INT4精度下则能达到28token/s,最高支持128K的上下 文,售价14.9万元;此外,行云集成电路还将推出"大杯"褐蚁HY70、"中杯"褐蚁HY50两个配置版本。 | 型号 | 福盛 HY90 | 褐蚁 HY70 | 褐蚁 HY50 | | --- | --- | --- | --- | ...
从论文中积累复现 R1 的 insight
理想TOP2· 2025-04-30 21:04
算法改进与优化 - GRPO算法存在响应级长度偏差和问题级难度偏差,导致生成错误响应 Dr. GRPO通过去除归一化项、采用蒙特卡罗回报估计优势等方法,有效避免优化偏差,提升令牌效率并维持推理性能 [3][4] - DAPO方法解决GRPO和PPO在大语言模型强化学习中的熵坍缩、样本效率低等问题 Clip-Higher技术提高低概率token概率提升空间,动态采样过滤无效样本,Token-Level Policy Gradient Loss优化长思维链场景训练 [6] 强化学习超参数设置 - 较大Train Batch Size(如TBS=1024)增强训练效率与稳定性 On-policy策略相比Off-policy更具优势,促进模型探索 Tollout Times增加(如n=64)提升训练效果,Rollout Temperature为1.2时性能更佳 KL惩罚系数采用动态退火策略(从KL=1×10⁻³到KL=0余弦衰减)平衡探索与稳定性 [6] 奖励机制设计 - 早期奖励规则不完善导致模型出现多种reward hacking行为 迭代完善规则设计后,要求模型按特定格式输出并构建规则式奖励系统,格式正确得1分错误得-1分,答案完全正确得2分部分错误得-1.5分 [6] - ruled-based reward相比reward model更不易受reward hacking影响 在业务没有明确答案时,建议结合ruled-based数据(如数学、编程任务)与reward model一起训练 [9] 推理能力发展特点 - 推理能力提升是渐进过程,没有明显的"顿悟时刻" 模型在训练前已具备复杂推理行为(如反思、验证),后续提升呈渐进趋势 [5][6] - 增加回答长度与推理性能提升相关但非因果关系 响应长度增加可能提供更多探索空间,但核心提升源于对有效推理步骤的优化 通常response越长准确性越低,因难题需要更长推理 [5][6] 强化学习泛化效应 - RL相比SFT更能促进泛化 在逻辑题上使用RL对数学题也有提升,表明推理可能是模型的通用能力 [7][9]
全球最强开源AI大模型诞生:中国研发,成本只有Deepseek的30%
新浪财经· 2025-04-30 19:28
大模型技术路线分化 - 全球AI大模型发展呈现两种技术路线:OpenAI代表的"大力出奇迹"路线依赖高强度GPU堆砌算力 [1][3] - Deepseek代表的"四两拨千斤"路线通过算法优化实现低算力高性能 仅需少量显卡即可超越同行性能 [3] - 开源模式成为行业趋势 因开源模型更易获得开发者采用 [1] 阿里千问3技术突破 - 千问3(Qwen3)成为全球首个混合推理模型 集成"快思考"与"慢思考"双模式 可根据任务复杂度动态调整 [5] - 在ArenaHard(95 6)、AIME'24(85 7)等8项基准测试中超越OpenAI-o1、Deepseek-R1等主流模型 [6] - 参数规模仅为Deepseek-R1的三分之一 显存占用减少三分之二 部署成本降低65%-75% [6][7] 硬件部署革新 - 仅需4张H20显卡即可部署全功能千问3 显存需求为同类产品的三分之一 [7] - 部署成本降至满血版Deepseek-R1的25%-35% 大幅降低商业化门槛 [7] - 混合推理架构使单张H20显卡可支持2000token/s的生成速度 [7] 国产GPU产业机遇 - Deepseek已验证国产GPU可替代英伟达高端芯片部署高性能模型 [9] - 千问3的低算力需求将进一步加速国产GPU替代进程 [9] - 行业算力泡沫被打破 中低端国产GPU迎来市场扩容机会 [9]
国产六大推理模型激战OpenAI?
创业邦· 2025-04-30 18:09
大模型行业发展趋势 - 2025年春节前DeepSeek-R1模型发布成为行业分水岭,重新定义中国大模型叙事逻辑 [8][10] - 2023年国内开启"百模大战",2024年"AI六小虎"成为主角,智谱累计融资40亿元,月之暗面融资超13亿美元 [10] - 2025年行业主题转变为"六大推理模型迎战OpenAI",百度、阿里、字节、腾讯、科大讯飞等厂商快速跟进发布推理模型 [10][19] 技术路线演变 - OpenAI模型体系分为GPT系列和o系列,2024年o1发布标志转向"结构化推理"能力 [12][15] - 大模型范式从预训练参数Scaling Law转向强化学习推理计算新Scaling Law [15] - GPT系列将逐步退出,GPT4将于2025年4月30日退役,完全被GPT4o取代 [15] 国内主要厂商动态 - DeepSeek-R1训练成本仅560万美元,远低于美国公司数千万美元投入,具有极致性价比 [23] - 百度文心X1采用"思维链-行动链"协同训练,可自动拆解复杂任务为20多个推理步骤 [23] - 科大讯飞星火X1基于全国产算力训练,在重点行业测试中超越OpenAI和DeepSeek [25] - 字节豆包模型价格降至0.0008元/千Tokens,主导行业价格战 [25] - 腾讯混元通过集团资源倾斜实现逆袭,2025年春节后获得重点推广 [25] 行业竞争格局 - 国内六大推理模型水平接近OpenAI o3,部分测试指标实现超越 [22] - 模型性能只是客户选择标准之一,还需考虑数据、生态等多方面因素 [25] - AI六小虎面临转型压力,方向与大厂重合但资源依赖大厂 [28] 国产化进程 - 英伟达可能暂停RTX 5090D供应,加剧行业"卡脖子"风险 [28] - 科大讯飞通过四大核心技术优化实现MoE模型集群推理性能翻倍 [28] - 全栈国产化大模型有望成为新主流,摆脱国际环境制约 [28][29]
数字中国峰会 |度小满CTO张文斌:Agent正在重塑客户体验与金融风险决策模式
中国经济网· 2025-04-29 20:04
文章核心观点 第八届数字中国建设峰会期间举办"数智赋能·金融创新"数字金融分论坛,度小满首席技术官张文斌分享大模型在金融领域的应用变化、优势及落地建议 [1][3] 峰会及分论坛信息 - 第八届数字中国建设峰会4月29 - 30日在福建福州举行 [1] - 由北京大学主办的"数智赋能·金融创新"数字金融分论坛探讨数字技术重构金融生态及数字金融人才培养模式 [1] - 国家数据局副局长夏冰等参加分论坛 [1] 大模型应用变化 - 以R1推理大模型发布为节点,大模型能力从生成式转向推理大模型,通用工具从智能助手升级为Agent [1] - 推理大模型在金融中的应用从"外围"领域深入到"核心"场景 [3] 大模型应用优势 客户体验方面 - AI Agent重构交互模式,全流程线上引导客户,实时解答疑问,避免人工干预导致的体验割裂 [3] - 以信贷借款为例,传统流程繁琐、等待长,借助AI技术全流程线上引导,保障体验一致性 [3][4] 风险管理方面 - 推理大模型能充分理解全维度原始数据,提升数据使用效能,可识别高风险行为 [4] 大模型落地建议 - 寻找"小切口"构建Agent,深入特定场景和客群,研发差异化Agent [4] - 先落地应用,利用场景化数据反向优化模型,形成"飞轮效应" [4] - 集中算力和人才,建立适应AGI时代的企业组织,成立专项团队加速落地,培育"AI觉醒人才"带动全员转型 [4]
华为昇腾全系列支持Qwen3
快讯· 2025-04-29 18:31
阿里通义千问模型Qwen3开源与华为昇腾支持 - 阿里通义千问模型Qwen3于4月29日开源数小时后即获得华为昇腾的全系列模型部署支持 [1] - 开发者可通过华为MindSpeed和MindIE工具实现千问3的0Day适配即开箱即用 [1] - 千问3是国内首个"混合推理模型"集成"快思考"与"慢思考"机制 [1] 千问3技术特性 - 模型对简单需求采用低算力"秒回"模式显著提升响应效率 [1] - 对复杂问题启用多步骤"深度思考"功能优化计算资源分配 [1] - 混合推理架构设计实现整体算力消耗的大幅节省 [1]
Qwen3深夜炸场,阿里一口气放出8款大模型,性能超越DeepSeek R1,登顶开源王座
36氪· 2025-04-29 17:53
模型发布与性能 - 公司一次性开源8款混合推理模型,包括2款MOE模型(Qwen3-235B-A22B和Qwen3-30B-A3B)和6款Dense模型(Qwen3-32B至Qwen3-0.6B) [2][4][6] - 旗舰模型Qwen3-235B-A22B拥有2350亿参数,激活参数220亿,在ArenaHard测试(95.6分)接近Gemini2.5-Pro(96.4分),超越OpenAI o1(92.1分)和DeepSeek R1(93.2分) [2][3] - Qwen3-30B-A3B仅激活30亿参数(总参数300亿),性能却优于QwQ-32B,小模型Qwen3-4B达到Qwen2.5-72B水平 [5][6] 技术创新 - 国内首个支持"思考模式"(深度推理)和"非思考模式"(快速响应)的混合推理模型,可通过指令切换 [8][10] - 预训练数据量达36万亿token(Qwen2.5的两倍),支持119种语言,采用三阶段训练策略(S1:30T token基础训练,S2:5T token专业强化,S3:32K上下文扩展) [17][18][12] - 后训练采用四阶段流程:长链推理冷启动→强化学习→模式融合→通用能力强化,实现深度推理与快速响应平衡 [21][22] 行业影响 - 成为全球最大开源模型族群(累计200+模型,衍生模型超10万),超越Meta Llama系列 [24] - 专家混合模型(MoE)显存效率高,20-30B规模即可实现接近GPT-4的推理能力 [24] - GitHub发布后迅速获17.9k星,用户实测显示其在编程、数学和多语言处理(119种)表现优异 [24][25][28][30] 部署与应用 - 提供0.6B-32B多种规模选择,支持从笔记本测试到多卡集群扩展 [24] - 推荐使用SGLang/vLLM框架部署,本地支持Ollama/LMStudio等工具 [16] - 已上线Hugging Face/ModelScope/Kaggle等平台,普通用户可通过网页/APP直接体验 [13][14][15]
终端云端三连发!无问芯穹开源大模型推理加速神器,加码构建新一代端、云推理系统
机器之心· 2025-04-29 17:14
机器之心发布 机器之心编辑部 当前 AI 领域呈现「端云并发」的发展态势,端侧与云侧大模型各展所长,共同推动着智能发展与应用落地的边界。端侧模型实现本地毫秒级实时响应,云 侧模型依托强大算力支持复杂大规模推理,而两者都离不开高效的推理系统支撑。 在 GTC 2025 上,NVIDIA CEO 黄仁勋强调,大模型计算正从预训练转向推理优化阶段。 随着产业落地加速,推理计算需求正呈现爆发式增长,如何在性 能、成本和响应速度间取得平衡成为关键工程挑战,推理系统正是解决这一问题的核心 。 近日,无问芯穹发起了一次推理系统开源节,连续开源了三个推理工作,包括加速端侧推理速度的 SpecEE、计算分离存储融合的 PD 半分离调度新机制 Semi-PD、低计算侵入同时通信正交的计算通信重叠新方法 FlashOverlap,为高效的推理系统设计提供多层次助力。下面让我们一起来对这三个工作展开 一一解读: Day 1|SpecEE:基于推测的 Early Exiting 机制,让 AI PC 推理速度起飞 随着 DeepSeek 等开源模型表现出越来越强悍的性能,在 PC 端本地部署大模型的需求持续增长。尽管许多情况下使用云端 ...