Workflow
推理
icon
搜索文档
国产六大推理模型激战OpenAI?
创业邦· 2025-04-30 18:09
大模型行业发展趋势 - 2025年春节前DeepSeek-R1模型发布成为行业分水岭,重新定义中国大模型叙事逻辑 [8][10] - 2023年国内开启"百模大战",2024年"AI六小虎"成为主角,智谱累计融资40亿元,月之暗面融资超13亿美元 [10] - 2025年行业主题转变为"六大推理模型迎战OpenAI",百度、阿里、字节、腾讯、科大讯飞等厂商快速跟进发布推理模型 [10][19] 技术路线演变 - OpenAI模型体系分为GPT系列和o系列,2024年o1发布标志转向"结构化推理"能力 [12][15] - 大模型范式从预训练参数Scaling Law转向强化学习推理计算新Scaling Law [15] - GPT系列将逐步退出,GPT4将于2025年4月30日退役,完全被GPT4o取代 [15] 国内主要厂商动态 - DeepSeek-R1训练成本仅560万美元,远低于美国公司数千万美元投入,具有极致性价比 [23] - 百度文心X1采用"思维链-行动链"协同训练,可自动拆解复杂任务为20多个推理步骤 [23] - 科大讯飞星火X1基于全国产算力训练,在重点行业测试中超越OpenAI和DeepSeek [25] - 字节豆包模型价格降至0.0008元/千Tokens,主导行业价格战 [25] - 腾讯混元通过集团资源倾斜实现逆袭,2025年春节后获得重点推广 [25] 行业竞争格局 - 国内六大推理模型水平接近OpenAI o3,部分测试指标实现超越 [22] - 模型性能只是客户选择标准之一,还需考虑数据、生态等多方面因素 [25] - AI六小虎面临转型压力,方向与大厂重合但资源依赖大厂 [28] 国产化进程 - 英伟达可能暂停RTX 5090D供应,加剧行业"卡脖子"风险 [28] - 科大讯飞通过四大核心技术优化实现MoE模型集群推理性能翻倍 [28] - 全栈国产化大模型有望成为新主流,摆脱国际环境制约 [28][29]
数字中国峰会 |度小满CTO张文斌:Agent正在重塑客户体验与金融风险决策模式
中国经济网· 2025-04-29 20:04
文章核心观点 第八届数字中国建设峰会期间举办"数智赋能·金融创新"数字金融分论坛,度小满首席技术官张文斌分享大模型在金融领域的应用变化、优势及落地建议 [1][3] 峰会及分论坛信息 - 第八届数字中国建设峰会4月29 - 30日在福建福州举行 [1] - 由北京大学主办的"数智赋能·金融创新"数字金融分论坛探讨数字技术重构金融生态及数字金融人才培养模式 [1] - 国家数据局副局长夏冰等参加分论坛 [1] 大模型应用变化 - 以R1推理大模型发布为节点,大模型能力从生成式转向推理大模型,通用工具从智能助手升级为Agent [1] - 推理大模型在金融中的应用从"外围"领域深入到"核心"场景 [3] 大模型应用优势 客户体验方面 - AI Agent重构交互模式,全流程线上引导客户,实时解答疑问,避免人工干预导致的体验割裂 [3] - 以信贷借款为例,传统流程繁琐、等待长,借助AI技术全流程线上引导,保障体验一致性 [3][4] 风险管理方面 - 推理大模型能充分理解全维度原始数据,提升数据使用效能,可识别高风险行为 [4] 大模型落地建议 - 寻找"小切口"构建Agent,深入特定场景和客群,研发差异化Agent [4] - 先落地应用,利用场景化数据反向优化模型,形成"飞轮效应" [4] - 集中算力和人才,建立适应AGI时代的企业组织,成立专项团队加速落地,培育"AI觉醒人才"带动全员转型 [4]
华为昇腾全系列支持Qwen3
快讯· 2025-04-29 18:31
阿里通义千问模型Qwen3开源与华为昇腾支持 - 阿里通义千问模型Qwen3于4月29日开源数小时后即获得华为昇腾的全系列模型部署支持 [1] - 开发者可通过华为MindSpeed和MindIE工具实现千问3的0Day适配即开箱即用 [1] - 千问3是国内首个"混合推理模型"集成"快思考"与"慢思考"机制 [1] 千问3技术特性 - 模型对简单需求采用低算力"秒回"模式显著提升响应效率 [1] - 对复杂问题启用多步骤"深度思考"功能优化计算资源分配 [1] - 混合推理架构设计实现整体算力消耗的大幅节省 [1]
Qwen3深夜炸场,阿里一口气放出8款大模型,性能超越DeepSeek R1,登顶开源王座
36氪· 2025-04-29 17:53
模型发布与性能 - 公司一次性开源8款混合推理模型,包括2款MOE模型(Qwen3-235B-A22B和Qwen3-30B-A3B)和6款Dense模型(Qwen3-32B至Qwen3-0.6B) [2][4][6] - 旗舰模型Qwen3-235B-A22B拥有2350亿参数,激活参数220亿,在ArenaHard测试(95.6分)接近Gemini2.5-Pro(96.4分),超越OpenAI o1(92.1分)和DeepSeek R1(93.2分) [2][3] - Qwen3-30B-A3B仅激活30亿参数(总参数300亿),性能却优于QwQ-32B,小模型Qwen3-4B达到Qwen2.5-72B水平 [5][6] 技术创新 - 国内首个支持"思考模式"(深度推理)和"非思考模式"(快速响应)的混合推理模型,可通过指令切换 [8][10] - 预训练数据量达36万亿token(Qwen2.5的两倍),支持119种语言,采用三阶段训练策略(S1:30T token基础训练,S2:5T token专业强化,S3:32K上下文扩展) [17][18][12] - 后训练采用四阶段流程:长链推理冷启动→强化学习→模式融合→通用能力强化,实现深度推理与快速响应平衡 [21][22] 行业影响 - 成为全球最大开源模型族群(累计200+模型,衍生模型超10万),超越Meta Llama系列 [24] - 专家混合模型(MoE)显存效率高,20-30B规模即可实现接近GPT-4的推理能力 [24] - GitHub发布后迅速获17.9k星,用户实测显示其在编程、数学和多语言处理(119种)表现优异 [24][25][28][30] 部署与应用 - 提供0.6B-32B多种规模选择,支持从笔记本测试到多卡集群扩展 [24] - 推荐使用SGLang/vLLM框架部署,本地支持Ollama/LMStudio等工具 [16] - 已上线Hugging Face/ModelScope/Kaggle等平台,普通用户可通过网页/APP直接体验 [13][14][15]
终端云端三连发!无问芯穹开源大模型推理加速神器,加码构建新一代端、云推理系统
机器之心· 2025-04-29 17:14
机器之心发布 机器之心编辑部 当前 AI 领域呈现「端云并发」的发展态势,端侧与云侧大模型各展所长,共同推动着智能发展与应用落地的边界。端侧模型实现本地毫秒级实时响应,云 侧模型依托强大算力支持复杂大规模推理,而两者都离不开高效的推理系统支撑。 在 GTC 2025 上,NVIDIA CEO 黄仁勋强调,大模型计算正从预训练转向推理优化阶段。 随着产业落地加速,推理计算需求正呈现爆发式增长,如何在性 能、成本和响应速度间取得平衡成为关键工程挑战,推理系统正是解决这一问题的核心 。 近日,无问芯穹发起了一次推理系统开源节,连续开源了三个推理工作,包括加速端侧推理速度的 SpecEE、计算分离存储融合的 PD 半分离调度新机制 Semi-PD、低计算侵入同时通信正交的计算通信重叠新方法 FlashOverlap,为高效的推理系统设计提供多层次助力。下面让我们一起来对这三个工作展开 一一解读: Day 1|SpecEE:基于推测的 Early Exiting 机制,让 AI PC 推理速度起飞 随着 DeepSeek 等开源模型表现出越来越强悍的性能,在 PC 端本地部署大模型的需求持续增长。尽管许多情况下使用云端 ...
性能超越DeepSeek R1,Qwen3正式登场!阿里一口气放出8款大模型,登顶开源王座!
AI科技大本营· 2025-04-29 17:05
模型发布与性能 - 阿里Qwen团队发布全新Qwen3系列大模型,一次性开源8款混合推理模型,包括2个MOE模型和6个Dense模型 [1][3][4] - 旗舰模型Qwen3-235B-A22B拥有2350亿参数,激活参数220亿,在代码、数学和通用能力基准测试中超越DeepSeek R1和OpenAI o1,接近Google Gemini 2.5-Pro [4][5] - Qwen3-30B-A3B总参数300亿,激活参数仅30亿,性能优于QwQ-32B,小模型Qwen3-4B达到Qwen2.5-72B-Instruct水平 [6][7] 技术创新与架构 - Qwen3是国内首个支持"快思考"和"慢思考"混合推理的模型,可根据问题难度切换响应模式 [9][10] - 模型预训练数据量达36万亿token,覆盖119种语言,是Qwen2.5的两倍,采用三阶段训练流程提升专业能力和长文本处理 [16][17] - MOE架构仅激活10%参数即可实现接近Qwen2.5 Dense模型的性能,显著降低训练和推理成本 [19] 行业影响与用户反馈 - Qwen3系列开源模型数量突破10万,超越Meta Llama成为全球最大开源模型族群 [23] - 外媒评价Qwen3接入效率高,几小时可替代OpenAI接口,显存使用效率接近GPT-4 [23] - 用户实测显示Qwen3在编程、数学和多语言处理表现优异,GitHub热度达17.9k Star [25][26][27][31] 多语言与部署支持 - 支持119种语言和方言,覆盖全球主要语系,包括印欧语系、汉藏语系、亚非语系等 [11][13] - 模型已在Hugging Face、ModelScope、Kaggle等平台上线,支持网页端和移动端使用 [14][18] - 推荐使用SGLang、vLLM等推理框架进行部署,本地工具支持包括Ollama、LMStudio等 [15]
通义千问 Qwen3 发布,对话阿里周靖人
晚点LatePost· 2025-04-29 16:43
文章核心观点 - 阿里云CTO周靖人认为大模型发展已进入早期阶段中期,需在多模态、工具使用、Agent支持和持续学习等多方向布局[5][14] - 通义千问Qwen3作为全球首个开源混合推理模型,通过融合推理和非推理模式实现性能与成本平衡,代表技术新趋势[6][15] - 阿里开源战略成效显著:Qwen系列下载量达3亿次,衍生模型超10万个,超越Meta Llama成为全球最活跃开源模型[7][8][18] - 公司坚持技术规律导向的研发节奏,强调长期创新而非短期竞争,认为AGI发展需要云计算体系与大模型的深度协同[12][13][21] 技术突破 - Qwen3-235B-A22B以2350亿总参数在多项基准测试超越6710亿参数的DeepSeek-R1,小尺寸MoE模型Qwen3-30B-A3B激活参数仅30亿但性能更优[7] - 混合推理模型创新性实现"思考预算"设置,开发者可自定义深度思考的token消耗量以平衡成本效益[15] - 模型支持vLLM/SGLang推理框架和MCP协议,配合Qwen-Agent框架可快速开发智能体[18] - 多模态技术积累始于2019年,2021年已发布万亿参数MoE多模态模型M6,当前视频生成模型万相2.1与Sora互有胜负[17][26] 开源生态 - 开源决策基于两大判断:模型作为核心生产元素需通过开源普及,开源已成为大模型重要创新驱动力[18] - 魔搭社区累计开源超200个模型,Qwen系列占Hugging Face下载量30%以上,衍生模型数量持续领先Llama系列[7][8][18] - 版本策略覆盖全场景需求:0.6B-32B稠密模型满足端侧到企业部署,MoE模型提供高性价比选择[18] - 开发者服务导向体现在消费级显卡适配、及时支持主流框架等举措,形成技术生态正循环[18] 研发体系 - 采用pipeline式研发管理,预研方向通过小规模实验验证后阶梯式投入,保持多技术方向并行探索[24] - 实验平台支持快速迭代,避免直接超大规模投入,强调科学评估和数据驱动的决策机制[25] - 人才策略结合职级普调与使命驱动,通过系统性工程积累形成代际技术优势[25][26] - 研发投入聚焦三大方向:类人思考能力进化、多模态融合、云模型协同优化带来的效率突破[13][20] 行业竞争 - 认为当前模型竞争本质是系统工程较量,需云计算、数据平台和工程能力的全面配合[13][21] - 指出纯Infra优化无法替代完整云服务,强调阿里云在SLA保障、多模型兼容等方面的企业级优势[22] - 预判行业将面临供电瓶颈,提前布局智算中心选址的energy-aware优化[22][23] - 3800亿新基建投入应对AI应用指数增长,目前MaaS服务已现供不应求态势[22]
不要思考过程,推理模型能力能够更强丨UC伯克利等最新研究
量子位· 2025-04-29 16:02
实验数据显示,在低资源情况 (即少token数量、少模型参数) 或低延迟情况下,Nothinking方法得出的结果均优于Thinking方法的结果, 实现比传统思考方式更好的精度- 延迟权衡。 其他情况下,NoThinking方法在部分数据集上的表现也能超越Thinking。 衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 其实…… 不用大段大段思考,推理模型也能有效推理! 是不是有点反常识?因为大家的一贯印象里,推理模型之所以能力强大、能给出准确的有效答案,靠的就是长篇累牍的推理过程。 这个过程往往用时很长,等同于需要消耗大量算力。已经有一些研究尝试提高推理效率,但大多仍依赖显式思考过程。 来自UC伯克利和艾伦实验室团队的最新研究结果打破了这一刻板印象—— 通过简单的prompt绕过「思考」这一过程直接生成解决方案,可能同样有效,甚至更好。 这种方法被称为 "无思考(NoThinking)"方法 。 「思考」和「无思考」 研究团队以DeepSeek-R1-Distill-Qwen模型为基础,提出了NoThinking方法。 咱们先来分辨一下Thinking和NoThinking的区别在哪里。 Thin ...
14.9万元,满血流畅运行DeepSeek一体机抱回家!清华90后初创出品
量子位· 2025-04-29 12:18
产品性能与定价 - 褐蚁HY90一体机搭载671B参数FP8精度原版DeepSeek模型,价格降至14.9万元级别,较传统百万级设备成本降低一个数量级[1][5][19][31] - 推理速度达22 tokens/s,优于DeepSeek官网表现,数学题等复杂任务仍保持20+ tokens/s[4][10][16] - 采用双路AMD 9005系列CPU+消费级GPU异构架构,1TB/s高内存带宽突破"内存墙",硬件成本控制在10万元内[24][25] 技术架构与创新 - 自主研发推理引擎框架,FP8精度下Decode阶段速度稳定20+TPS,128K上下文仍保持15TPS,16K上下文首字延迟≤80秒[26][27] - 支持INT4量化技术,Decode速度提升至28TPS(1K上下文),预留1.5T参数模型扩展能力[26][28] - 通过参数压缩与算法优化,实现满血FP8精度模型部署,未来将支持MoE类模型[27][29] 公司背景与团队 - 创始人季宇为清华90后博士,CCF优博奖得主,曾任华为昇腾AI芯片编译器专家,入选"天才少年"计划[6][35][38][39] - CTO余洪敏为中科院博士,主导过百度昆仑芯、华为车载昇腾芯片等10余款芯片流片与量产[40][41][42] - 获智谱AI、峰瑞资本等明星机构投资,成立两年即实现技术突破[42][43][44] 行业影响 - 改写行业格局,将满血671B模型部署成本从百万级降至10万元级,同类低配方案价格区间原为20-40万元[31][32] - 推动大模型在智能客服、数据分析等场景的普惠应用,为中小团队提供高扩展性AI部署方案[32][33]
ICLR 2025|首个动态视觉-文本稀疏化框架来了,计算开销直降50%-75%
机器之心· 2025-04-29 11:22
本文由华东师范大学和小红书联合完成,共同第一作者是华东师范大学在读硕士、小红书 NLP 团队实习生黄文轩和翟子杰,通讯作者是小红书 NLP 团队负责人 曹绍升,以及华东师范大学林绍辉研究员。 多模态大模型(MLLMs)在视觉理解与推理等领域取得了显著成就。然而,随着解码(decoding)阶段不断生成新的 token,推理过程的计算复杂度和 GPU 显存 占用逐渐增加,这导致了多模态大模型推理效率的降低。现有的方法通过减少预填充(prefill)阶段的视觉 token 冗余来实现推理加速。遗憾的是,这种在预填充 阶段实现的视觉 token 稀疏化所带来的加速优势,在解码阶段会逐渐减弱。当解码输出的文本 token 数量增多时,这些方法仍然会遇到性能瓶颈。 为了解决上述问题,团队创新性地提出了一个全新的动态视觉 - 文本上下文稀疏化推理加速框架 ——Dynamic-LLaVA。该框架针对多模态大模型在不同推理模式 下(包括预填充阶段以及有无 KV Cache 的解码阶段),设计了定制化的稀疏化推理方案,以实现多模态大模型的高效推理。实验结果表明,Dynamic-LLaVA 在 几乎不损失视觉理解和生成能力的前提 ...