Workflow
混合推理模型
icon
搜索文档
MiniMax再融22亿元?新智能体可开发演唱会选座系统
南方都市报· 2025-07-17 12:58
融资与估值 - MiniMax即将完成近3亿美元(约合人民币22亿元)新融资 本轮融资后公司估值将超过40亿美元(约合人民币288亿元) [1] - 公司正寻求A股上市 但未获官方回应 [1] 产品与技术 - MiniMax发布MiniMax Agent全栈开发功能 能交付复杂全栈应用 无需编程 仅需输入自然语言即可输出网站应用 [1] - 该产品可能是全球首个在复杂全栈网站应用上高交付率的Agent 支持API、实时数据、下单支付、LLM调用等功能 [1] - 案例显示MiniMax Agent可在30分钟内开发演唱会选座系统 实现实时锁座、注册、支付等完整流程 [1] - 公司发布首个开源大规模混合架构推理模型MiniMax-M1 采用闪电注意力机制 在长上下文输入和深度推理时效率显著 [4] - MiniMax-M1在训练和推理时具有算力效率优势 混合架构被视为未来模型设计主流 [4] 行业动态 - Agent成为继大模型后全球科技圈新风口 代码能力和信息检索能力是布局重点 [3] - OpenAI、谷歌等厂商已推出智能体产品 并在编程能力领域展开竞争 [3] - 全球厂商竞争重点转向混合推理模型 Anthropic发布Claude 3.7 Sonnet 称其为市场首个混合推理模型 [3] - 混合推理模型架构代表下一代前沿技术 可实现快速反应与深度思考的平衡 [3]
杭州致成电子科技有限公司:混合推理模型引领电力计量诊断新范式
金投网· 2025-05-29 08:49
行业背景与公司定位 - 电力计量设备的精准诊断与智能化运维成为电网企业降本增效的核心命题 [1] - 公司是国内领先的能源数字化解决方案提供商,自主研发基于混合推理模型的电力计量设备故障诊断平台 [1] - 全国智能电表累计安装量预计约为6.35亿只,公司平台覆盖全国13个省份、服务超2亿电力用户,市场占有率达34.33% [1] 技术突破 - 创新性构建机理模型与人工智能深度融合的协同算法框架,解决传统计量诊断依赖人工经验、效率低下的痛点 [2] - 平台三大核心功能:全量分析(识别异常台区准确率超98%)、精准定位(故障定位精度提升至电表级,耗时从小时级压缩至分钟级)、分级推荐(工单派发效率提升60%) [2] - 技术应用效果:计量设备故障率平均降低35%,线损治理成本下降28%,为电网企业年节省运维成本超亿元 [2] 市场布局 - 平台覆盖浙江、北京、上海、四川等13个省份,累计服务用户超2亿户,占全国智能电表用户总数的34.33% [3] - 浙江为核心市场,服务规模达数千万户,占全省智能电表用户的近四成 [3] - 在西南、西北地区市场渗透率快速提升,相关技术方案被纳入《国家电网新能源计量技术白皮书》 [3] 行业赋能 - 公司从单一产品供应商向全生命周期解决方案服务商升级,平台与国家电网、南方电网核心系统深度对接 [4] - 支撑省级电网公司孵化出电费催收、光伏"四可"等20余项创新应用 [4] - 在广东韶关试点中,平台通过构建低压配电网数字孪生地图,大幅缩短故障处理时间并减少线损治理成本 [4] 未来发展规划 - 加速布局边缘计算、数字孪生等前沿领域,推出新一代轻量化诊断终端,支持台区级本地化AI推理 [5] - 与清华大学合作研发电力计量大模型,可自动解析169类设备故障模式 [5] - 以"数据+算法"双轮驱动,引领行业迈向更高效、更绿色的未来 [5]
阿里Qwen3大模型登顶开源冠军,中国AI应用即将迎来大爆发?
搜狐财经· 2025-05-02 02:34
文章核心观点 4月29日阿里巴巴发布新一代通义千问模型Qwen3,其效率高、成本低,性能卓越,开源后引发行业震动,适配众多厂商,在多方面表现出色,有望推动AI大模型在终端应用落地 [3] 千问3模型亮点 - 模型大小仅为相近性能模型的三分之一,性能超越R1和OpenAI - o1等全球顶尖模型,登顶全球最强开源模型 [3] - 国内首个“混合推理模型”,整合“快思考”与“慢思考”,简单问题低算力“秒回”,复杂问题多步骤思考节省算力 [3] - 在推理能力、指令遵循、工具调用及多语言能力等方面显著提升,创造国产及全球开源模型新性能高峰 [20] - 拥有独特混合推理、推理能力增强、人类偏好对齐卓越、智能体能力突出、多语言能力强大五大关键特性 [20] 千问3性能表现 - 在AIME25测评获81.5分刷新开源纪录,LiveCodeBench评测突破70分超Grok3,ArenaHard测评95.6分超越OpenAI - o1及DeepSeek - R1 [20] - 在多项评测中表现优异,如ArenaHard、AIME'24、AIME'25、LiveCodeBench v5等评测中成绩突出 [27] 混合推理模式 - 将顶尖推理和非推理模型集成,简单问题瞬间作答、算力消耗少,复杂问题开启思考模式 [21] - 技术门槛高,需多轮强化学习训练,热门模型中仅千问3、Claude3.7、Gemini 2.5 Flash可做到 [21] - 可通过API设置“思考预算”,在性能和成本间取得平衡 [22] 开源优势 - 显著降低部署成本,仅4张H20显卡即可部署旗舰版 [24] - 共开源8款模型,含2款MoE模型和6款稠密模型,各模型针对不同场景优化 [24] - 小尺寸模型对智能设备和场景部署友好,企业可免费下载和商用,加速AI大模型终端应用落地 [25] 行业适配情况 - 华为昇腾支持千问3全系列模型部署,开发者可实现0Day适配,此前也同步支持千问系列模型 [28][31] - NVIDIA、联发科、AMD等头部芯片厂商成功适配,联想“百应”接入千问3提升关键能力 [32] 智能体支持 - 在BFCL评测创下70.8新高,超越顶尖模型,降低Agent调用工具门槛 [33] - 原生支持MCP协议,结合Qwen - Agent框架降低编码复杂性,实现高效手机及电脑Agent操作 [33] 语言支持与开源成果 - 支持119种语言和方言,包括主要联合国语言、各国官方语言及多种地方性语言 [20][38] - 从2023年至今开源200多款模型,覆盖“全模态”“全尺寸”参数,多次获权威榜单冠军 [38] - 通义千问Qwen衍生模型超10万,全球下载量超3亿,在HuggingFace社区下载量占比超30% [39] - 在斯坦福HAI研究所报告中,2024年阿里6个模型入选重要大模型,AI贡献位列全球第三 [39]
全球最强开源AI大模型诞生:中国研发,成本只有Deepseek的30%
新浪财经· 2025-04-30 19:28
大模型技术路线分化 - 全球AI大模型发展呈现两种技术路线:OpenAI代表的"大力出奇迹"路线依赖高强度GPU堆砌算力 [1][3] - Deepseek代表的"四两拨千斤"路线通过算法优化实现低算力高性能 仅需少量显卡即可超越同行性能 [3] - 开源模式成为行业趋势 因开源模型更易获得开发者采用 [1] 阿里千问3技术突破 - 千问3(Qwen3)成为全球首个混合推理模型 集成"快思考"与"慢思考"双模式 可根据任务复杂度动态调整 [5] - 在ArenaHard(95 6)、AIME'24(85 7)等8项基准测试中超越OpenAI-o1、Deepseek-R1等主流模型 [6] - 参数规模仅为Deepseek-R1的三分之一 显存占用减少三分之二 部署成本降低65%-75% [6][7] 硬件部署革新 - 仅需4张H20显卡即可部署全功能千问3 显存需求为同类产品的三分之一 [7] - 部署成本降至满血版Deepseek-R1的25%-35% 大幅降低商业化门槛 [7] - 混合推理架构使单张H20显卡可支持2000token/s的生成速度 [7] 国产GPU产业机遇 - Deepseek已验证国产GPU可替代英伟达高端芯片部署高性能模型 [9] - 千问3的低算力需求将进一步加速国产GPU替代进程 [9] - 行业算力泡沫被打破 中低端国产GPU迎来市场扩容机会 [9]
华为昇腾全系列支持Qwen3
快讯· 2025-04-29 18:31
阿里通义千问模型Qwen3开源与华为昇腾支持 - 阿里通义千问模型Qwen3于4月29日开源数小时后即获得华为昇腾的全系列模型部署支持 [1] - 开发者可通过华为MindSpeed和MindIE工具实现千问3的0Day适配即开箱即用 [1] - 千问3是国内首个"混合推理模型"集成"快思考"与"慢思考"机制 [1] 千问3技术特性 - 模型对简单需求采用低算力"秒回"模式显著提升响应效率 [1] - 对复杂问题启用多步骤"深度思考"功能优化计算资源分配 [1] - 混合推理架构设计实现整体算力消耗的大幅节省 [1]
Qwen3深夜炸场,阿里一口气放出8款大模型,性能超越DeepSeek R1,登顶开源王座
36氪· 2025-04-29 17:53
模型发布与性能 - 公司一次性开源8款混合推理模型,包括2款MOE模型(Qwen3-235B-A22B和Qwen3-30B-A3B)和6款Dense模型(Qwen3-32B至Qwen3-0.6B) [2][4][6] - 旗舰模型Qwen3-235B-A22B拥有2350亿参数,激活参数220亿,在ArenaHard测试(95.6分)接近Gemini2.5-Pro(96.4分),超越OpenAI o1(92.1分)和DeepSeek R1(93.2分) [2][3] - Qwen3-30B-A3B仅激活30亿参数(总参数300亿),性能却优于QwQ-32B,小模型Qwen3-4B达到Qwen2.5-72B水平 [5][6] 技术创新 - 国内首个支持"思考模式"(深度推理)和"非思考模式"(快速响应)的混合推理模型,可通过指令切换 [8][10] - 预训练数据量达36万亿token(Qwen2.5的两倍),支持119种语言,采用三阶段训练策略(S1:30T token基础训练,S2:5T token专业强化,S3:32K上下文扩展) [17][18][12] - 后训练采用四阶段流程:长链推理冷启动→强化学习→模式融合→通用能力强化,实现深度推理与快速响应平衡 [21][22] 行业影响 - 成为全球最大开源模型族群(累计200+模型,衍生模型超10万),超越Meta Llama系列 [24] - 专家混合模型(MoE)显存效率高,20-30B规模即可实现接近GPT-4的推理能力 [24] - GitHub发布后迅速获17.9k星,用户实测显示其在编程、数学和多语言处理(119种)表现优异 [24][25][28][30] 部署与应用 - 提供0.6B-32B多种规模选择,支持从笔记本测试到多卡集群扩展 [24] - 推荐使用SGLang/vLLM框架部署,本地支持Ollama/LMStudio等工具 [16] - 已上线Hugging Face/ModelScope/Kaggle等平台,普通用户可通过网页/APP直接体验 [13][14][15]
性能超越DeepSeek R1,Qwen3正式登场!阿里一口气放出8款大模型,登顶开源王座!
AI科技大本营· 2025-04-29 17:05
模型发布与性能 - 阿里Qwen团队发布全新Qwen3系列大模型,一次性开源8款混合推理模型,包括2个MOE模型和6个Dense模型 [1][3][4] - 旗舰模型Qwen3-235B-A22B拥有2350亿参数,激活参数220亿,在代码、数学和通用能力基准测试中超越DeepSeek R1和OpenAI o1,接近Google Gemini 2.5-Pro [4][5] - Qwen3-30B-A3B总参数300亿,激活参数仅30亿,性能优于QwQ-32B,小模型Qwen3-4B达到Qwen2.5-72B-Instruct水平 [6][7] 技术创新与架构 - Qwen3是国内首个支持"快思考"和"慢思考"混合推理的模型,可根据问题难度切换响应模式 [9][10] - 模型预训练数据量达36万亿token,覆盖119种语言,是Qwen2.5的两倍,采用三阶段训练流程提升专业能力和长文本处理 [16][17] - MOE架构仅激活10%参数即可实现接近Qwen2.5 Dense模型的性能,显著降低训练和推理成本 [19] 行业影响与用户反馈 - Qwen3系列开源模型数量突破10万,超越Meta Llama成为全球最大开源模型族群 [23] - 外媒评价Qwen3接入效率高,几小时可替代OpenAI接口,显存使用效率接近GPT-4 [23] - 用户实测显示Qwen3在编程、数学和多语言处理表现优异,GitHub热度达17.9k Star [25][26][27][31] 多语言与部署支持 - 支持119种语言和方言,覆盖全球主要语系,包括印欧语系、汉藏语系、亚非语系等 [11][13] - 模型已在Hugging Face、ModelScope、Kaggle等平台上线,支持网页端和移动端使用 [14][18] - 推荐使用SGLang、vLLM等推理框架进行部署,本地工具支持包括Ollama、LMStudio等 [15]
通义千问 Qwen3 发布,对话阿里周靖人
晚点LatePost· 2025-04-29 16:43
文章核心观点 - 阿里云CTO周靖人认为大模型发展已进入早期阶段中期,需在多模态、工具使用、Agent支持和持续学习等多方向布局[5][14] - 通义千问Qwen3作为全球首个开源混合推理模型,通过融合推理和非推理模式实现性能与成本平衡,代表技术新趋势[6][15] - 阿里开源战略成效显著:Qwen系列下载量达3亿次,衍生模型超10万个,超越Meta Llama成为全球最活跃开源模型[7][8][18] - 公司坚持技术规律导向的研发节奏,强调长期创新而非短期竞争,认为AGI发展需要云计算体系与大模型的深度协同[12][13][21] 技术突破 - Qwen3-235B-A22B以2350亿总参数在多项基准测试超越6710亿参数的DeepSeek-R1,小尺寸MoE模型Qwen3-30B-A3B激活参数仅30亿但性能更优[7] - 混合推理模型创新性实现"思考预算"设置,开发者可自定义深度思考的token消耗量以平衡成本效益[15] - 模型支持vLLM/SGLang推理框架和MCP协议,配合Qwen-Agent框架可快速开发智能体[18] - 多模态技术积累始于2019年,2021年已发布万亿参数MoE多模态模型M6,当前视频生成模型万相2.1与Sora互有胜负[17][26] 开源生态 - 开源决策基于两大判断:模型作为核心生产元素需通过开源普及,开源已成为大模型重要创新驱动力[18] - 魔搭社区累计开源超200个模型,Qwen系列占Hugging Face下载量30%以上,衍生模型数量持续领先Llama系列[7][8][18] - 版本策略覆盖全场景需求:0.6B-32B稠密模型满足端侧到企业部署,MoE模型提供高性价比选择[18] - 开发者服务导向体现在消费级显卡适配、及时支持主流框架等举措,形成技术生态正循环[18] 研发体系 - 采用pipeline式研发管理,预研方向通过小规模实验验证后阶梯式投入,保持多技术方向并行探索[24] - 实验平台支持快速迭代,避免直接超大规模投入,强调科学评估和数据驱动的决策机制[25] - 人才策略结合职级普调与使命驱动,通过系统性工程积累形成代际技术优势[25][26] - 研发投入聚焦三大方向:类人思考能力进化、多模态融合、云模型协同优化带来的效率突破[13][20] 行业竞争 - 认为当前模型竞争本质是系统工程较量,需云计算、数据平台和工程能力的全面配合[13][21] - 指出纯Infra优化无法替代完整云服务,强调阿里云在SLA保障、多模型兼容等方面的企业级优势[22] - 预判行业将面临供电瓶颈,提前布局智算中心选址的energy-aware优化[22][23] - 3800亿新基建投入应对AI应用指数增长,目前MaaS服务已现供不应求态势[22]
阿里开源通义千问Qwen3:登顶全球最强开源模型,成本仅需DeepSeek-R1三分之一
IPO早知道· 2025-04-29 11:01
模型性能与架构 - 阿里巴巴开源新一代通义千问模型Qwen3,参数量为235B,激活仅需22B,性能全面超越DeepSeek-R1、OpenAI-o1等全球顶尖模型[1] - Qwen3采用混合专家(MoE)架构,是国内首个"混合推理模型",集成"快思考"与"慢思考"功能,可大幅节省算力消耗[1] - Qwen3预训练数据量达36T,并在后训练阶段进行多轮强化学习,将非思考模式无缝整合到思考模型中[1] 评测表现 - 在AIME25奥数测评中,Qwen3斩获81.5分,刷新开源纪录[1] - 在LiveCodeBench代码能力评测中,Qwen3突破70分大关,表现超过Grok3[1] - 在ArenaHard人类偏好对齐测评中,Qwen3以95.6分超越OpenAI-o1及DeepSeek-R1[2] - Qwen3在BFCL评测中创下70.8的新高,超越Gemini2.5-Pro、OpenAI-o1等顶尖模型[6] 成本与部署 - Qwen3部署成本大幅下降,仅需4张H20即可部署满血版,显存占用仅为性能相近模型的三分之一[2] - Qwen3提供丰富的模型版本,包含2款30B、235B的MoE模型,以及6款密集模型(0.6B至32B)[3] - 30B参数MoE模型实现10倍以上性能杠杆提升,仅激活3B就能媲美上代Qwen2.5-32B模型性能[3] 应用场景 - Qwen3所有模型都是混合推理模型,API可按需设置"思考预算",灵活满足不同场景需求[3] - 4B模型适合手机端,8B可在电脑和汽车端侧部署,32B最受企业大规模部署欢迎[3] - Qwen3原生支持MCP协议,具备强大的工具调用能力,结合Qwen-Agent框架可大幅降低编码复杂性[6] 开源与生态 - Qwen3采用Apache2.0协议开源,支持119多种语言,全球开发者可免费下载商用[6] - 阿里通义已开源200余个模型,全球下载量超3亿次,千问衍生模型数超10万个,成为全球第一开源模型[7]
阿里开源千问3模型 成本仅需DeepSeek-R1三分之一
21世纪经济报道· 2025-04-29 08:24
阿里通义千问3模型发布 - 阿里开源新一代通义千问模型Qwen3,参数量235B,激活仅需22B,成本大幅下降,性能全面超越DeepSeek-R1、OpenAI-o1等全球顶尖模型 [1] - 千问3是国内首个"混合推理模型",集成"快思考"与"慢思考",对简单需求可低算力"秒回"答案,对复杂问题可多步骤"深度思考",大大节省算力消耗 [1] - 千问3采用混合专家(MoE)架构,预训练数据量达36T,并在后训练阶段多轮强化学习,将非思考模式无缝整合到思考模型中 [1] 性能表现 - 千问3在AIME25测评中斩获81.5分,刷新开源纪录;在LiveCodeBench评测中突破70分,表现超过Grok3;在ArenaHard测评中以95.6分超越OpenAI-o1及DeepSeek-R1 [2] - 千问3仅需4张H20即可部署满血版,显存占用仅为性能相近模型的三分之一 [2] - 千问3在BFCL评测中创下70.8的新高,超越Gemini2.5-Pro、OpenAI-o1等顶尖模型 [5] 模型版本与部署 - 千问3提供2款30B、235B的MoE模型,以及0.6B、1.7B、4B、8B、14B、32B等6款密集模型,每款模型均斩获同尺寸开源模型最佳性能 [4] - 千问3的30B参数MoE模型实现了10倍以上的模型性能杠杆提升,仅激活3B就能媲美上代Qwen2.5-32B模型性能 [4] - 32B版本的千问3模型可跨级超越Qwen2.5-72B性能 [4] - 4B模型适合手机端,8B可在电脑和汽车端侧部署,32B最受企业大规模部署欢迎 [4] 应用支持与开源 - 千问3原生支持MCP协议,具备强大的工具调用能力,结合Qwen-Agent框架可大大降低编码复杂性 [5] - 千问3系列模型采用Apache2.0协议开源,支持119多种语言,全球开发者、研究机构和企业可免费下载并商用 [5] - 阿里通义已开源200余个模型,全球下载量超3亿次,千问衍生模型数超10万个,已超越美国Llama [6] - 个人用户可通过通义APP体验千问3,夸克即将全线接入千问3 [6]