Workflow
Qwen 3
icon
搜索文档
现在全世界最好的开源模型,是 Kimi、DeepSeek 和 Qwen
Founder Park· 2025-07-21 21:26
中国开源模型全球竞争力 - Kimi K2成为全球最强开源模型 在LMArena开发者盲测榜单中占据榜首 中国开源模型包揽前三名 包括Kimi K2、DeepSeek R1和Qwen 3 [1] - Hugging Face平台数据显示 Kimi K2发布后迅速登顶热门模型榜首 并持续超过一周 [5] - 发布仅3天 Kimi K2的第三方token调用量已飙升至开源模型第二 仅次于DeepSeek [4] 技术性能与社区反响 - Kimi K2是1T参数的MoE模型 发布后一周内基于其fine-tune和量化的衍生模型达20个 下载量超14万 超越Llama-4-Maverick-17B等竞品 [7] - 在Imarena竞技场排名中 Kimi K2位列第五 是评分最高的开源模型 超越DeepSeek R1 前四均为闭源旗舰模型如Gemini 2.5和GPT-4.5 [9] - Perplexity CEO宣布基于K2进行post-train 成为继Llama 3.3后第二个获此待遇的非推理模型 [9] 行业生态应用 - VS Code、Cline、Cursor等主流AI Coding软件已官方接入K2模型 在Claude和Gemini被封锁的大陆市场成为关键替代方案 [10] - OpenRouter平台数据显示 K2发布后周调用量迅速超越Grok 4 位列第十 [10] - 硅谷科技媒体将K2发布比作"下一个DeepSeek时刻" 认为其编程和工具使用得分亮眼 具备实际应用潜力 [11][13] 国际行业评价 - Anthropic联创Jack Clark评价K2为"目前全球最佳开源权重模型" 性能接近西方顶级闭源模型 [12][13] - Exponential View认为K2标志着中国AI技术的"东方红一号时刻" 其MuonClip优化器实现算法突破 训练效率达AdamW的两倍 [14] - 艾伦研究所指出 美国开源模型已落后 中国形成DeepSeek、Qwen和Kimi三驾马车引领格局 [16][17] 开源战略价值 - 开源成为国内基模公司的必选模式 通过社区协作加速迭代 同时获得技术认可和资源支持 [19][21] - 模型公司通过开源建立技术标杆 吸引开发者生态 形成不同于DAU/ARR的新价值评估体系 [20][22] - 月之暗面团队认为开源能降低研发成本 使公司更专注于下一代模型开发 形成正向循环 [22]
大模型强化学习新突破——SPO新范式助力大模型推理能力提升!
机器之心· 2025-06-08 16:21
强化学习在大语言模型中的应用 - 强化学习(RL)在提升大语言模型(LLM)推理能力方面展现出巨大潜力,DeepSeek R1、Kimi K1.5 和 Qwen 3 等模型证明了其有效性 [1] - 实现有效强化学习需要解决信用分配问题,即如何将序列最终的评估结果归因到具体的决策动作(token)上 [2] - 信用分配问题的困难在于奖励信号非常稀疏,只能在序列结束时获得明确的成功或失败反馈 [3] 当前主要方法 - 强化学习中通常采用优势值估计(advantage estimation)方法解决信用分配问题,针对大语言模型的方法分为两类 [5] - 粗粒度的轨迹级方法(如 GRPO)根据最终奖励为整个序列计算优势值,高效但反馈信号过于粗糙 [6] - 细粒度的 token 级方法(如 PPO)为每个 token 估计优势值,但需要额外 critic 模型且估计误差大 [6] SPO 框架 - 中科院软件所和香港城市大学团队提出 Segment Policy Optimization (SPO) 框架,采用中等粒度的段级优势值估计方式 [8][11] - SPO 框架具有三大优势:更优的信用分配、更准确的优势值估计、更灵活易调整的粒度 [12] - SPO 框架包含三个核心部分:灵活的段级划分策略、基于蒙特卡洛采样的段级优势值估计、利用段级优势值进行策略优化 [13] SPO 框架的具体实例 - 针对短思维链场景提出 SPO-chain,使用基于切分点的段划分和链式优势值估计 [15] - 针对长思维链场景提出 SPO-tree,采用树形结构优势值估计方法提升 MC 采样效率 [15] - 提出 token 概率掩码策略优化方法,选择性对段内低概率 token 计算损失以强化信用分配 [16] SPO 框架核心技术 - 基于切分点的段划分(Cutpoint-based Partition)为短思维链场景设计,根据 token 概率动态确定段边界 [19] - 固定 token 数量段划分(Fixed Token Count Partition)为长思维链场景设计,便于树形结构组织和优势值估计 [19] - 链式优势值估计(Chain-based)方法在短思维链场景下独立估计每个段边界的 V 值 [22] - 树形优势值估计(Tree-based)方法在长思维链场景下通过自底向上的奖励聚合计算 V 值 [23] 实验结果 - 在短思维链场景(GSM8K 数据集),SPO 训练得到的模型测试集正确率高于基线方法 [29] - 在长思维链场景(MATH 数据集),SPO-tree 在相同训练时间下测试集正确率比 GRPO 更高 [31] - 与 GRPO 方法相比,SPO-tree 在短上下文长度(2K 与 4K)下表现更优,表明 GRPO 可能未有效优化 token 效率 [33] - 实验证明 SPO 采用中等粒度优势值有效,过粗粒度(int100)会导致正确率明显下降 [38] - token 概率掩码去除会导致 SPO-chain 正确率下降,应用到 GRPO 上则能提升其正确率 [40] 总结 - SPO 框架在 token 级和轨迹级之间更好平衡,具有比轨迹级更好的信用分配,且不需要额外 critic 模型 [42] - SPO-chain 和 SPO-tree 通过实验证明了其在短思维链和长思维链场景下的有效性 [43]
3 Signs That Alibaba's Turnaround Effort Is Bearing Fruit
The Motley Fool· 2025-05-24 21:15
公司转型与领导层调整 - 阿里巴巴集团在过去两年进行重大转型,为下一阶段增长做准备,包括几乎完全重组高级管理层(含CEO)[1] - 新任CEO吴泳铭上任后聚焦核心业务(客户体验和人工智能),同时剥离非核心资产如线下超市业务[5] 电商业务复苏 - 中国电商业务客户管理收入增速显著提升:2024年3月季度同比增长12%(2023年12月季度为9%,2024财年全年仅4%)[6] - 高价值客户群88VIP会员数突破5000万,实现两位数同比增长[6] - 国际电商业务最新季度收入增长22%,覆盖欧洲、亚洲及海湾地区多平台(速卖通、Trendyol等)[7] 云计算与AI业务加速 - 阿里云最新季度收入激增18%至300亿元,主要受公有云收入加速及AI相关收入驱动(AI收入连续7个季度三位数增长)[9][10] - 推出混合推理模型Qwen 3,结合快速响应与深度链式推理能力,以更低成本提供更强性能[11] - 计划未来三年投入超500亿美元建设AI基础设施[12] 股东回报措施 - 最新财年通过股票回购(119亿美元,占流通股5.1%)和分红(46亿美元)向股东返还165亿美元现金,与2024财年返还金额持平[13] - 现金回报举措有助于重建投资者信心,显示公司财务健康且能兼顾增长投资与股东回报[14] 整体发展态势 - 转型措施已显现初步成效,核心业务恢复增长动能,公司经营状况较前几年明显改善[15]
Alibaba shares drop 4% in premarket trading after big profit miss
CNBC· 2025-05-15 17:51
财务表现 - 阿里巴巴第四季度营收2365亿元人民币(326亿美元),低于预期的2372亿元人民币,但同比增长7% [1][6] - 净利润124亿元人民币,远低于预期的247亿元人民币 [6] - 美股盘前交易下跌4% [1] 宏观经济与消费环境 - 中美贸易战带来的不确定性持续影响中国消费市场 [2] - 本月双方同意暂停大部分商品关税 [2] - 中国政府近期推出多项刺激消费政策 [2] 业务发展 - 与小红书深化合作,允许淘宝链接嵌入小红书内容以促进Tmall/Taobao平台销售 [3] - 在人工智能领域保持国内外领先地位,4月推出开源大模型Qwen 3并应用于AI助手Quark [3][4] 行业竞争 - 中国AI市场竞争白热化,DeepSeek年初推出创新模型加剧竞争 [4] - 腾讯第一季度资本支出同比激增91%,主要投向AI领域 [4]
下周聊:大模型进入 RL 下半场,模型评估为什么重要?
Founder Park· 2025-05-09 19:55
大模型进入RL下半场 - 行业关注点从模型算法转向实际效用,重新定义问题和设计真实用例的评估变得尤为重要[1] - 现有评估体系需解决如何有效衡量Agent产品的ROI,指导创企和AI应用企业的产品开发落地[1] - Superclue推出中文通用AI智能体测评基准AgentCLUE-General,深度剖析主流Agent产品能力[1] 行业活动与资源 - SuperCLUE联合创始人朱雷将分享大模型和Agent评估中的核心难题,活动时间为5月15日20-22点线上举行[2] - 相关阅读资源涵盖企业Agent落地实践、AI玩具赛道分析、中国AI投资人现状及开源大模型趋势等话题[3] 技术趋势与竞争格局 - OpenAI发力tool use引发行业对Manus等工具是否被模型取代的讨论[3] - Qwen 3发布显示开源可能成为中国大模型公司破局的最优解[3] - 通用Agent如Manus、Fellou、Genspark的能力差异成为行业关注焦点[3]
Qwen 3赋能!亚信科技(1675.HK)联合阿里云推出“AI大模型一体机”,重构政企智能转型的四位一体新范式
格隆汇· 2025-05-09 09:17
阿里通义千问Qwen3模型发布 - 阿里通义千问推出最新大型语言模型Qwen3系列 旗舰模型Qwen3-235B-A22B在代码、数学和通用能力等基准测试中表现优异 与DeepSeek-R1、Grok-3等顶尖模型竞争[1] - Qwen3参数量仅为DeepSeek-R1的1/3 成本大幅降低 仅需4张H20显卡即可实现满血版部署 显存占用仅为性能相近模型的三分之一[1] - 天风证券报告指出AI产业竞争进入体系化阶段 需要端到端解决方案而不仅是行业大模型 包含上层应用、训练数据、底层算力等全链条能力[1] 亚信科技AI大模型一体机解决方案 - 亚信科技是阿里云生态链中唯一同时被纳入软件与硬件推荐的核心标的 与阿里云联合推出"AI大模型一体机"解决方案 采用"算力+平台+应用+服务"四位一体模式[2] - 该一体机实现算法与国产芯片高度适配 支持单机16卡轻量级部署 可支持全精度DeepSeek-R1 671b满血版大模型 BF16精度下实现8K+ Tokens输入 解析延迟低至50毫秒[3] - 兼容主流LLM开发框架 可适配满血版和蒸馏版Deepseek、Qwen等多种模型 无需额外转换编译即可快速部署[4] - 植入了行业大模型与应用模板 覆盖电力、石油石化、政府等八大应用场景 将标杆案例经验标准化复用[6][8] 技术优势与行业落地 - 亚信科技已发布1个通用AI平台、3款行业大模型和8大认知增强工具 覆盖从研发到应用全生命周期 该体系已在多个场景验证并完成迭代升级[5] - 2024年在运营商行业落地大模型项目超100个 其他垂直行业超30个 作为阿里云政企行业大模型创新中心单位 在政务、光伏等行业建设近百个项目[6] - 通过知识蒸馏技术将成功实践转化为即插即用AI模板 形成覆盖八大应用场景的特色应用模板[6] 市场前景与价值转化 - 分析师预计大模型私有化部署需求将持续增长 2025-2027年一体机需求量将达15万、39万、72万台 对应市场空间1236亿、2937亿、5208亿元[12] - 该解决方案实现"零门槛"部署 将传统需数周的部署流程缩短为数小时 通过智能切割与动态调度使硬件利用率大幅提升[9] - 提供全生命周期安全防护 通过物理隔离本地化部署模式满足金融、政务等敏感行业的数据安全要求[10][12]
开源AI引爆热潮!GOSIM AI Paris 2025首日直击:80+位技术大咖聊模型、拼算力、秀落地
AI科技大本营· 2025-05-07 22:02
开源AI生态发展 - 开源AI已实现爆发式增长,大模型技术从巨头垄断转向社区协作共享,覆盖基础架构、算法优化和推理部署等多个层面 [1] - GOSIM AI Paris 2025大会汇聚80余位来自阿里巴巴、Hugging Face、MetaGPT等企业的技术专家,围绕AI模型、基础设施等展开60多场技术分享 [2] - 开源模型如Qwen 3已实现对闭源旗舰模型的性能超越,开源生态呈现陡峭增长曲线 [4] 技术突破与架构演进 - AI架构正从中心化转向去中心化,OpenAI通过Responses API构建分布式智能体平台,吸引60万开发者参与 [5] - 智源研究院发布CCI 4.0语料库,其中CCI4.0-M2-CoT V1包含4250亿token的逆向合成数据,规模较Hugging Face的Cosmopedia提升20倍 [18] - MiniMax提出Lightning Attention机制,有望替代Transformer架构;智谱AI探索跳过分词的技术路径以提升模型效率 [15] 基础设施与工具创新 - 华为昇腾CANN架构支持PyTorch与vLLM生态,实现高效训练推理;北京大学SCOW和CraneSched软件已部署于数十家高校企业 [19] - Oxen.ai详解DeepSeek-R1式强化学习训练流程,包括数据集构建和本地训练代码生成 [19] - Dynamia.ai推出HAMi系统优化异构GPU资源管理,提升AI基础设施利用率 [31] 应用落地与行业实践 - 阿里巴巴通义灵码从Coding Copilot升级为Coding Agent;华为仓颉Magic框架提升HarmonyOS应用开发效率 [22] - Makepad利用氛围编码构建Rust UI新范式;博通Spring团队通过MCP实现AI与现有系统的高效集成 [23] - Cegid Pulse多智能体平台重塑商业流程,实现智能化企业决策 [23] 具身智能与前沿探索 - ZettaScale的Zenoh协议打通机器人感知、执行与认知壁垒;Dora项目实现分布式数据流 [26] - 智源研究院RoboBrain提升机器人操作智能化水平;Voyage Robotics利用开源VLA模型支持机器人应用 [27] - 中科大生成对抗性场景提升自动驾驶安全性;Menlo Research开发空间推理LLM增强机器人环境理解 [26][27] 全球协作与开源项目 - OpenWallet基金会推动《全球数字契约》项目,采用联合召集模式促进跨国界、跨行业协作 [8][9] - Bielik.ai发布1 5B至11B参数的开源语言模型及端到端工具链,降低大模型研发门槛 [29][30] - Eclipse Aidge项目支持边缘智能部署;LlamaEdge实现边缘设备轻量化GenAI推理 [29][31]
心言集团高级算法工程师在Qwen 3发布之际再谈开源模型的生态价值
搜狐财经· 2025-05-07 03:02
阿里Qwen 3大模型发布 - 阿里发布新一代大模型Qwen 3,与DeepSeek共同形成中国开源生态"双子星",正在取代以Llama为主、Mistral为辅的开源生态 [1] - Qwen 3的发布引发行业关注,多家AI创业公司代表就开源闭源选择、模型微调、能力瓶颈及大模型创业等问题展开讨论 [1] 开源与闭源模型选择策略 - 公司业务中90%以上场景使用本地化部署的微调模型,特定任务如数据构造、蒸馏等会直接调用GPT、豆包、Qwen等大模型的API [3] - 本地部署主要基于Qwen微调模型,根据业务需求使用不同量级模型,包括7B、32B、72B等版本,具身智能业务则采用0.5B、1.5B等多模态小模型 [3] - 选择7B模型主要考虑推理速度快、部署成本低及性能与速度的平衡 [3] Qwen模型选择原因 - 生态系统成熟稳定,推理框架(vLLM、SGLang)和微调工具链完善,相比其他模型生态更成熟 [4] - 中文支持能力强,预训练数据包含泛心理、情感陪伴相关内容,更贴合公司业务需求 [7] - 提供从0.5B到72B的完整尺寸系列,降低不同尺寸模型间的微调成本 [7] - 阿里在开源方面的持续投入和可信赖度,为公司长期依赖其模型开发提供保障 [7] 大模型使用与微调挑战 - 具身智能业务面临推理成本和生态适配挑战:英伟达方案端侧推理卡成本高,国产算力芯片生态不完善,适配周期长 [10][11] - 线上互联网业务面临模型能力和推理成本/延迟挑战:情感陪伴对多模态理解要求高,用户量快速增长带来推理成本压力,高峰时段流量达平时3-4倍 [12] 模型能力与业务适配 - 公司专注于情感、情绪化的泛心理应用场景,大多数模型厂商不会特别关注这部分数据,因此坚持进行Post-training [13] - 对基础模型要求主要是通用能力而非特定领域能力,通用能力足够好时更容易通过Post-training拟合到业务方向 [13] - Post-training会对模型其他通用能力造成一定损害,目标是将损害控制在2个点以内,核心领域能力提升10个点 [13] 开源模型发展现状 - 期待开源模型能追平闭源顶尖模型如Claude、GPT-4/4o,希望获得更多技术细节分享 [14] - DeepSeek在MoE、原生多模态、代码等方面探索前沿,Qwen和Llama更注重社区和通用性,技术选型相对稳健 [14][15] 大模型创业关键问题 - 模型与产品适配度及对AI在产品中角色的理解是关键,AI应作为后端能力而非前端界面 [17] - 正确模式应是"X + AI"而非"AI + X",核心是挖掘用户需求并用AI解决,而非技术驱动寻找场景 [19] - 用户留存是重要观察指标,留存差往往意味着产品未抓住真实痛点或个性化不足 [19] 中国开源模型全球化发展 - Qwen、DeepSeek等中国开源模型在国际舞台崭露头角,推动技术生态驱动的全球化进程 [20] - 开源为中国企业提供弯道超车技术路径,创造"全球协作-垂直创新-生态反哺"的良性发展模式 [20]
AI周度跟踪2025年第6期:阿里发布Qwen 3,国内大模型发布加速
东方证券· 2025-05-06 20:23
报告行业投资评级 - 看好(维持) [5] 报告的核心观点 - 看好AI新周期带动算力 - 算法 - 应用生态三端依次持续推进,建议增加港股互联网板块配置仓位,核心推荐阿里巴巴 - W、快手 - W、腾讯控股、百度集团 - SW [3][87] 根据相关目录分别进行总结 本期AI专题跟踪 阿里发布通义千问3.0系列模型 - 4月29日凌晨,阿里巴巴开源新一代通义千问模型Qwen 3系列,包含8款模型,Qwen 3 - 235B - A22B测评超DeepSeek R1等位列开源系列模型榜首 [13] - Qwen 3系列优势:有8种尺寸,适配各场景,各尺寸均为SOTA水平;Qwen 3 - 235B - A22B测评超第一梯队大模型,代码能力超Gemini 2.5 Pro;部署成本低,仅需4张H20即可部署满血版 [15] - 模型应用侧优化:国内首个混合推理模型,集成深度思考与快速回答功能,支持调整回答思考长度;agent调用性能好,接入MCP协议,可调用即梦生图功能;支持119种语言和方言,利于小语种国家AI应用开发和模型出海 [18] 百度召开AI开发者大会,发布多项AI重磅更新 - 4月25日,百度召开大会,发布文心4.5 turbo与推理模型X1 turbo,及AI模型、应用与生态的九大更新 [19] - 新一代大模型降本提质:文心4.5 turbo多模态能力升级,文本和多模态能力达行业第一梯队;X1 turbo思维链等能力升级,总体表现优;文心大模型4.5 Turbo价格降80%,仅为DeepSeek V3的40%,文心大模型X1 Turbo价格再降50%,仅为DeepSeek R1的25% [21] - 其他更新:算力侧点亮国内首个全自研3万卡集群,提升稳定性、芯片利用率并降低能耗;应用侧发布高说服力数字人,新增剧本生成和AI大脑功能,降低使用门槛;代码智能体包含文心快码comate与秒哒;通用AI agent心响可一站式解决复杂问题,接入MCP服务 [24][25][28] 本期AI动态跟踪 算力基建 - 4月25日中央政治局进行人工智能集体学习,凸显人工智能核心地位,习近平强调发挥举国体制优势,推动人工智能健康发展,明确技术、应用、政策端工作部署,预计未来有多重政策落地 [32][33] - 英伟达4月14日宣布与台积电、富士康等合作,未来四年在美国本土生产价值5000亿美元的AI基础设施 [35] AI大模型 - 2024年以来大模型发布提速,国内互联网大厂等加大AI投入,模型快速迭代升级,AI渗透率进入爬坡期 [36] - DeepSeek发布DeepSeek - prover - V2数学推理模型,在数学推理上表现领先 [39] - 4月30日小米发布首个推理模型Xiaomi MiMo,7B参数规模在数学和代码推理测评上超越部分模型,可在端侧部署 [41] - 4月17日字节发布豆包1.5深度思考模型与豆包文生图3.0模型,推理与文生图能力达全球第一梯队水平 [45] 算法技术 - 4月19日快手Kwaipilot团队发布创新强化学习算法SRPO,训练步数仅为DeepSeek的1/10,在数学和代码bench测试中超越DeepSeek - R1 - Zero - 32B,拓宽了强化学习算法能力边界 [51] AI应用 - 4月18日字节跳动新通用AI agent产品扣子空间开始内测,提供两种模式,强化解决工作任务能力,未来会随用户反馈迭代,国内AI agent处于快速迭代竞争阶段 [56] - 本周AI应用数据跟踪:4月14 - 20日,国内AI应用web端访问量前三为DeepSeek、夸克、豆包;全球前三为ChatGPT、Canva、DeepSeek。3月Web端访问量数据,各应用场景有不同Top3产品。3月国内AI应用app端MAU前三为夸克、豆包、DeepSeek;全球前三为ChatGPT、夸克、豆包。4月28日 - 5月4日,应用免费榜Top10中有豆包、DeepSeek、夸克 [61][64][70] 本周行情跟踪 - 本周恒生科技指数上涨5.24%至5244.06点,成分股涨幅前五为金蝶国际、金山软件、小米集团 - W、阿里健康、商汤 - W;跌幅前五为比亚迪电子、百度集团 - SW、小鹏汽车 - W、蔚来 - SW、腾讯控股 [79] - 本周传媒板块成分股涨幅前五为山东出版、冰川网络、上海电影、盛天网络、完美世界;跌幅前五为中广天择、*ST返利、芒果超媒、横店影视、生意宝 [81] - 互联网板块重点公司行情跟踪:截至5月2日,各公司有不同收盘价、周度涨跌幅、月度涨跌幅、年初至今涨跌幅及PE值 [86] 投资建议 - 看好AI新周期带动算力 - 算法 - 应用生态三端依次持续推进,建议增加港股互联网板块配置仓位,核心推荐阿里巴巴 - W、快手 - W、腾讯控股、百度集团 - SW [3][87]
李彦宏三度喊话,百度能否打破“魔咒”
搜狐财经· 2025-04-30 18:40
4月25日上午,武汉体育馆的舞台中央,灯光下的李彦宏正面对全场观众侃侃而谈。 "模型会有很多,但应用才是王者",说完他停顿几秒钟,等到了现场观众的掌声,身后的大屏幕上,这 句口号无比醒目。 可惜剧情走向并非如此,现在文心大模型只是市面上众多的可选项之一。 后来者无论豆包、通义千问、DeepSeek还是混元,都在不同的时期成为过市场焦点,而文心每次都在 不经意间被外界遗忘。 熟悉百度的人,也许对这种场景并不陌生,过去十年百度身上似乎有种"魔咒",它总是能看到机会,却 很难抓住它们。 即便你对百度不甚了解,应该也在不同场合听说过它的"最后一战":200亿All in O2O的豪气仿佛仍在昨 日,36亿美元天价收购YY的案例无果而终,曾被华尔街看好的造车业务留下一地鸡毛。 与此同时,在面向未来的云计算领域,百度反而后知后觉,至今仍在苦苦追赶。在AI领域,百度手握 大量技术积累却屡失良机,陷入模型大战的泥潭,坐视对手后来居上。 在追逐风口的时候盲目下重注,在需要全力以赴的赛道上犹豫不决,似乎已经成为百度一个令人扼腕的 注脚。 程序员出身的李彦宏,比谁都懂这一轮技术更迭的重要性。他希望让这家工程师文化浓厚的公司重塑自 ...