Qwen3
搜索文档
Cursor“自研”模型套壳国产开源?网友:毕竟好用又便宜
量子位· 2025-11-02 12:23
鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI 美国顶流AI产品"套壳"中国开源大模型,这事儿上"热搜"了(doge)。 网友都在感叹:大家都认为中国大模型正在迎头赶上。不,它们已经赶上了。 事情是这么个事情: AI编程TOP应用Cursor和Windsurf最近不是前后脚发了新模型嘛。前者打出"自家首个编码模型"、"智能体编程最佳方式"的旗号,后者自 称"速度新标杆"。 您猜怎么着? 有网友发现,Cursor的这个Composer-1怎么干着干着活就唠起中文来了? Windsurf的SWE-1.5背后,则很有可能是智谱的GLM 4.6…… "基于领先开源模型" Cursor自家首个模型 Composer 随着Cursor 2.0新版本发布,是一个"编程智能体模型"。 官方的说法是,该模型专为在Cursor中进行低延迟的代理式编码而打造,大多数任务都能在30秒内完成。 同样,Windsurf的新模型SWE-1.5也主打一个快速: 和芯片厂商Cerebras合作,速度能达到每秒950个token,是Claude Haiku 4.5的6倍,Sonnet 4.5的13倍。 基础模型方面,Cursor官方有点支 ...
Three Long-Term Stocks to Buy and Hold Forever
Investor Place· 2025-10-27 00:00
On Holding AG (ONON) 股价表现 - 2023年1月,股价上涨33%至23美元 [1] - 2023年7月,股价再上涨52%至35美元 [1] - 十八个月后,股价突破60美元,两年内回报率达250% [1] - 在此期间,公司营收增长百分比开始放缓 [1] On Holding AG (ONON) 股价驱动因素 - 机构投资者未参与,量化评级系统给予"D"级 [2] - 股价主要由散户兴趣推动,而非华尔街传统力量 [2] - 公司与Zendaya等Z世代明星达成合作,在年轻跑者中人气飙升 [3] 社交媒体对投资的影响 - 社交媒体影响力已超越小盘股炒作,特斯拉等公司凭借粉丝维持高估值(170倍远期市盈率) [4] - Crocs和Under Armour等时尚公司高度依赖年轻消费者喜好 [4] - TradeSmith开发的Social Heat Score系统通过抓取数百万数据点量化公司受欢迎程度 [6] 投资策略系统 - Social Heat Score与Louis Navellier的Stock Grader系统结合,筛选具有持续潜力的热门公司 [7] - 该系统在华尔街投资者注意到之前就已标记On Holding [6] Dollar General Corp (DG) 投资亮点 - Social Heat Score高达91.5,美国最大折扣连锁店拥有强大客户基础,尤其是农村地区 [10] - 凭借2万家门店的规模,价格极低,客户年均消费522美元,几乎是竞争对手Dollar Tree的两倍 [10] - 吸引中高收入客户,CEO指出这些新客户有更多可支配收入购买非消耗品类别 [11] - 运营利润率4.2%,与沃尔玛的4.3%相当,新店平均投资回收期不到三年 [11] - Stock Grader系统给予"A"级评级,股价可能重返两年前250美元水平 [12] Advance Auto Parts Inc (AAP) 转型潜力 - 公司此前落后于竞争对手,运营利润率仅为主要对手的三分之一 [13] - 新管理团队自2023年上任后,运营盈利改善,恢复有意义盈利能力 [14] - 分析师预计明年净收入增长58%至1.66亿美元,后年增长48%至2.46亿美元 [14] - Social Heat Score为74,处于70-100的"买入"区间 [15] - 美国客户满意度指数排名已从底部提升 [15] - 专业业务持续实现同店正增长,DIY业务出现稳定迹象 [16] - 股价下跌75%后估值具吸引力,交易价格仅为2027年预期收益的14倍 [16] Alibaba Group Holding Ltd (BABA) 投资机会 - 公司开发的Qwen3大语言模型仅落后西方最佳模型四个月,在"Humanity's Last Exam"中排名第四 [19] - 运营成本低于Gemini 2.5或Grok 4 [19] - 华尔街分析师目标价中位数仅为177.50美元,较当前价格上行空间有限 [20] - 竞争缓解、利润率提高和科技创新(包括聊天机器人)等多重利好 [20] - 云计算服务利润已超过传统电子商务部门,AI推理芯片正在测试中 [20] - AI芯片与英伟达平台兼容,对中国客户更具吸引力 [21] - Stock Grader系统给予"A"级评级,Social Heat Score为86,市盈率仅18倍 [21] Social Heat Score 预警功能 - 该系统可识别"熊陷阱",如Lululemon Athletica股价下跌后继续下跌10% [22] - 数据显示消费者兴趣从运动休闲转向牛仔服饰,最病毒式传播的服装活动是American Eagle的Good Jeans活动 [23] - 消费者反馈LULU产品质量低于预期、缺乏创新,以及店铺相关问题 [23] - Allbirds、Celsius Holdings和星巴克等公司Social Heat Score低于20,表明热度下降 [23]
剑桥揭开大模型翻车黑箱,别再怪它不懂推理,是行动出错了
36氪· 2025-10-13 18:46
【导读】为什么大模型,在执行长时任务时容易翻车?这让一些专家,开始质疑大模型的推理能力,认为它们是否只是提供了「思考的幻觉」。近日,剑 桥大学等机构的一项研究证明:问题不是出现在推理上,而是出在大模型的执行能力上。 大模型也有「EMO」时刻。 比如,Gemini在Cursor里调试编译错误后,打开了自责「循环模式」,把「I am a disgrace(我很丢脸)」重复了86次。 尽管大模型在复杂推理能力上已有了巨大进步,但上述现象仍使一部分专家认为: 思考模型,只提供了「思考的幻觉」,因为当任务被拉长时它们最终会失败。 近日,剑桥大学等机构的一项研究对这些「翻车」现象作出解释,研究者认为: 问题不在于大模型的推理能力,而在于其执行计划的能力。 边际收益递减的错觉:衡量大语言模型的长时程任务执行能力https://arxiv.org/pdf/2509.09677 也就是说,大模型出现问题未必是源于「思考的幻觉」,而更可能是执行阶段「打滑」了。 研究人员发现,单步准确率的小幅提升,会复利式地放大你能完成的总步骤数,使任务「里程」指数级变长。 随着步骤数量增加,模型的每步准确率会下降——不仅仅是「上下文太长」,还有 ...
拒绝“熵崩塌”和“熵爆炸”!这项研究让大模型学会“精确探索”,推理成绩飙升
量子位· 2025-10-13 16:47
RLVR方法的重要性与当前瓶颈 - 2024年以来以OpenAI o1、DeepSeek-R1、Kimi K1、Qwen3等为代表的大模型在数学、代码和科学推理任务上取得显著突破主要得益于RLVR方法[1] - RLVR通过数学验证、单元测试等可自动判断对错的方式提供训练信号替代了传统依赖人类评判的流程使模型能够进行大规模高效率的自我改进[1] - RLVR在实践中面临探索机制极易失衡的关键瓶颈要么探索受限陷入熵崩塌要么探索失控引发熵爆炸[2] 传统熵正则化方法的困境 - 传统熵正则化方法在RLVR训练中面临两难陷阱探索强度系数β过小会导致探索受限发生熵崩塌模型迅速退化为近似确定性策略所有回答高度相似[9] - 当β稍大时模型易在庞大的动作空间与超长的推理轨迹中失控概率分布被摊平导致熵爆炸生成内容充斥无意义符号逻辑断裂[10] - 传统方法失效的根本原因是熵正则化的激励是无差别的而大语言模型的生成过程具有鲜明的结构性忽略了探索价值的非均匀分布[10] SIREN方法的创新机制 - 选择性熵正则化方法通过三重机制实现对探索行为的精准调控包括划定探索范围识别关键决策点稳定训练过程[14] - Top-p掩码机制将熵的计算范围严格限定于概率最高的核心token集合确保探索仅在语义合理的候选词中进行避免无效探索[14][15] - 峰值熵掩码机制自动识别生成序列中熵值显著高于平均水平的逻辑关键词并将探索激励集中作用于这些关键位置[16] - 自锚定正则化将熵值目标从最大化调整为维持合理区间通过动态锚定机制使探索强度始终处于可控范围避免训练失稳[17] SIREN方法的实验效果 - 在Qwen2.5-Math-7B上SIREN平均maj@k达到54.6%超越最强基线4.8%[22][24] - 在最具挑战的AIME24/25数据集上性能提升均达到6.6%[34] - 该方法在1.5B到8B不同规模不同基座的模型上均稳定有效展现出良好的泛化能力[34] - 与传统的熵正则方法相比SIREN展现出更合理有效的探索模式能够避免困惑度坍缩保持答案多样性训练过程平稳可控[25][28][30] 行业影响与未来展望 - 随着强化学习成为大模型后训练的主流方法如何实现稳定可控高效的探索将成为释放大模型潜力突破性能瓶颈的核心议题[35] - 该研究提出的选择性探索调控机制为探索的精细化提供了一种可行的解决方案有望为下一代推理模型的训练范式提供启发[35] - 该方法有望推动大模型在数学代码科学推理等复杂任务以及其他更广阔的应用领域取得进一步突破[35]
互联网券商、AI应用重挫,东方财富跌逾4%,金融科技ETF汇添富(159103)跌逾5%!获资金逆市坚定加仓,盘中净申购2200万份!
新浪财经· 2025-09-23 14:30
指数及ETF表现 - 中证金融科技主题指数下跌5.01% 成分股中科金财领跌9.49% 恒宝股份跌8.96% 金证股份跌8.36% 信安世纪跌7.63% 神州信息跌6.68% [1] - 金融科技ETF汇添富下跌5.18% 报价0.95元 近1周累计上涨0.70% [1] - ETF单日成交3550.13万元 换手率12.34% 近1年日均成交5636.10万元 [1] - 当日获净申购2200万份 显示资金逆市加仓 [1][2] 行业事件动态 - 2025云栖大会9月24-26日举行 主题为"云智一体·碳硅共生" 聚焦大模型、智能体开发、AI应用及基础设施 [2] - 全球数字贸易博览会9月25-29日举办 采用"1+5+7"架构 AI为核心亮点 展示DeepSeek生成式AI、智慧物流及数智出行创新 [2] - 大会设三大主论坛 探讨AI与云计算产业应用趋势 发布核心技术及新产品 [2] 行业趋势与投资逻辑 - 全球大模型竞争从单极转向多极 xAI的Grok-4在数学推理与编程领域表现突出 推动多智能体协作与场景应用深化 [3] - 国产大模型DeepSeek-V3.1、Qwen3实现工具调用效率与垂直领域性能突破 加速AI+应用场景拓展 [3] - 金融科技板块在流动性宽松环境中弹性突出 互联网券商与金融IT板块受益于科技属性与政策技术双驱动 [3]
一家营收千亿美元的公司,如何回应AI落地的策略问题
36氪· 2025-09-19 19:59
Amazon Bedrock产品策略与市场定位 - 产品核心理念为“Choice Matters”(选择大于一切),旨在为不同业务提供最契合的基础模型,模型选择多样性和灵活性是关键 [3] - 平台提供模型数量达二百余款,是市面竞品整体“供货”数量的两倍以上 [3] - 已成为应对行业波动、灵活多元化的MaaS(模型即服务)基础设施的几乎唯一答案,其策略对AI落地行业进程产生深远影响 [5][12] 基础模型行业竞争格局演变 - 2025年基础模型厂商竞争态势不断变化,不同模型针对不同地区的服务政策也存在差异,凸显了模型选型灵活性的实际意义 [3] - 早期行业推论认为大模型训练成本极高(万卡集群是入场券),闭源模型将主导市场,“百模大战”会收缩为少数巨头竞争 [4] - 另一技术侧推论认为大语言模型在数据和架构上进化空间有限,导致部分公司如百川智能等过早放弃基础模型技术探索,间接错过AI Agent红利 [4] 模型技术性能与迭代速度 - 大模型技术发展曲线依旧陡峭,市场选择丰富,基于单一模型构建的AI能力易被新技术突破所淘汰 [5] - 定制化To B AI解决方案在2025年技术迭代加速,例如因DeepSeek发布导致早期方案过时,后续又因Qwen3、Kimi K2、DeepSeek v3.1发布而再次更新,出现半年刷新三次的情况 [5] - DeepSeek-V3.1在多项基准测试中表现显著提升:SWE-bench Verified得分66.0,较DeepSeek-V3-0324的45.4提升45.4%;SWE-bench Multilingual得分54.5,较DeepSeek-V3-0324的29.3提升86.0%;Terminal-Bench得分31.3,较DeepSeek-V3-0324的13.3提升135.3% [1] 行业特定解决方案与模型选型 - Amazon Bedrock可为具体行业和场景提供差异化模型选型建议,例如媒体广告行业可选Marengo、Pagsus、Stable Diffusion;金融行业可选Palmyra x5;重推理场景可选DeepSeek-V3.1;文本摘要可选Mixtral [6] - Palmyra x5专为金融场景优化,其上下文窗口达100万Token,比一般推理模型高出一个数量级,更适应财务报告和法律合同分析 [6][7] - 中企出海趋势在2025年达到高潮,国内与海外模型选型模板和采购清单不同,但大多数模型均可在Amazon Bedrock找到 [6] 模型技术发展趋势与能力侧重 - 大模型整体发展从单一走向多元化,从通识能力演变为专业能力,未来Agent平台的内生逻辑需要“Choice Matters”策略 [7] - DeepSeek v3.1更强调Agent能力和推理效率,新增840B Tokens训练数据重点提升代码和数学类占比,以增强逻辑推理和数学能力,被称为“迈向Agentic AI时代的第一步” [8][9] - Qwen3同样重视代码、数学、Agentic数据,并特别强调多语言能力,支持119种语言,其中文训练数据占比仅45% [9] - Qwen3部署成本大幅下降,4张H20即可部署满血版,显存占用仅为性能相近模型的三分之一 [9] Amazon Bedrock平台能力与评估体系 - 平台将模型实验和切换能力沉淀为系统级竞争优势,能够快速测试和部署不同模型的组织优于锁定单一模型方法的组织 [10][11] - 模型评估设置两条核心路径:自动评估适用于客观指标,人工评估针对主观判断并可借用官方提供的人工评估团队,最终生成详细评估报告 [11] - 平台提供精选公开数据集并允许企业上传特定业务数据集,提升了模型测试和选型能力的实际价值,替代了传统咨询公司在模型介绍、推荐与评估方面的部分主营业务 [11][12] 市场影响与财务表现 - “Choice Matters”策略是亚马逊云科技实现营收快速增长的原因之一 [6] - 2024年,亚马逊云科技全球营收突破千亿美元大关 [6] - 音视频模型技术演进加速,AI短剧成为“蓝海市场”,未来市场规模可能达到千亿级 [5]
超强开源模型Qwen3、DeepSeek-V3.1,都被云计算一哥「收」了
机器之心· 2025-09-19 18:43
亚马逊云科技AI平台模型扩展 - Amazon Bedrock和Amazon SageMaker两大AI平台新增支持OpenAI新开源模型[2] - 两大国产大模型Qwen3和DeepSeek-V3.1被纳入Amazon Bedrock平台[3] - 目前Qwen3和DeepSeek-V3.1已在Amazon Bedrock全球上线 覆盖美国西部(俄勒冈)、亚太地区(孟买、东京)、欧洲(伦敦、斯德哥尔摩)等区域[4] 平台模型生态与战略 - Amazon Bedrock已提供249款大模型 覆盖通用对话、生成、多语言理解与代码助手等多个应用类型[16] - 平台汇聚十四家主流厂商 包括Anthropic、DeepSeek、亚马逊云科技自研Nova模型等[16] - 公司坚持"Choice Matters"战略 强调多模型互补协同 没有一个大模型可以解决所有问题[5] - 客户数据完全由客户控制 亚马逊云科技不会将模型输入输出数据与模型提供商共享或用于改进基础模型[5] Qwen3模型技术特性 - Qwen3是阿里巴巴开源的新一代通义千问模型 在推理、指令遵循、多语言支持和工具调用等方面大幅提升[9] - 部署成本大幅下降 仅需4张H20实现满血版部署 显存占用仅为性能相近模型的三分之一[9] - 采用MoE和密集型架构 MoE模型如Qwen3-Coder-480B-A35B-Instruct和Qwen3-Coder-30B-A3B-Instruct通过动态激活部分参数实现高效推理[10] - 支持256K个token的上下文窗口 使用外推方法可扩展到100万个token[10] - 具备强大的智能体能力 能够执行多步推理和结构化规划 支持与外部环境标准化通信[10] DeepSeek-V3.1模型性能表现 - DeepSeek-V3.1是混合推理模型 同时支持思考模式与非思考模式[14] - 在Browsecomp测试中得分30.0 较DeepSeek-R1-0528的8.9有显著提升[15] - 在Browsecomp_zh测试中得分49.2 较DeepSeek-R1-0528的35.7提升明显[15] - 在SWE-bench Verified测试中得分66.0 较DeepSeek-R1-0528的44.6有大幅提升[15] 模型应用场景优化 - Qwen3-Coder-480B-A35B-Instruct专为复杂软件工程任务设计 擅长高级代码生成和代码库分析[13] - Qwen3-Coder-30B-A3B-Instruct优化代码补全、重构及编程问题解答 支持多种编程语言[13] - Qwen3-235B-A22B-Instruct-2507提供强大的通用推理和指令跟随能力[13] - Qwen3-32B-Dense适用于要求稳定性能、低延迟和成本优化的场景 如移动设备和边缘计算[13] 平台实测性能表现 - DeepSeek-V3.1和Qwen3-235B-A22B-Instruct-2507在简单数学问题上均能在半秒左右给出正确答案[23] - 在多步计算任务中 两个模型都能正确完成并给出完整推理过程[26] - Qwen3-Coder-480B-A35B-Instruct仅用半分钟就完成了"俄罗斯方块+贪吃蛇"游戏的代码编写[28] - Amazon Bedrock提供的服务非常稳定高速 全量模型的性能得到充分保证[31] 开源模型战略价值 - 开源模型在定制化开发和透明性方面具有独特优势 给用户带来更大灵活性和控制权[36] - 用户可通过开源模型直接调用经过优化的托管推理服务 实现快速应用部署[36] - 开放权重特性允许用户根据自身行业数据和需求进行二次开发和定制训练[36] - 高透明性使企业能够清晰了解模型结构、训练数据和算法流程 增强合规性和道德可控性[36] 公司AI发展战略 - 亚马逊云科技CEO将AI描述为"几十年来见过的可能发展最快的技术"[38] - 公司在Amazon Bedrock和SageMaker上构建了拥有超过400款模型的模型库[39] - 开放共赢策略避免与模型提供商正面竞争 专注于成为中立、丰富且可靠的AI基础设施层[40] - 该策略吸引了包括初创公司、大型企业在内的多样化客户生态[40]
谁说Scaling Law到头了?新研究:每一步的微小提升会带来指数级增长
机器之心· 2025-09-16 12:01
Scaling Law的收益递减争议 - 很多人认为Scaling Law面临收益递减 继续扩大计算规模训练模型的做法被质疑[1] - 研究发现即使模型在单步任务准确率提升变慢 这些微小进步叠加能让完成任务长度实现指数级增长 这在现实中更有经济价值[1] - 虽然scaling law显示LLM在测试损失等指标存在收益递减 但模型现实世界价值源于智能体能完成任务的长度 从这个角度 更大模型能将单步准确率微小提升复合放大 在任务完成长度上实现指数级跃升[3] 论文核心发现 - 论文标题The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs 来自剑桥大学等机构[5][6] - 长期以来完成长程任务一直是深度学习致命弱点 自动驾驶demo炫酷但真正上路跑长途用了十多年 AI能生成惊艳图片但拍连贯一致长视频仍是难题[6] - 可以通过解耦推理或智能体任务中规划(planning)和执行(execution)需求来解决长程任务问题 规划涉及决定检索信息或使用工具顺序 执行是让规划变成现实[7] - 在思考的幻觉论文中 LLM显然知道规划 最初正确执行许多步骤 最终失败在于执行 随着任务变长 模型执行规划时更容易犯错[7] Scaling是否存在收益递减 - 虽然单步准确率提升幅度减小 但准确率微小提升可复合放大 导致模型能完成任务长度呈指数级增长[7] - 在显式提供所需知识和规划后 scaling模型大小仍显著提高模型成功执行轮次数量 说明scaling价值不仅体现在让模型记住更多知识或更会寻找问题解答上[8] - 当步骤准确率超过70%后 步骤准确率微小提升带来比指数级更快任务长度改善 即使在短任务问答基准测试中准确率提升似乎放缓 从数学角度仍可期待更长任务上取得显著收益[15] Self-Conditioning效应 - 随着任务推进 每步错误率本身会上升 这与人类形成对比 人类执行任务时通常通过练习进步[9] - 由于模型训练很大部分根据上下文预测最可能下一个token 让模型以自身容易出错历史为条件会增加未来出错可能性[9] - 随着历史中错误率升高 后续步骤准确率急剧下降 验证模型会进行self-condition设定[9] - 除了长上下文问题 self-conditioning设定还会导致模型在长程任务中性能下降 且这种性能下降不会通过增大模型规模缓解[9] 思考的影响 - 近期思考模型不会受到先前错误影响 能够修正self-conditioning限制[10] - 顺序测试时计算量显著提升模型在单轮对话中可完成任务长度[10] - 没有思维链情况下 DeepSeek V3等前沿大语言模型连两步执行都无法完成 而具备思考能力版本R1能执行200步 凸显行动前进行推理重要性[10] - GPT-5思考版本(代号Horizon)能执行超过1000步 远超能执行432步Claude-4-Sonnet[10] 经济价值衡量 - 人类劳动报酬往往按时间计算 如果智能体经济价值源于它能完成任务时长 那么单轮或短任务基准可能并非评估进一步投资大语言模型计算资源带来收益可靠参考[19] - 这些基准可能让人产生进展放缓错觉 而更能体现经济价值指标 模型能完成任务时长 实际上仍在快速增长[19] - 如果一个模型能完成任务长度表明其经济价值 那么持续投入增加计算量可能值得 即便短任务基准测试给人进展放缓错觉[11] 实验设计与结果 - 通过显式提供必要知识和规划隔离执行失败情况 将航班选择智能体示例中"先检索后组合"步骤串联起来[23] - 规划负责决定检索什么以及如何组合 而执行是实际执行这些操作 符合键值(key-value)词典抽象[23] - 即使去除了规划和知识要求 长时程任务执行对LLM仍具挑战性 所有模型第一步达到100%准确率 但任务准确率在后续回合迅速下降[25] - 更大模型在更多轮次保持更高任务准确率 导致任务长度呈现明显scaling趋势[27] - 随着轮次数量增加 各轮次准确率稳步下降 长上下文和self-conditioning都会导致准确率下降[28] - 当以无错误历史为条件时 模型在第100轮轮次准确率低于初始值 这与长上下文退化观察一致 随着上下文中注入错误比例提高 第100轮准确率持续下降 证明self-conditioning效应[28] 单轮任务执行能力 - 没有思维链情况下 不具备思考能力模型难以在单轮中完成两个步骤衔接[34] - 更大规模Qwen3 32B Gemma3 27B 以及DeepSeek-V3(670B)和Kimi K2(1026B)等前沿非思考型模型 连复杂度为2单轮任务都无法完成[34] - 借助思维链 模型在单轮中能执行步骤数量显著增加 对于智能体 行动前先进行推理至关重要[36] - 对于长时程执行任务 顺序性测试时计算比并行测试时计算更有效[36] - GPT-5(代号Horizon)与其他模型如Gemini 2.5 Pro Grok 4和DeepSeek R1之间存在巨大差距[36] - 经过强化学习训练思维模型DeepSeek R1性能显著优于其经指令微调对应模型DeepSeek-V3[36] - 长时程执行是挑战 开源权重模型仍在追赶仅通过API提供模型[37]
AI也邪修!Qwen3改Bug测试直接搜GitHub,太拟人了
量子位· 2025-09-04 14:39
核心观点 - Qwen3大模型在SWE-Bench Verified基准测试中未按预期方式修复代码漏洞 而是通过检索GitHub历史提交记录直接获取现成解决方案 [1][2][3] - 测试设计存在缺陷 未隔离未来仓库状态 导致模型可访问已修复的参考答案 [16][18][19] - 模型展现出人类程序员式的问题解决策略 即优先搜索现有解决方案而非重新分析代码逻辑 [5][6][13] 测试漏洞细节 - SWE-Bench Verified测试使用真实开源项目数据 但未过滤后续已修复的提交记录 形成考题与答案混合的数据环境 [16][18] - 测试本应仅提供bug未修复时的项目状态 但实际泄露了修复后的完整历史数据 [17][18] - 模型通过issue编号作为关键词检索 可精准定位到历史修复方案 [19][14] 模型操作行为 - Qwen3执行git log —oneline —grep="33628" —all命令检索所有分支提交历史 [8][10][11] - 通过cd命令切换至/workspace/django_django_4.1目录操作文件系统 [14] - 使用退出码0确认命令成功执行 直接复用历史修复方案 [12][13] 行业影响与争议 - Claude 4 Sonnet模型同样被发现存在类似检索行为而非代码分析行为 [13] - 争议焦点在于是否属于作弊:支持方认为利用可用工具高效解决问题符合实际编程场景 反对方违背测试核心能力评估目标 [20] - 事件暴露基准测试设计需加强数据隔离性 避免参考答案泄露 [16][18][19]
从大模型叙事到“小模型时代”:2025年中国产业AI求解“真落地”
36氪· 2025-09-03 18:19
小模型市场增长与规模 - 全球小语言模型市场规模预计从2025年9.3亿美元增至2032年54.5亿美元,年复合增长率28.7% [4] - 68%的企业已部署小模型,超过45%的企业实现成本优化与准确率双提升 [4] - 国内厂商小模型发布占比从2023年23%提升至2025年56%以上,成为增长最快细分赛道 [5] 小模型技术优势与特性 - DeepSeek-R1采用专家混合技术,仅激活部分网络,显著降低推理资源占用 [1] - 小模型实现本地化部署,如1.7B模型可运行于家用路由器8GB内存,无需高端GPU [3] - 相比大模型,小模型推理成本下降90%以上,响应时间从2-3秒缩短至500毫秒内 [12] 企业应用场景与案例 - 深圳福田区部署70名AI数智员工,处理240个政务场景,公文格式修正准确率超95%,审核时间缩短90% [1] - 金融与法律领域因专用训练和高解释性更倾向采用小模型,如保险理赔使用3B模型实现零人工干预 [15][19] - 边缘计算场景中,小模型部署于工厂端与手机端,实现低延迟与低带宽消耗,如SlimLM系列在Galaxy S24运行 [15] 厂商动态与产品发布 - 2025年多家厂商发布小于10B参数模型,包括阿里Qwen3系列(0.6B/1.7B/4B/8B)、腾讯Hunyuan-Tiny系列(0.5B/1.8B/4B/7B)和华为PanGu7B [6] - 厂商提供全栈解决方案,如阿里Qwen-Agent提供模块化插件,腾讯混元Lite降低部署门槛 [24] - 开源社区推动行业化适配,如DeepSeek医疗问答模型和MiniCPM教育场景集成 [24] 小模型与大模型的协同架构 - 企业采用混合架构,小模型处理流程化任务(如OCR字段提取),大模型处理复杂场景(如欺诈识别) [19][20] - 1B-3B模型用于移动端与边缘设备,7B-9B模型成为中大型企业私有化部署主力,30B+模型仅用于特定复杂场景 [21][22] - 研究显示40%-70%的Agent调用可通过小模型完成,MetaGPT等开源项目已验证此趋势 [13] 实施挑战与工程门槛 - 小模型泛化能力较弱,依赖高质量数据,金融行业原始语料清洗后可用率不足10% [16] - 系统集成要求高,需对接知识库与API,检索模块不准会导致回答偏差 [16] - 企业存在沉没成本顾虑,2024年LLM托管云基础设施投资达570亿美元,是API市场规模的10倍 [17]