Seek .(SKLTY)

搜索文档
阿里开源千问3模型 成本仅需DeepSeek-R1三分之一
21世纪经济报道· 2025-04-29 08:24
阿里通义已开源200余个模型,全球下载量超3亿次,千问衍生模型数超10万个。 4月29日凌晨,阿里巴巴开源新一代通义千问模型Qwen3(简称千问3),参数量仅为DeepSeek-R1的1/3,成本大幅下降,性能 全面超越R1、OpenAI-o1等全球顶尖模型。 千问3是国内首个"混合推理模型","快思考"与"慢思考"集成进同一个模型,对简单需求可低算力"秒回"答案,对复杂问题可多 步骤"深度思考",大大节省算力消耗。 据了解,千问3采用混合专家(MoE)架构,总参数量235B,激活仅需22B。千问3预训练数据量达36T ,并在后训练阶段多轮 强化学习,将非思考模式无缝整合到思考模型中。 同时,所有千问3模型都是混合推理模型,API可按需设置"思考预算"(即预期最大深度思考的tokens数量),进行不同程度的思 考,灵活满足AI应用和不同场景对性能和成本的多样需求。 比如,4B模型是手机端的绝佳尺寸;8B可在电脑和汽车端侧丝滑部署应用;32B最受企业大规模部署欢迎,有条件的开发者也 可轻松上手。 千问3为即将到来的智能体Agent和大模型应用爆发提供了更好的支持。 在评估模型Agent能力的BFCL评测中,千问 ...
超越DeepSeek?巨头们不敢说的技术暗战
36氪· 2025-04-29 08:15
无可置疑的,DeepSeek-R1模型的面世使中国AI技术发展有了极大的优势侧,也标志着人工智能领域的 里程碑式突破。 不过,技术创新往往伴随应用成本的转移。约65%的早期采用者反馈,在实际部署中需要投入大量开发 资源进行适配优化,这在一定程度上削弱了其理论上的效率优势。 这款具有颠覆性意义的推理模型不仅在研发效率上展现出显著优势,其性能指标可与OpenAI等业界领 军企业的产品分庭抗礼,甚至基于中国的应用场景,可能还有所超越,而其所需计算资源较同类产品大 幅缩减近30%。 该模型的成功实践既印证了算法创新的无限可能,也引出了关键的技术进化命题,即当未来算法突破与 传统计算架构出现适配瓶颈时,行业将面临怎样的转变挑战? 当前主流大模型(如GPT-4、Gemini Pro、Llama3等)正以每月迭代2-3次的频率推进技术革新,持续刷 新性能基准。DeepSeek-R1通过独创的分布式训练框架和动态量化技术,成功将单位算力下的推理效能 提升40%,其研发轨迹为行业提供了算法与系统工程协同进化的典型案例。 而且,该团队研发的多头潜注意力机制(MLA)在实现内存占用降低50%的突破性进展时,也带来了 开发复杂度的显 ...
比DeepSeek R2先发!阿里巴巴Qwen3上新8款,登顶全球最强开源模型
钛媒体APP· 2025-04-29 07:27
Qwen3千呼万唤始出来,直接登顶全球最强开源模型。 4月29日凌晨,阿里巴巴开源新一代通义千问模型Qwen3(简称千问3),旗舰模型Qwen3-235B-A22B参 数量仅为DeepSeek-R1的1/3,总参数量235B,激活仅需22B,成本大幅下降,性能全面超越R1、 OpenAI-o1等全球顶尖模型,登顶全球最强开源模型。 | | Qwen3-235B-A228 | Qwen3-32B | OpenAl-o1 | Deepseek R1 | Grok 3 Beta | Gemini2.5-Pro | OpenAl-o3-mini | | --- | --- | --- | --- | --- | --- | --- | --- | | | Mil | Deces | 2024.12.17 | | Think | | Median | | ArenaHard | 95.6 | 93.8 | 92.1 | 93.2 | . | 96.4 | 89.0 | | AIME'24 | 85.7 | 81.4 | 74.3 | 79.8 | 83.9 | 92.0 | 79.6 | | AIME'25 | 81. ...
阿里Qwen3深夜开源,8款模型、集成MCP,性能超DeepSeek-R1,2小时狂揽16.9k星
36氪· 2025-04-29 07:23
文章核心观点 阿里云开源Qwen3系列模型,该系列模型具有多种特性和优势,在性能上表现出色,未来将围绕多维度提升能力以适应AI产业发展[2][24] 模型发布情况 - 4月29日凌晨4点阿里云正式开源Qwen3系列模型,包含2个MoE模型、6个稠密模型,发布2小时在GitHub上star数超16.9k [2] - Qwen3系列模型已在Hugging Face、ModelScope和Kaggle等平台开源,均遵循Apache 2.0许可证 [7] 模型特性 - 有8种参数大小的稠密与MoE模型,分别为0.6B、1.7B、4B、8B、14B、32B、Qwen3 - 235B - A22B(2350亿总参数和220亿激活参数)、Qwen3 - 30B - A3B(300亿总参数和30亿激活参数) [4] - 引入混合思考模式,用户可切换“思考模式”“非思考模式”控制思考程度,思考模式适用于复杂问题,非思考模式适用于对响应速度敏感的问题,还能增强模型实施稳定和高效思考预算控制的能力 [4][15][16] - 推理能力提升,在数学、代码生成和常识逻辑推理方面超越QwQ(在思考模式下)和Qwen2.5 instruct models(在非思考模式下) [4] - 支持MCP(模型上下文协议),Agent能力提升,可在思考和非思考模式下实现大语言模型与外部数据源和工具的集成并完成复杂任务 [4] - 支持119种语言和方言,具备多语言理解、推理、指令跟随和生成能力 [4] 模型性能 - 旗舰模型Qwen3 - 235B - A22B在编程、数学、通用能力等基准评估中表现优于DeepSeek - R1、OpenAI o1、OpenAI o3 - mini、Grok - 3和Gemini - 2.5 - Pro等业界知名模型 [3] - 小型MoE模型Qwen3 - 30B - A3B在激活参数是QwQ - 32B的1/10的情况下实现性能反超,参数规模更小的Qwen3 - 4B模型实现了与Qwen2.5 - 72B - Instruct的性能相当 [11] - Qwen3 - 1.7B/4B/8B/14B/32B - Base的性能分别与Qwen2.5 - 3B/7B/14B/32B/72B - Base相当,在STEM、编程和推理等领域,Qwen3稠密模型的性能甚至优于参数规模更大的Qwen2.5系列模型 [13] 模型上下文长度 - 6个稠密模型中,0.6B~4B参数规模的模型上下文长度为32K,8B~32B参数规模的模型上下文长度为128K,2个MoE模型的上下文长度均为128K [8][10] 模型部署 - 建议开发者使用SGLang和vLLM等框架,本地部署的开发者使用Ollama、LMStudio、MLX、llama.cpp等工具 [9] 预训练与后训练 - 与Qwen2.5相比,Qwen3的预训练数据集大小翻了两倍,Qwen2.5在1800亿个token上预训练,Qwen3基于约3600亿个token预训练,研发人员收集多种数据并使用Qwen2.5相关模型处理数据,还生成合成数据增加数学和代码数据量 [20] - 预训练分三个阶段,第一阶段在超3000亿个token上预训练,上下文长度4K;第二阶段增加知识密集型数据比例,在额外500亿个token上预训练;第三阶段用高质量长上下文数据将上下文长度扩展到32K [21] - 后训练采取四阶段训练流程,包括思维链(CoT)冷启动、基于推理的强化学习、思维模式融合、通用强化学习,以开发既能逐步推理又能快速响应的混合模型 [21][23] 未来发展 - 未来将围绕优化模型架构和训练方法,实现扩展数据规模、增加模型大小、延长上下文长度、拓宽模态的目标,并通过环境反馈推进长期推理的强化学习 [24]
Deep Seek分析:未来5年,钱放黄金、存银行、买房哪个更划算?
搜狐财经· 2025-04-29 06:51
再来说一下买房,很多人觉得现在正是买房的好时机。主要原因有两个:一个是,各地平均房价都较2021年跌去了30%。不少人觉得现在正是抄底买房的好 时机。另一个是,从去年开始,各地取消了限购。银行降低了房贷利率,首付比例。税务部门减免了契税、增值税等,这对于需要购房家庭来说,现在是政 策鼓励买房的最佳时期。 不过,现在投资房产也并不是好时机:①虽然全国平均房价下跌了30%,但是各地房价还是存在泡沫。像上海、深圳等大城市房价和收入之比高达40,这意 味着,当地居民不吃不喝要工作40年。所以,未来房价仍有下跌的空间。 在进入到2025年之后,国际金价出现了大幅波动,前些年买了金条的人据说都赚了不少钱。与此同时,房地产市场持续低迷,数据显示,一季度百城二手住 宅价格累计下跌1.51%,3月环比下跌0.59%,同比跌幅达7.29%。而存款利率虽然年初有所反弹,但总体上仍然呈现下行的趋势。于是,就有人提出:未来5 年,钱放黄金、存银行、买房子哪个更划算呢? 先来说一下黄金,很多人看到黄金价格上涨,都认为现在投资黄金最划算。但是,黄金的价格波动太大。而决定黄金涨跌的因素有两个:美元指数,以及全 球战争情况。比如,2024年俄 ...
DeepSeek新一代大模型即将发布,推动低代码开发成主流
选股宝· 2025-04-28 23:09
据中证报报道,消息人士透露,DeepSeek公司新一代大模型DeepSeek R2即将发布,目前预期是5月 初。DeepSeek R2预计比GPT-4成本下降97%,并且是在昇腾卡上做的训练,主打全方位全产业链的自主 可控。根据爆料信息,DeepSeek-R2大模型将会采用一种更先进的混合专家模型(MoE),总参数量预 计将达到1.2万亿,较之DeepSeek-R1(6710亿参数)提升约1倍。 中证报指出,据悉,DeepSeek-R2将在多个关键领域实现突破,包括更出色的编程能力、多语言推理能 力,以及以更低的成本提供更高的准确性。 公司方面,据中证报表示, 金现代:积极拓展以"AI低代码"开发平台为核心的标准化、通用型软件产品业务,已成功开发了一系列 标准化平台类软件产品,包括轻骑兵低代码开发平台、知识图谱可视化开发平台、文档智能处理平台、 融合集成平台等。 浩云科技:持续投入低代码技术研发,其低代码开发平台"浩易搭"与AI、物联网深度融合,可为企业根 据自身业务需求定制AI智能体,赋能企业智能化、数字化转型。 *免责声明:文章内容仅供参考,不构成投资建议 *风险提示:股市有风险,入市需谨慎 专业人士表示 ...
马蜂窝AI旅行助手官宣上线,DeepSeek大模型+垂直精调模型致力打破“幻觉”
财经网· 2025-04-28 16:32
近日,马蜂窝宣布其自研的AI旅行助手"AI小蚂"正式上线。完成全面技术升级的"AI小蚂"在全量接入DeepSeek大模型的同时,还集成了马蜂窝的垂直精调模 型,以十数年积累的海量真实旅行数据为基础,结合前沿大模型技术,致力于消除AI在旅行场景中的"幻觉",让每一份推荐都"有据可依"。 马蜂窝AI旅行助手在去年就已完成开发并进入测试阶段,经历反复试用、反馈、打磨后的"AI小蚂"无论是在功能还是呈现上都有了质的飞跃。正式上线 的"AI小蚂"支持实时问答、行程线路规划、在线旅行向导、个性化推荐等功能,用户在马蜂窝APP首页搜索栏,以及目的地POI页面均可点击并使用。 值得关注的是,同期上线的还有马蜂窝深度个性化的攻略定制产品"AI路书"。不同于其它用户提交需求后即开始"思考"的AI产品,马蜂窝的"AI路书"会在需 求提交后"主动提问",通过一系列延展问题更深入、更全面的了解用户需求。利用选择题的形式帮助用户"查漏补缺",补充思路的同时完善此前未曾想到的 细节。 "提出精准需求是用户利用AI工具做出靠谱攻略的先决条件,而由于对目的地了解有限、自身需求不明确、缺少灵感等原因,很多用户并不能提出'面面俱 到'的需求,AI ...
DeepSeek-R2大模型临近发布时间窗口!科创板人工智能ETF(588930)低位上涨翻红,实时成交额突破3600万元
搜狐财经· 2025-04-28 11:19
消息面上,三个月前的春节,DeepSeek R1火爆出圈,让"东升西落"成为了随后一段时间的叙事和预 期。三个月后五一临近。DeepSeek R2临近发布此前市场预期的"5月发布"时间窗口。人工智能板块有望 迎来强烈催化剂。当前高层集体学习人工智能释放出强烈的政策升级信号,叠加DeepSeek R2等国产大 模型迭代节点临近,科技板块有望在政策与技术的双重驱动下重获资金关注。 4月28日,A股市场今日走势较稳,人工智能题材V型反弹,市场风险偏好快速提升。科创板人工智能指 数成分股中,恒玄科技、当虹科技、奥普特涨超3%,有方科技、寒武纪-U、中科星图、虹软科技、道 通科技涨超2%。科创板人工智能ETF(588930)市场热度较高,连续2个交易日获得资金净流入。 科创板人工智能ETF(588930)跟踪的科创板人工智能指数布局30只科创板人工智能龙头,覆盖AI产业 链上游算力、中游大模型云计算、下游机器人等各类创新应用,聚焦电子、计算机、机械设备、家电、 通信五大行业,前五大成分股合计权重47%,或具有较高的AI主题纯度和更高的弹性。 国元证券表示,国家高度重视人工智能产业的发展,长期成长空间广阔。尽管计算机行业 ...
宝马中国宣布接入DeepSeek,传日产计划关闭武汉工厂 | 汽车早参
每日经济新闻· 2025-04-28 06:40
每经记者 董天意 实习生 周卓孜 每经编辑 孙磊 | 2025年4月28日 星期一 | NO.1 宝马中国宣布接入DeepSeek 4月27日,继与阿里巴巴达成AI大语言模型战略合作后,宝马再度深化本土AI生态布局,宝马中国宣布 接入DeepSeek。未来,DeepSeek功能也将应用于国产宝马新世代车型。今年三季度开始,将率先应用 于多款搭载第9代(BMW)操作系统的中国在售新车,通过深度思考能力赋能以BMW智能个人助理为 中心的人机交互体验。 点评:宝马中国宣布接入DeepSeek,进一步加深了其在AI领域的本土生态布局,展现出对智能驾驶与 人机交互优化的决心。通过与阿里巴巴的合作,宝马不仅提升了产品竞争力,也为消费者提供更加强大 的智能体验。这一举措可能激发市场对高端汽车智能化趋势的关注,推动整个汽车行业在技术与用户体 验上的创新与升级。 2025年4月25日,博世商用车集团与远程新能源商用车集团签署战略合作协议,合作从单一项目升级为 全方位战略伙伴。双方将围绕醇氢电动技术等深度合作,构建醇氢电动生态体系。以博世多款产品匹配 远程多动力构型商用车平台,推进新能源及代用燃料技术规模化应用。此前双方已有技术 ...
超越DeepSeek,中国开源“集团军”重塑全球AI生态
观察者网· 2025-04-27 20:57
中国开源,正在形成集团化作战的优势。DeepSeek和阿里Qwen等基础模型撑起了中国开源 的上限,而更多的中小企业正在它们的基础上,不断推出体量更小却能力更强的垂直模型, 让今年以来中国大模型更新的速度不断加快,不断带来新的惊喜。而在美国仍以闭源为主的 背景下,中国企业拥抱开源的做法充分展现了中国的技术自信,也开辟出一条技术普惠与全 球共生的新路径,持续开拓海外市场,代表着全球AI技术从"单极霸权"转向"多极共生"。 中国开源,正形成合力 2月初,当中国开源大模型DeepSeek在全球140个国家和地区的应用市场下载排行榜同时登顶,OpenAI 却公然在媒体上指责,DeepSeek未经许可使用了ChatGPT的蒸馏数据。 这样的指责非但没能为OpenAI"挽尊",却招来全球科研从业者的"群嘲"。 如今,又一个把蒸馏buff叠满的选手出现了。 昆仑万维这份成果,充分展示了开源最重要的意义——不仅仅是让给用户提供一个免费可用的产品,更 能够让更多开发者站在前人的肩膀上,快速、低成本地推动技术继续前进。 事实上,就在去年业界还在讨论大模型预训练遭遇瓶颈的背景下,今年以来,中国大模型的迭代速度却 仍在加快,并且越来 ...