Seek . - 财报，业绩电话会，研报，新闻

通用人工智能（AGI）

超级人工智能（ASI）

阿里开源千问3模型成本仅需DeepSeek-R1三分之一

21世纪经济报道· 2025-04-29 08:24

阿里通义千问3模型发布 - 阿里开源新一代通义千问模型Qwen3，参数量235B，激活仅需22B，成本大幅下降，性能全面超越DeepSeek-R1、OpenAI-o1等全球顶尖模型 [1] - 千问3是国内首个"混合推理模型"，集成"快思考"与"慢思考"，对简单需求可低算力"秒回"答案，对复杂问题可多步骤"深度思考"，大大节省算力消耗 [1] - 千问3采用混合专家（MoE）架构，预训练数据量达36T，并在后训练阶段多轮强化学习，将非思考模式无缝整合到思考模型中 [1] 性能表现 - 千问3在AIME25测评中斩获81.5分，刷新开源纪录；在LiveCodeBench评测中突破70分，表现超过Grok3；在ArenaHard测评中以95.6分超越OpenAI-o1及DeepSeek-R1 [2] - 千问3仅需4张H20即可部署满血版，显存占用仅为性能相近模型的三分之一 [2] - 千问3在BFCL评测中创下70.8的新高，超越Gemini2.5-Pro、OpenAI-o1等顶尖模型 [5] 模型版本与部署 - 千问3提供2款30B、235B的MoE模型，以及0.6B、1.7B、4B、8B、14B、32B等6款密集模型，每款模型均斩获同尺寸开源模型最佳性能 [4] - 千问3的30B参数MoE模型实现了10倍以上的模型性能杠杆提升，仅激活3B就能媲美上代Qwen2.5-32B模型性能 [4] - 32B版本的千问3模型可跨级超越Qwen2.5-72B性能 [4] - 4B模型适合手机端，8B可在电脑和汽车端侧部署，32B最受企业大规模部署欢迎 [4] 应用支持与开源 - 千问3原生支持MCP协议，具备强大的工具调用能力，结合Qwen-Agent框架可大大降低编码复杂性 [5] - 千问3系列模型采用Apache2.0协议开源，支持119多种语言，全球开发者、研究机构和企业可免费下载并商用 [5] - 阿里通义已开源200余个模型，全球下载量超3亿次，千问衍生模型数超10万个，已超越美国Llama [6] - 个人用户可通过通义APP体验千问3，夸克即将全线接入千问3 [6]

混合推理模型

混合推理模型

超越DeepSeek？巨头们不敢说的技术暗战

36氪· 2025-04-29 08:15

DeepSeek-R1模型技术突破 - 模型性能指标与OpenAI等领军企业产品相当甚至超越计算资源需求较同类减少30% [1] - 独创分布式训练框架和动态量化技术使单位算力推理效能提升40% [1] - 多头潜注意力机制(MLA)实现内存占用降低50% 但开发复杂度显著增加 [2] MLA技术创新与挑战 - 键值矩阵存储密度提升18-23倍 4096 tokens上下文窗口内存占用量从96GB降至7.2GB(降幅92.5%) [4][5] - 非英伟达GPU部署需手动实现37%算子级优化工程周期平均延长2.8周 [5] - RISC-V架构处理器运行MLA时推理延迟激增300% [6] 全球AI算力发展格局 - 全球AI算力支出占比从2016年9%升至2022年18% 预计2025年达25% [9] - 2022年全球智能算力规模451EFlops首次超越基础算力(440EFlops) 同比增速94.4% [10] - GPT-4单次训练消耗超2.5万块A100 GPU 相当于1200个美国家庭年用电量 [10] 算力市场竞争态势 - 美国科技巨头2023年AI算力投入占资本开支超60% 中国2022年AI算力支出增速38% [11] - 中美欧形成三足鼎立格局(美34% 中33% 欧17%) 竞争转向生态控制 [12] - 中国国产AI芯片良率仅达国际水平60% 先进制程代工依赖构成隐忧 [13] 新一代计算基础设施需求 - 需实现即插即用式替换开发者仅需最小化修改即可部署各类系统 [15] - 要求自适应实时性能优化硬件能动态调整资源配置维持峰值利用率 [16] - 必须突破传统架构桎梏构建多层次算力矩阵应对指数级增长需求 [18] 中国算力产业发展 - 2024年全国算力总规模突破280EFLOPS 智能算力占比超30% [18] - 2025年中国智能算力预计突破千亿EFLOPS 2026年实现两年翻番 [19] - 推理算力年复合增速将达训练算力四倍推动形成三位一体算力生态 [20]

High - Performance Computing

High - Performance Computing

比DeepSeek R2先发！阿里巴巴Qwen3上新8款，登顶全球最强开源模型

钛媒体APP· 2025-04-29 07:27

Qwen3千呼万唤始出来，直接登顶全球最强开源模型。 4月29日凌晨，阿里巴巴开源新一代通义千问模型Qwen3（简称千问3），旗舰模型Qwen3-235B-A22B参数量仅为DeepSeek-R1的1/3，总参数量235B，激活仅需22B，成本大幅下降，性能全面超越R1、 OpenAI-o1等全球顶尖模型，登顶全球最强开源模型。 | | Qwen3-235B-A228 | Qwen3-32B | OpenAl-o1 | Deepseek R1 | Grok 3 Beta | Gemini2.5-Pro | OpenAl-o3-mini | | --- | --- | --- | --- | --- | --- | --- | --- | | | Mil | Deces | 2024.12.17 | | Think | | Median | | ArenaHard | 95.6 | 93.8 | 92.1 | 93.2 | . | 96.4 | 89.0 | | AIME'24 | 85.7 | 81.4 | 74.3 | 79.8 | 83.9 | 92.0 | 79.6 | | AIME'25 | 81. ...

通义千问模型Qwen3

阿里Qwen3深夜开源，8款模型、集成MCP，性能超DeepSeek-R1，2小时狂揽16.9k星

通义千问模型Qwen3

36氪· 2025-04-29 07:23

文章核心观点阿里云开源Qwen3系列模型，该系列模型具有多种特性和优势，在性能上表现出色，未来将围绕多维度提升能力以适应AI产业发展[2][24] 模型发布情况 - 4月29日凌晨4点阿里云正式开源Qwen3系列模型，包含2个MoE模型、6个稠密模型，发布2小时在GitHub上star数超16.9k [2] - Qwen3系列模型已在Hugging Face、ModelScope和Kaggle等平台开源，均遵循Apache 2.0许可证 [7] 模型特性 - 有8种参数大小的稠密与MoE模型，分别为0.6B、1.7B、4B、8B、14B、32B、Qwen3 - 235B - A22B（2350亿总参数和220亿激活参数）、Qwen3 - 30B - A3B（300亿总参数和30亿激活参数） [4] - 引入混合思考模式，用户可切换“思考模式”“非思考模式”控制思考程度，思考模式适用于复杂问题，非思考模式适用于对响应速度敏感的问题，还能增强模型实施稳定和高效思考预算控制的能力 [4][15][16] - 推理能力提升，在数学、代码生成和常识逻辑推理方面超越QwQ（在思考模式下）和Qwen2.5 instruct models（在非思考模式下） [4] - 支持MCP（模型上下文协议），Agent能力提升，可在思考和非思考模式下实现大语言模型与外部数据源和工具的集成并完成复杂任务 [4] - 支持119种语言和方言，具备多语言理解、推理、指令跟随和生成能力 [4] 模型性能 - 旗舰模型Qwen3 - 235B - A22B在编程、数学、通用能力等基准评估中表现优于DeepSeek - R1、OpenAI o1、OpenAI o3 - mini、Grok - 3和Gemini - 2.5 - Pro等业界知名模型 [3] - 小型MoE模型Qwen3 - 30B - A3B在激活参数是QwQ - 32B的1/10的情况下实现性能反超，参数规模更小的Qwen3 - 4B模型实现了与Qwen2.5 - 72B - Instruct的性能相当 [11] - Qwen3 - 1.7B/4B/8B/14B/32B - Base的性能分别与Qwen2.5 - 3B/7B/14B/32B/72B - Base相当，在STEM、编程和推理等领域，Qwen3稠密模型的性能甚至优于参数规模更大的Qwen2.5系列模型 [13] 模型上下文长度 - 6个稠密模型中，0.6B～4B参数规模的模型上下文长度为32K，8B～32B参数规模的模型上下文长度为128K，2个MoE模型的上下文长度均为128K [8][10] 模型部署 - 建议开发者使用SGLang和vLLM等框架，本地部署的开发者使用Ollama、LMStudio、MLX、llama.cpp等工具 [9] 预训练与后训练 - 与Qwen2.5相比，Qwen3的预训练数据集大小翻了两倍，Qwen2.5在1800亿个token上预训练，Qwen3基于约3600亿个token预训练，研发人员收集多种数据并使用Qwen2.5相关模型处理数据，还生成合成数据增加数学和代码数据量 [20] - 预训练分三个阶段，第一阶段在超3000亿个token上预训练，上下文长度4K；第二阶段增加知识密集型数据比例，在额外500亿个token上预训练；第三阶段用高质量长上下文数据将上下文长度扩展到32K [21] - 后训练采取四阶段训练流程，包括思维链（CoT）冷启动、基于推理的强化学习、思维模式融合、通用强化学习，以开发既能逐步推理又能快速响应的混合模型 [21][23] 未来发展 - 未来将围绕优化模型架构和训练方法，实现扩展数据规模、增加模型大小、延长上下文长度、拓宽模态的目标，并通过环境反馈推进长期推理的强化学习 [24]

Deep Seek分析：未来5年，钱放黄金、存银行、买房哪个更划算？

搜狐财经· 2025-04-29 06:51

黄金投资分析 - 国际金价在2025年后出现大幅波动前些年购买金条的投资者获得较高收益 [1] - 黄金价格波动主要受美元指数和全球战争局势影响例如2024年俄乌战争升级导致金价两周暴涨12% 而中东局势缓和使金价回调5% [3] - 实物黄金存在流动性问题银行基本不回收金条金店回收价格仅为市值的60%（150万金条仅回收90万） [3] 房地产市场分析 - 2025年一季度百城二手住宅价格累计下跌1.51% 3月环比下跌0.59% 同比跌幅达7.29% [1] - 全国平均房价较2021年峰值下跌30% 但部分城市如上海深圳房价收入比仍高达40倍 [5] - 政策面出现宽松信号包括限购取消房贷利率下调首付比例降低契税增值税减免 [5] - 投资性购房需求骤降主要由于居民收入下降和楼市赚钱效应消失 [7] 银行存款分析 - 2024年起国有银行连续下调存款利率存款收益持续减少 [7] - 存款面临购买力贬值问题但相比黄金和房产投资风险更低 [7] 资产配置建议 - 多元化资产配置方案建议将资金分为三部分：40%无风险资产（国债/大额存单） 40%低风险资产（结构性存款/债券基金） 20%中等风险资产（混合基金/分红银行股） [9] - 以120万资金为例可配置40万固定收益品种 40万R2级以下理财产品 40万股债混合基金 [9]

Seek .(US:SKLTY)

Diversified Asset Allocation

Diversified Asset Allocation

DeepSeek新一代大模型即将发布，推动低代码开发成主流

选股宝· 2025-04-28 23:09

DeepSeek R2大模型技术突破 - DeepSeek公司新一代大模型DeepSeek R2预计5月初发布，采用昇腾卡训练，实现全产业链自主可控 [1] - DeepSeek R2成本比GPT-4下降97%，采用混合专家模型（MoE），总参数量达1.2万亿，较上一代DeepSeek-R1（6710亿参数）提升约1倍 [1] - 模型在编程能力、多语言推理能力和成本效益方面实现突破，将推动低代码开发快速发展 [1] 低代码开发行业前景 - 权威预测未来五年内全球70%企业应用将基于低代码开发，AI和机器学习将深度融入低代码平台，增强智能推荐、代码自动生成等功能 [1] - 技术融合或推动低代码平台成为主流开发模式，加速亿级新应用生态构建 [1] 相关公司布局 - 金现代积极拓展AI低代码开发平台业务，已开发轻骑兵低代码开发平台、知识图谱可视化开发平台等标准化产品 [2] - 浩云科技持续投入低代码技术研发，其"浩易搭"平台与AI、物联网深度融合，可为企业定制AI智能体 [2]

马蜂窝AI旅行助手官宣上线，DeepSeek大模型+垂直精调模型致力打破“幻觉”

财经网· 2025-04-28 16:32

马蜂窝AI旅行助手上线 - 公司正式上线自研AI旅行助手"AI小蚂"，该产品全量接入DeepSeek大模型并集成公司垂直精调模型，以十数年积累的海量真实旅行数据为基础消除AI在旅行场景中的"幻觉"[1] - "AI小蚂"支持实时问答、行程线路规划、在线旅行向导、个性化推荐等功能，用户可在APP首页搜索栏及目的地POI页面使用[1] - 产品经历反复试用、反馈、打磨阶段，在功能和呈现上实现质的飞跃[1] AI路书产品特点 - 同期上线深度个性化攻略定制产品"AI路书"，采用主动提问机制通过选择题形式帮助用户完善需求细节[3] - 产品设计包含需求确认环节，用户可手动添加选项并调整AI整理的需求，确保定制流程专业周全[3] - 功能可生成包含行程、住宿、交通等8大要素的整体方案，支持目录跳转查看，目前以每日限量内测码形式开放测试[5] 技术架构与数据优势 - 平台构建旅游行业最完整"知识图谱"，覆盖全球6万多个目的地和6300万POI数据库[7] - 采用双模型架构：DeepSeek大模型负责生成推荐，垂直精调模型通过攻略游记数据库进行交叉验证[7] - 动态地图功能可显示路线长度、景点间距等实用信息，并关联用户真实内容分享避免"照骗"[7] 用户行为洞察 - 新疆旅行用户平均浏览时长62.5分钟，澳大利亚旅行用户达90.4分钟[7] - AI助手将传统跨平台检索的"功课时间"缩短至几分钟[7] - 产品设计针对自由行用户路线衔接不合理、景点与宣传落差大等痛点[7] 产品发展理念 - 坚持通过AI技术提升旅行体验而非炫技，将持续迭代更新[9] - 通过用户搜索、提问等交互数据洞察需求，保持技术前沿性与服务可靠性[9]

DeepSeek-R2大模型临近发布时间窗口！科创板人工智能ETF（588930）低位上涨翻红，实时成交额突破3600万元

搜狐财经· 2025-04-28 11:19

市场动态与催化剂 - 人工智能板块有望迎来强烈催化剂，主要驱动因素包括DeepSeek R2临近此前市场预期的5月发布窗口，以及高层集体学习人工智能释放出的强烈政策升级信号 [1] - 当前市场风险偏好快速提升，人工智能题材在4月28日出现V型反弹 [1] - 科创板人工智能指数成分股表现活跃，恒玄科技、当虹科技、奥普特涨幅超过3%，有方科技、寒武纪-U、中科星图、虹软科技、道通科技涨幅超过2% [1] 资金流向与产品热度 - 科创板人工智能ETF（588930）市场热度较高，连续2个交易日获得资金净流入 [1] - 该ETF跟踪的科创板人工智能指数布局30只科创板人工智能龙头，覆盖AI产业链上游算力、中游大模型云计算、下游机器人等各类创新应用 [1] - 指数聚焦电子、计算机、机械设备、家电、通信五大行业，前五大成分股合计权重47%，具有较高的AI主题纯度和更高的弹性 [1] 行业前景与政策支持 - 国家高度重视人工智能产业发展，行业长期成长空间广阔 [2] - 尽管计算机行业2024年经营业绩整体承压，但AI领域各家公司纷纷加大投入，在产品研发和落地场景方面取得不错成果 [2] - AI给计算机行业带来新的发展机遇，随着前期大量投入逐步进入落地阶段，加之国家政策推动，AI板块收入体量有望大幅增长 [2]

Seek .(US:SKLTY)

DeepSeek R2

科创板人工智能ETF（588930）