DeepSeek R1模型

搜索文档
梁文锋等来及时雨
36氪· 2025-07-16 18:19
行业竞争格局 - Kimi发布K2新模型引发试用高潮,Perplexity CEO表示将引入K2提供服务[3] - 阶跃星辰、智谱AI、科大讯飞等公司计划在7月底发布新一代基础大模型[3] - DeepSeek月活跃用户规模从1.69亿环比下滑5.1%,下载排名跌至30名开外[4] - DeepSeek官网访问量下降29%,用户使用率从7.5%峰值回落至3%[4][17] 技术发展动态 - DeepSeek加速推出R2模型但受H20芯片禁售影响延迟发布[5] - 英伟达H20芯片因DeepSeek需求激增被美国禁售,7月15日宣布重新申请销售许可[6][8] - Kimi K2成为国内首个总参数量达1万亿的MoE架构开源模型,在多项基准测试中超越DeepSeek[14] - MiniMax-M1仅用512块H800三周时间完成训练,成本53.47万美元,远低于DeepSeek V3的557万美元[15] 商业模式比较 - DeepSeek因缺乏大版本更新被质疑性价比,科技大厂推出更低价的API模型[13] - Kimi K2定价与DeepSeek对齐,输入/输出tokens价格分别为4元/16元每百万[15] - DeepSeek在第三方平台模型使用量增长20倍,但官方应用流量持续下滑[17] - 上下文窗口限制(64K)影响DeepSeek竞争力,Kimi K2支持128K,MiniMax-M1达100万[22][23] 产品能力短板 - DeepSeek暂不支持多模态功能,落后于行业主流AI助手[28] - 调用工具能力不足导致字节放弃采用DeepSeek-R1[28] - OpenAI通过高频更新保持热度,GPT-4.1系列使用率快速升至10%,而DeepSeek R1使用率下降超50%[26] 战略方向差异 - DeepSeek坚持开源路线但面临商业化挑战,需平衡开发者活跃度与产品使用率[24][25] - 竞争对手在新模型中均强化Agent构建能力,DeepSeek需补足工具调用短板[29] - 行业转向Agent生态发展,多模态能力重要性日益凸显[28][29]
又一国产大模型登顶全球,“国内链”投资价值正逐步显现
选股宝· 2025-07-14 07:17
月之暗面Kimi K2模型发布 - Kimi K2模型具备更强代码能力和通用Agent任务能力,采用MoE架构,总参数1T,激活参数32B [1] - 在SWE Bench Verified、Tau2、AceBench等基准测试中取得开源模型SOTA成绩 [1] - 美国AI搜索公司Perplexity CEO表示将用K2进行后训练,此前曾使用DeepSeek R1 [1] 国内AI模型技术进展 - DeepSeek-R1更新版本(R1-0528版)展现强大深度思考能力,在数学、编程与通用逻辑等基准测评中表现优异 [1] - 国内AI大模型在技术深耕与应用落地中持续精进 [1] - 中文在线与Kimi合作,提供数据语料和标注服务 [2] AI产业链市场表现 - 海外AI产业链公司(英伟达、微软等)股价持续突破历史新高,反映资本市场对AI技术的高度认可 [2] - 国内AI产业链公司(算力芯片、算法服务、行业解决方案)未出现类似海外市场的强劲反弹 [2] - AI海外链和国内链公司股价出现分化,形成剪刀差 [2] AI硬件需求 - 英伟达GPU和AWS等自研芯片需求旺盛 [2] - AI需求进入全面爆发阶段,GPU+ASIC共同繁荣 [2] - PCB等供应链公司业绩持续爆发并超预期 [2] 相关公司 - AI服务器相关公司包括浪潮信息、华勤技术 [3]
北极光创投林路:AI竞争从“技术领先”转向“产品体验”
钛媒体APP· 2025-07-03 17:52
技术发展曲线 - 技术发展初期呈现快速突破但随后趋缓 非持续指数级增长 以ChatGPT为例 2022年底面世后市场乐观但一年多后遭遇预训练瓶颈 行业转向谨慎 [4] - 自动驾驶领域曾预测5-6年实现L4级别 实际进展远低于预期 印证技术发展趋缓规律 [4] - 基础模型层面技术差距缩小 Google、Anthropic与OpenAI技术差异不显著 中美技术鸿沟小于普遍认知 [4] 行业竞争焦点 - 基础模型差距缩小后 竞争从"技术领先"转向"产品体验" 创业公司迎来窗口期 [2][6] - 2023年行业关注点从"模型强弱"转向"落地应用" 企业尝试结合思维链与工作流模块推动复杂任务能力 [5] - 当前大模型技术水平在垂直领域已"足够好" 满足核心需求后竞争转向产品体验维度 [6] 移动互联网类比 - ChatGPT类似2007年iPhone发布 开启新应用时代 开源模型涌现类似Android爆发 中国企业未缺席开源领域 [8] - 2012年移动互联网泡沫期后 真正价值公司如今日头条、快手、滴滴崭露头角 "用新技术提升既有需求效率"模式胜出 [8][9] - 4G商用消除流量焦虑后音视频应用爆发 当前AI发展阶段类似2011年 需关注基础设施演进 [9] 产品构建逻辑 - "模型即应用"趋势下 缺乏数据壁垒或用户体验护城河的产品易被基础模型整合取代 [2][13] - Perplexity和Cursor案例显示 明确用户需求与差异化定位可创造价值 但需防范基础模型升级带来的颠覆 [13] - AI不改变人类根本需求 但能重塑服务实现方式 如Tesla租赁业务全流程自动化案例 [14] 服务重构机会 - AI驱动服务逻辑重构 传统SOP难以实现的个性化服务在AI下边际成本趋零 [15] - 共享经济底层逻辑仍成立 AI大幅拓宽服务边界 如Tesla案例可扩展为共享服务平台 [15] - AI带来非简单数字化迁移 而是服务逻辑根本性重构 定义新一代平台的关键在于重构性创新 [15] 投资决策参考 - 2023年内部讨论后决定暂不投资基础大模型赛道 回头看决策正确 [5] - DeepSeek开源策略与阿里千问上线加速模型差距缩小 验证投资谨慎性 [5] - 模型能力小幅提升即显著影响用户选择 如DeepSeek R1模型影响豆包与Kimi用户增长 [5]
上海财经大学校长刘元春:中国新科创模式重塑全球竞争格局
上海证券报· 2025-06-30 03:13
中国叙事逆转与科创崛起 - DeepSeek发布R1模型打破美国在大模型生产领域的既定范式,引发全球关注并带动中国资产在全球资本市场表现亮眼 [2] - 杭州"六小龙"等概念体现中国科创企业崛起,鸿蒙系统突破、"新三样"全面崛起及AI科创发展展现中国科技创新能力 [2] - 高盛等国际投行重新审视中国市场,反映中国叙事逆转对全球投资策略的深远影响 [2] 中美经济格局变化 - 美国经济衰退风险加剧、债务问题恶化及国债收益率高企标志其结构性危机深化 [2] - 中国在科创领域的突破正重塑全球资本布局 [2] 中国科创模式独特优势 - 中国市场规模为科技创新提供广阔舞台,技术进步与产业升级成为经济发展核心力量 [3] - 人力资本与工程师红利全面展现,每年庞大工程类、理工类大学生数量为创新提供人才支撑 [3] - 政府与市场协同作用推动中国制造走向创新,形成基础研发、产业升级、科创金融完整链条 [3][4] 中国创新发展模式 - 合肥模式、苏州模式、深圳模式、上海模式等多种创新发展模式涌现 [3][4] - 政府通过产业政策扶持、引导基金等方式为企业创新提供持续支持 [4]
专家访谈汇总:DeepSeek二代模型因芯片短缺遭遇开发困境
阿尔法工场研究院· 2025-06-29 21:15
AI及科技行业 - 卫星互联网、量子科技等子板块表现积极,运营商、光通信、卫星互联网等领域可能迎来新一轮增长 [1] - AI需求持续增长,大企业如Oracle、Meta加大资本开支,光模块作为算力集群基础组件具备强劲增长潜力 [1] - DeepSeek的R1 AI模型受关注,但下一代R2模型因英伟达H20处理器短缺面临开发延迟 [1] - H20处理器在中国AI公司中受欢迎,尤其因其与英伟达CUDA软件堆栈兼容 [2] - 美国出口限制凸显中国顶尖AI公司对美国硬件的依赖,成为关键弱点 [2] - OpenAI私下指责DeepSeek在R1开发中使用其专有技术,DeepSeek未公开回应 [2] 贵金属及工业金属 - 美国财政问题和美元信用体系弱化,叠加地缘政治风险,黄金避险需求强劲,金价中枢预计持续上升 [1] - 全年供需缺口维持,基本面改善,宽松周期下金银比向下收敛,白银有望补涨 [1] - 新能源汽车和光伏产业景气度良好,支撑能源金属需求,但供应端过剩,价格处于底部区间 [1] - 黄金产业高质量发展方案发布,推动行业进入新阶段,加强黄金储备有助于国家经济稳定 [2] - 中小企业面临环保标准和技术门槛提高,行业整合加速,规模小、技术薄弱企业可能被淘汰 [2] - 绿色回收技术短期可能推高成本,但长期规模效应将降低价格波动,提升资源利用效率 [2] 有色金属市场 - 经济增速对有色金属价格影响较大,制造业PMI新订单与金属价格同步,但美国制造业订单与库存数据背离显示价格不确定性 [3] - 海外库存变化与金属价格负相关,尤其在锡、铜、铅、铝等品种上影响显著 [3] - 金属价格波动率提高可能预示趋势行情,黄金、白银、锌、锡等品种价格易受宏观经济因素驱动 [3] - 设备更新和消费品以旧换新政策可能带动相关金属需求增长 [3] - 美国对东南亚出口关税政策可能影响供应链,但东南亚经济刺激措施或缓解影响 [3]
MiniMax追着DeepSeek打
经济观察网· 2025-06-18 19:32
模型技术规格 - MiniMax M1模型支持100万个token的上下文长度,是DeepSeek R1(12.8万Token)的8倍,仅次于谷歌Gemini 2.5 Pro [1] - MiniMax M1总参数量为4560亿,每个token激活459亿参数,而DeepSeek R1总参数量6710亿但每个token仅激活370亿参数 [1] - 采用混合专家(MoE)架构,与DeepSeek R1相同 [1] 性能与成本优势 - 生成10万个token时仅消耗25%的浮点运算,64000个token推理任务计算能力需求不到DeepSeek R1一半 [2] - 强化学习阶段仅使用512块H800 GPU,耗时3周,成本53.5万美元,比预期低一个数量级 [2] - 核心技术包括线性注意力机制(Lightning Attention)和强化学习算法CISPO,后者通过裁剪采样权重提升效率 [2] 商业化定价策略 - API服务采用分级计费:0-32k Token档输入0.8元/百万Token,输出8元/百万Token;32k-128k档输入1.2元/百万Token,输出16元/百万Token;128k-1M档输入2.4元/百万Token,输出24元/百万Token [3] - 前两档定价低于DeepSeek R1(输入3.95元/百万Token,输出15.4元/百万Token),第三档为独有超长文本服务 [3] 行业动态与开源计划 - 宣布未来5天内每天发布一项新产品或新技术 [1] - 模型代码和权重已在Hugging Face和GitHub开源,支持透明检查与本地部署 [3] - DeepSeek R1曾以500-600万美元GPU成本训练出对标OpenAI o1的模型,引发行业争议 [2]
一文了解DeepSeek和OpenAI:企业家为什么需要认知型创新?
混沌学园· 2025-06-10 19:07
核心观点 - AI技术正在重新定义商业创新模式,企业需转变思路以保持竞争力 [1][2] - OpenAI和DeepSeek分别通过不同路径实现AI技术突破,为行业提供创新范式 [3][4] - AI能力的"涌现"现象成为技术跃迁的关键特征 [19][20][21] - 人机交互范式因ChatGPT发生根本性变革 [22][23][24] - 中国公司DeepSeek打破"美国原创、中国应用"的思维定式,展现基础研究实力 [75][77][78] OpenAI的创新路径 创立背景 - 2015年由马斯克和奥特曼创立,初衷是防止AI技术被巨头垄断 [9] - 从谷歌挖来核心科学家伊利亚·苏茨克维尔,坚持开源、安全、普惠理念 [10][12] 技术突破 - 基于Transformer架构的"自注意力机制"大幅提升语言理解能力 [13] - Scaling Law揭示模型规模与性能的线性关系,指导大规模投入 [15][16] - GPT系列模型通过"涌现"现象实现能力跃升,参数量临界点触发智能爆发 [19][20] 产品里程碑 - ChatGPT通过自然语言交互降低使用门槛,引发全球现象级应用 [22][23] - 推理模型o1实现从直觉思维(系统1)到理性推理(系统2)的认知跃迁 [26][30] DeepSeek的逆袭战略 技术路线 - 提出"有限Scaling Law",在资源受限下追求高性能 [32][33] - MLA技术优化内存效率,MoE架构实现计算资源动态分配 [38][39][42] - V3模型6710亿参数仅激活37亿,训练成本5557万美元(行业1/10) [44] 核心突破 - R1模型采用纯强化学习(类似AlphaGo Zero),展示完整推理过程 [45][47][49] - 在奥数竞赛中与OpenAI o1准确率相当,登顶美国应用榜单 [50][51] 组织创新 - 动态团队构成和自组织管理激发"涌现"式创新 [55][56][57] - 研究员自主提出MLA架构和训练公式,体现扁平化协作 [59][60] - 150人论文署名包含数据标注员,打破传统KPI束缚 [61][62] 行业启示 技术趋势 - AI从专用工具向通用智能演进,"涌现"成为能力突破关键指标 [20][21] - 对话式交互(ChatGPT)和推理能力(o1/R1)定义下一代AI标准 [23][26][45] 创新生态 - 中国公司首次在基础研究领域实现全球领先,打破技术跟随惯性 [75][77] - 资源效率(DeepSeek)与规模投入(OpenAI)并存,拓宽行业可能性 [32][44] 组织变革 - 传统金字塔管理让位于开放协作和资源自由调配的新型研发模式 [55][63][68] - "非标准人才"和纯粹技术热情成为创新核心驱动力 [66][67]
创业板人工智能ETF(159388)涨近2.5%,AI推理能力提升或加速场景渗透
每日经济新闻· 2025-06-09 13:36
人工智能行业动态 - 2025全球人工智能技术大会在杭州开幕 聚焦"交叉、融合、相生、共赢"主题 汇聚200多位专家学者 并启动人工智能领域知识产权证券化融资专项支持行动 计划三年内发行5支相关产品 辐射60余家企业 [1] - 创业板人工智能ETF(159388)当日涨近2.5% 领涨市场 [1] 人工智能市场前景 - 2024年全球人工智能IT总投资规模预计达3158亿美元 2028年将增长至8159亿美元 五年复合增长率32.9% [2] - 生成式AI表现突出 预计2028年市场规模突破2842亿美元 中国生成式AI投资占比将从2024年的18.9%提升至30.6% [2] - 人工智能整体处于成长期 基础层存在技术瓶颈 中国通过国产替代和开源创新缩小差距 应用层进入规模化落地阶段 商业化周期逐步开启 [2] 政策支持与产业趋势 - 国家数据局《数字中国建设2025年行动方案》部署"人工智能+"行动 工信部推动AI技术与工业场景融合 上海、北京、深圳出台专项方案支持算力基建和场景创新 [2] - AI产业趋势向上 推理能力提升驱动复杂场景渗透 海外科技巨头如微软、英伟达、谷歌等涨幅显著 [3] - Claude 4系列发布 编程能力提升 Claude Opus 4在编码任务中表现领先 DeepSeek R1模型升级后复杂推理能力显著增强 准确率大幅提升 [3] - 谷歌在I/O 2025展示AI大模型及产品全面升级 包括Gemini系列功能扩展和新模型发布 AI Agent及算力仍是最明确投资方向 [3] 创业板人工智能ETF概况 - 创业板人工智能ETF(159388)跟踪创业板人工智能指数(970070) 该指数从创业板市场选取涉及人工智能技术研发、应用及相关服务的上市公司证券作为样本 [3] - 指数成分股主要覆盖信息技术、智能制造等核心领域 旨在反映创业板市场中人工智能相关上市公司证券的整体表现 [3]
“六小龙”火热出圈后 杭州欲打造超3900亿人工智能核心产业
中国经营报· 2025-06-08 14:02
杭州人工智能产业发展 - 杭州提出人工智能核心产业营业收入目标超过3900亿元,规模以上核心产业企业超700家 [4] - 2024年杭州人工智能产业年产值占浙江省比重超七成,已拥有人工智能核心企业近700家 [3] - 2023年中国人工智能城市排行榜中杭州位居全国第二位 [3] 宇树科技发展动态 - 宇树科技Go2机器狗展示灵活动作能力,成为杭州"六小龙"代表企业之一 [1] - 公司5月29日更名为"杭州宇树科技股份有限公司",引发上市猜想 [1] - 宇树G1人形机器人作为全球首个格斗赛事唯一参赛机型亮相,展示高难度动作 [2] - 创始人王兴兴表示公司终极目标是利用AI技术替代人类辛苦工作 [2] "六小龙"企业集群 - 除宇树科技外,集群包括深度求索、游戏科学、云深处科技、强脑科技、群核科技 [2] - 深度求索5月28日完成DeepSeek R1模型小版本试升级 [2] - 强脑科技5月30日在无锡设立全国首个脑机科学创新示范中心 [2] 杭州未来科技城发展 - 2024年实现营收10980.51亿元,税收600.23亿元,年均增幅分别达36%和35% [7] - 区域内人口总量突破40万,本科以上学历占就业人口84.5% [7] - 累计引进海外高层次人才6625名、"两院"院士68名、国家级海外高层次人才249名 [8] 产业支持政策体系 - 杭州发布《加快建设人工智能创新高地方案(2025版)》,组建千亿级产业基金 [4] - 未来科技城建立省股交中心海创板,每月举办资智对接会,成立投贷联盟 [8] - 通过天使梦想基金、金融风险池、产业引导基金等政府金融手段支持企业发展 [8] 区域发展优势 - 长三角地区庞大需求支撑和杭州数字经济体系构成双重优势 [4] - "我负责阳光雨露,你负责茁壮成长"的服务理念形成优越营商环境 [8] - 开放式产业集群发展模式有助于扩大未来产业优势 [9]
外媒:阿里大模型全线切换,放弃DeepSeekR1
是说芯语· 2025-06-04 13:20
阿里巴巴AI战略进展 - 公司旗下各业务单元已启动基于Qwen3模型的智能体开发计划,部分原采用DeepSeek R1模型的应用正迁移至Qwen3平台 [1] - Qwen3大模型的开源标志着公司AI战略进入新阶段,实现技术自主与商业落地的协同效应 [1] - 2023年首代Qwen发布时性能未获内部全面认可,但Qwen3的突破性进展改变了这一局面 [1] 技术布局与竞争 - Qwen系列模型对内成为统一阿里系AI能力的技术基座,对外通过开源策略加速中国产业AI化进程 [1] - 阿里云正推动Qwen模型的全球化布局,与欧美主流开源模型展开竞争 [1] 高层动态与战略意义 - 已退隐六年的马云在Qwen3研发期间持续关注进展,通过定期听取专项汇报传递战略决心 [2] - 马云的非常规介入凸显Qwen3对公司未来的关键价值,反映AI竞赛中的紧迫感 [2]