Workflow
DeepSeek R2模型
icon
搜索文档
专家访谈汇总:DeepSeek二代模型因芯片短缺遭遇开发困境
AI及科技行业 - 卫星互联网、量子科技等子板块表现积极,运营商、光通信、卫星互联网等领域可能迎来新一轮增长 [1] - AI需求持续增长,大企业如Oracle、Meta加大资本开支,光模块作为算力集群基础组件具备强劲增长潜力 [1] - DeepSeek的R1 AI模型受关注,但下一代R2模型因英伟达H20处理器短缺面临开发延迟 [1] - H20处理器在中国AI公司中受欢迎,尤其因其与英伟达CUDA软件堆栈兼容 [2] - 美国出口限制凸显中国顶尖AI公司对美国硬件的依赖,成为关键弱点 [2] - OpenAI私下指责DeepSeek在R1开发中使用其专有技术,DeepSeek未公开回应 [2] 贵金属及工业金属 - 美国财政问题和美元信用体系弱化,叠加地缘政治风险,黄金避险需求强劲,金价中枢预计持续上升 [1] - 全年供需缺口维持,基本面改善,宽松周期下金银比向下收敛,白银有望补涨 [1] - 新能源汽车和光伏产业景气度良好,支撑能源金属需求,但供应端过剩,价格处于底部区间 [1] - 黄金产业高质量发展方案发布,推动行业进入新阶段,加强黄金储备有助于国家经济稳定 [2] - 中小企业面临环保标准和技术门槛提高,行业整合加速,规模小、技术薄弱企业可能被淘汰 [2] - 绿色回收技术短期可能推高成本,但长期规模效应将降低价格波动,提升资源利用效率 [2] 有色金属市场 - 经济增速对有色金属价格影响较大,制造业PMI新订单与金属价格同步,但美国制造业订单与库存数据背离显示价格不确定性 [3] - 海外库存变化与金属价格负相关,尤其在锡、铜、铅、铝等品种上影响显著 [3] - 金属价格波动率提高可能预示趋势行情,黄金、白银、锌、锡等品种价格易受宏观经济因素驱动 [3] - 设备更新和消费品以旧换新政策可能带动相关金属需求增长 [3] - 美国对东南亚出口关税政策可能影响供应链,但东南亚经济刺激措施或缓解影响 [3]
DeepSeek R1模型完成“小版本试升级”,编程、逻辑理解上了一个层次!
华尔街见闻· 2025-05-29 08:57
DeepSeek R1模型更新 - DeepSeek发布R1模型小版本试升级 更新内容包括语义理解精准性、复杂逻辑推理、长文本处理稳定性等方面的强化 [1][2] - 用户测评显示模型理解能力显著提升 可制作交互动画展示激活参数 关键信息逻辑清晰 [3] - 编程能力大幅增强 可一次性生成1000多行无bug代码 性能媲美Claude 4 [4][5] DeepSeek-V3模型表现 - DeepSeek-V3-0324模型全面超越Claude-3.7-Sonnet 在数学和代码类评测中超过GPT-4.5 [6] - 新版DeepSeek-V3与Grok-3并列传统对话类模型榜首 推理任务表现突出 [6] - 性价比优势显著 输入价格仅为Claude-3.7-Sonnet的1/11、GPT-4.5的1/277 且开源免费商用 [6][7] R1模型市场影响 - R1模型性能优于西方竞争对手 成本仅数百万美元 采用低版本英伟达芯片 [7] - R1的崛起引发全球科技股暴跌 市场质疑巨头高投入AI模型的必要性 [8] R2模型预期与进展 - R2原计划5月初发布 目标提升代码生成能力 支持多语言推理 [9] - 公司联合清华大学提出SPCT学习方法 构建DeepSeek-GRM系列模型 引入元奖励模型提升推理扩展性 [9] - 传闻R2将采用混合专家模型 参数量达1.2万亿 较R1提升约1倍 单位推理成本较GPT-4降低97.4% [10] - R2训练全程使用昇腾910B芯片集群 计算性能512 PetaFLOPS 芯片利用率82% 性能达A100集群的91% [10] 市场反应与猜测 - V3模型升级后公司热度下降 市场关注焦点转向R2发布 [9] - 社交媒体猜测R1小升级可能意味着R2尚未准备好 [11]
还在等DeepSeek R2?刚刚,DeepSeek R1模型小版本试升级已完成!优化了这些方面
每日经济新闻· 2025-05-28 21:03
DeepSeek R1模型试升级 - 公司宣布DeepSeek R1模型完成小版本试升级,用户可通过官方网页、APP、小程序测试,API接口和使用方式保持不变 [1] 升级内容 - 响应质量优化:复杂推理、多步骤计算更准确,长文理解与生成更连贯,数学、编程等专业性输出更可靠 [2] - 响应速度小幅提升:网页端、App、API接口响应更敏捷,处理超长文本输入时延迟降低约10%~20% [2] - 对话稳定性增强:上下文记忆更稳定,支持最多128K上下文,减少偶尔"遗忘设定"或"跑偏"的情况 [4] - API和接口兼容性保持稳定:API调用方式、参数、返回结构完全不变,用户无需调整现有集成 [5] 试升级原因 - 本次升级为灰度发布,部分用户优先体验,官方将收集反馈确保稳定后再全面推送 [6] - 用户使用官方App、网页或小程序时,打开"深度思考"模式可能已用上升级版本 [6] DeepSeek R2模型传闻 - 3月11日公司辟谣称"R2发布为假消息",回应此前3月17日发布下一代R2模型的传闻 [6]
全网都在等梁文锋
凤凰网财经· 2025-04-29 20:39
中美科技巨头AI模型竞争 - 4月中旬OpenAI发布GPT-4.1 o3、o4 mini系列模型 [3] - 谷歌同期推出Gemini 2.5 Flash Preview混合推理模型 [3] - 豆包发布1.5·深度思考模型,多模态能力显著提升 [3] - 阿里下一代大模型Qwen3预计本月发布 [3] DeepSeek R2模型发布传闻 - Hugging Face CEO发布神秘动态暗示DeepSeek R2即将发布 [4][7] - 传闻称R2模型拥有1.2万亿参数,活跃参数780亿,采用混合MoE架构 [12] - 成本比GPT-4o低97.3%(输入0.07美元/百万次,输出0.27美元/百万次) [12] - 使用5.2PB训练数据,C-Eval2.0测试得分89.7%,COCO视觉测试92.4% [12] - 公司对传闻不予置评,但知情人士称真实性较低 [14] DeepSeek技术迭代与市场影响 - 公司保持季度重大更新节奏:2024年9月V2.5,12月V3,2025年3月V3-0324 [14] - V3-0324版本在基准测试中超越Google Gemini 2.0 Pro等顶尖模型 [17] - R2预计提升代码生成和多语种推理能力 [17] - 3月发布的V3-0324采用6850亿参数MoE架构,代码能力显著增强 [20] 国产芯片与AI发展 - 美国对英伟达H20芯片禁令促使华为昇腾910C、寒武纪MLUarch04等国产芯片加速发展 [21] - 公司已与部分国产芯片头部企业展开合作 [26] - 创始人梁文锋表示真正挑战是高端芯片出口禁令而非资金 [22] - 公司曾推出针对英伟达H卡的算力优化方案 [21] 公司战略与行业定位 - 创始人梁文锋致力于探索通用人工智能(AGI)本质 [18][20] - 公司早期主要依托自有资金,排除有退出顾虑的投资机构 [20] - 创始人认为技术实力比产品黏性更重要,可通过技术优势获取用户 [20] - 公司目标是通过技术创新改变全球AI格局而非仅服务用户 [20]
全网都在等梁文锋
投中网· 2025-04-29 14:21
中美科技巨头AI模型竞争 - 5月将迎来中美科技巨头AI模型发布高峰,OpenAI发布GPT-4.1 o3、o4 mini系列模型,谷歌推出Gemini 2.5 Flash Preview混合推理模型,豆包发布1.5·深度思考模型[6] - 阿里下一代大模型Qwen3预计本月发布[6] - DeepSeek R2模型发布进入倒计时,Hugging Face首席执行官发布暗示性动态引发行业猜测[7][10] DeepSeek R2模型技术参数传闻 - 传闻DeepSeek-R2拥有1.2万亿参数,活跃参数780亿,采用混合MoE架构[12] - 成本比GPT-4o便宜97.3%(输入每百万次0.07美元,输出每百万次0.27美元)[12] - 使用5.2PB训练数据,在C-Eval2.0测试中取得89.7%得分,COCO测试集视觉能力达92.4%[12] - 公司对传闻不予回应,知情人士称网上消息真实性含量非常低[16] DeepSeek产品迭代与研发策略 - 公司保持每季度重大更新的开发范式,2024年9月推出V2.5,12月发布V3,次年3月升级至V3-0324版本[17] - 路透社披露公司正加快R2研发进程,原计划5月初发布,现希望尽早推出[17] - V3-0324版本在基准测试中力压Google Gemini 2.0 Pro、Anthropic Claude 3.7Sonnet等顶尖模型[17] 创始人梁文锋的战略布局 - 创始人梁文锋志向直指终极AGI,早期优先排除有退出顾虑的机构,主要依托自有资金[20] - 认为Chatbot产品可替代性强,技术优势是关键,DeepSeek R1发布证实这一观点[20] - 表示公司真正挑战是高端芯片出口禁令,而非资金问题[22] - 强调追赶下一代技术是真正的护城河,需要重建团队、付出时间和成本[22] 国产芯片与大模型适配 - 美国对英伟达H20芯片出口禁令倒逼华为昇腾910C、寒武纪MLUarch04等国产芯片加速发展[21] - 公司已推出针对英伟达H卡的算力优化方案[21] - 行业人士透露公司正与国产芯片头部企业合作,但合作进展和R2适配情况尚不明确[25][26] - 行业存在对稳定、便宜的大模型部署需求,公司需要解决这一问题[24]
速递|DeepSeek加速R2模型研发,计划5月前推出,新模型将强化代码能力
Z Finance· 2025-02-26 16:19
DeepSeek AI模型的市场影响 - DeepSeek的低成本AI推理模型引发全球股市超过1万亿美元的震荡,表现超越许多西方竞争对手[1] - 公司加速推出R1模型的继任者R2,原计划5月初发布但希望提前推出,新一代模型将提升代码生成能力并支持更多非英语语言[1] - R1模型使用计算能力较弱的英伟达芯片,却能媲美美国科技巨头投入数千亿美元打造的高端AI模型[1] 行业竞争格局变化 - DeepSeek R2发布可能成为AI行业关键转折点,其高性价比模型可能打破少数巨头垄断局面[1] - 已有数十家中国企业表示正在将DeepSeek模型集成到产品中[1] - R2发布可能引发美国政府担忧,进一步激励中国企业加速布局AI[1] DeepSeek公司背景 - 创始人梁文峰通过量化对冲基金幻方量化成为亿万富翁,性格低调内敛[2] - 公司更像研究实验室而非传统营利性企业[2] - 外界对公司知之甚少,创始人自2024年7月以来未接受媒体采访[2]