Seek .(SKLTY)

搜索文档
DeepSeek开源新模型,数学推理能力大提升
虎嗅· 2025-05-01 08:48
模型发布与版本 - DeepSeek在Hugging Face正式发布DeepSeek-Prover-V2,同步上线模型卡及示例代码,共推出两个版本:7B和671B [1][4] - DeepSeek-Prover-V2-7B基于上一代V1.5模型,支持最长32K上下文输入 [4] - DeepSeek-Prover-V2-671B在DeepSeek-V3-Base基础上训练,推理性能最强 [4] 训练方法与技术 - 训练核心采用"递归+强化学习"组合,由DeepSeek-V3拆解复杂定理生成子目标和推理思路,再通过GRPO算法从候选方案中学习最优解 [3] - 训练分为两阶段:第一阶段采用"专家迭代"方法,模型通过解决难题反哺自身 [5];第二阶段迁移DeepSeek-V3数学知识并引入形式化数据,构建复杂推理路径 [6] - GRPO强化学习算法引导模型在32个候选证明方案中选择被Lean验证系统判定为正确的答案(奖励1分,否则0分) [8][9] 模型能力与特点 - 671B模型能力被"蒸馏"到7B模型,使小模型在资源有限设备上获得接近大模型的数学推理能力 [10][11] - 提供两种解题风格:快速模式(non-CoT)直接生成精炼答案;逻辑模式(CoT)详细展示推理过程 [12] - DeepSeek-V3负责拆解定理生成推理草图,7B模型完成子证明并拼接完整推理,形成"模糊思考+精确证明"机制 [14][15] 性能评估与数据集 - DeepSeek-Prover-V2-671B在MiniF2F测试中通过率达88.9%,成功解出PutnamBench数据集49道难题 [17] - 推出全新数学形式化数据集ProverBench,包含325道题目,涵盖AIME竞赛题、数论、代数、微积分等10个领域 [18][19] - 在15道AIME竞赛题中,DeepSeek-Prover-V2解出6道,DeepSeek-V3通过多数投票解决8道 [20] 行业趋势与方向 - 大型语言模型在"非正式数学推理"与"正式数学推理"间的表现差距明显缩小,逐步学会写出规范可验证的数学证明 [21][22] - 模型从生成内容迈向生成结构化逻辑,可能最早触碰通用人工智能的底层结构,推理能力成为知识系统边界的关键 [32][33][34] 商业化与部署 - 新模型遵循公开许可证,可通过Hugging Face平台免费下载并支持Transformers接口部署 [23][24] - Novita AI成为首批上线Prover-V2-671B推理服务的第三方提供商 [24]
美乌重磅协议签署!矿产开发+重建基金;道指月线3连跌,美油跌超3%;证监会副主席王建军被查;DeepSeek开源新模型丨每经早参
每日经济新闻· 2025-05-01 07:00
每经编辑 陈鹏程 袁东 1 隔夜市场 美股三大指数收盘涨跌不一,纳指跌0.09%,4月份累涨0.85%;标普500指数涨0.15%,4月份累跌0.76%;道指涨0.35%,4月份累跌3.17%,其中,标普500 指数、道指连跌3个月;大型科技股跌多涨少,特斯拉跌超3%,亚马逊、英特尔跌超1%,谷歌、Meta小幅下跌;奈飞、苹果、微软小幅上涨,超微电脑跌 超11%。中概股涨跌不一,纳斯达克中国金龙指数跌0.95%,4月份累跌9.79%;贝壳跌超2%,百度、极氪跌超1%,满帮、腾讯音乐、京东等小幅下跌;金 山云涨超9%,万国数据涨逾5%,名创优品涨超2%,拼多多、BOSS直聘涨超1%,阿里巴巴、理想汽车小幅上涨。 美国商务部4月30日公布最新数据显示,2025年第一季度美国国内生产总值(GDP)环比按年率计算萎缩0.3%。2024年第四季度,美国GDP环比按年率计算 增长2.4%。 国际油价大幅走低,美油主力合约跌3.64%,报58.22美元/桶;布伦特原油主力合约跌3.37%,报61.15美元/桶。4月份,美油跌18.55%,布油跌18.22%,创将 近三年半来最大月跌幅。 现货黄金跌0.85%,报3288.2 ...
AI数学天花板来了?DeepSeek新模型低调开源,网友直呼:R2指日可待!
华尔街见闻· 2025-04-30 20:52
就在所有人都在期待DeepSeek官宣R2大模型之际,公司却出其不意地在"五一"前夕投下了另一枚技术炸弹。 4月30日,DeepSeek在Hugging Face平台上悄然开源了其最新模型——DeepSeek-Prover-V2-671B,一个专注于数学定理证明的大语言模型,专门针 对形式化数学证明任务进行优化。 DeepSeek-Prover-V2-671B使用了DeepSeek-V3架构,参数高达6710亿,采用MoE(混合专家)模式,具有61层Transformer层,7168维隐藏层。 | Hugging Face Q. Search models, datasets, users ... | | Models | ■ Datasets ■ Spaces Posts | Docs | Enterprise | Pricing | VII | Log In Sign Up | | --- | --- | --- | --- | --- | --- | --- | --- | --- | | < deepseek-ai/DeepSeek-Prover-V2-671B = 0 Wke 152 | Follo ...
华为郭振兴: DeepSeek浪潮后,AI将快速释放巨大的制造业生产红利 | 最前线
36氪· 2025-04-30 17:48
行业峰会概况 - 华为AI+制造行业峰会2025在广州举办 主题为"加速行业智能化" 参会人数超过900人 涵盖汽车 机械电子 医药 重工业 轻工业等多个制造行业 [1] - 公司发布"三层五阶八步"方法论 分享制造行业七大场景20个解决方案 [1] 华为AI解决方案 - 全栈AI基础设施可灵活适配制造多场景 降低企业使用AI门槛 智能应用让一线工人也能轻松使用AI [1] - 联合伙伴打造系列化方案 覆盖车辆装备 机械电子 医药轻工到具身智能等新领域 [1] - 基于昇腾解决方案对DeepSeek进行全方位适配 从预训练到推理场景均有针对性计算方案 帮助客户快速完成二次训练 [3] - 与主流模型(包括DeepSeek)进行资源匹配调优 使各模型在昇腾环境下达到性能最优 [3] - 昇腾全栈软件站已开源开放 已有100多个制造业伙伴基于昇腾打造DeepSeek方案 [3] 汽车行业应用案例 - 与广汽集团合作建设智能化研发平台 将新车研发周期从36个月缩短至18个月 [1] - 联合发布智能化研发平台解决方案 启动样板点建设 [1] 研发效率提升 - 将1300多万片高价值基础文档 1万多篇API文档 850多万个开源代码舱导入研发数据平台 [2] - 通过研发大模型和AI助手 软件版本开发周期从9-18个月缩短至1个月 [2] 行业部署情况 - 2025年预计有300多家企业制定大模型部署计划 [2] - 一汽使用DeepSeek代码能力使代码输出效率提升30% [2] - 广药集团用DeepSeek建设医药知识库 实现知识跨部门复用 应用于研发 销售 医学研究等多个场景 [2] 未来规划 - 2025年将围绕数据"采传存 算管用"等需求 提供智能联接 存储 算力 平台的端到端全栈新型基础设施 [3] - 设置车辆装备 电子及新能源 计算部件伙伴等分论坛 围绕细分行业深入交流 [3]
从DeepSeek到硬科技:国中资本的投资新视野 | 投资人:快答2025
搜狐财经· 2025-04-30 14:29
前言: 2025年,以一副猝不及防的形态出现,国防、科技、文化、国际政治领域的变化让人目不暇接。回望过去几年, 我们共同经历了一场前所未有的全球性震荡。疫情、战争、经济衰退、地缘政治……这些关键词充斥着我们的视 野,也深刻地改变着世界的运行规则。然而,危机往往与机遇并存,动荡中也孕育着新的希望。 2025年,作为投资人,我们比任何人都更深刻地感受到时代浪潮的冲击,更能深切的感受到春江水暖。站在产业 前端,立在创新前沿,投资人对于已经到来的2025有着什么样的期冀和见解? 我们邀请了多位顶尖投资人,将以他们敏锐的洞察力和独到的见解,为我们勾勒出一幅未来经济、投资的路线 图。 此文为融中特别策划·《投资人:快答2025》系列报道第十一篇。 在当今快速发展的科技时代,人工智能与硬科技领域的突破正深刻改变着全球产业格局。 国中资本作为中国创投行业的领军者,始终站在行业前沿,洞察技术变革与市场机遇。从DeepSeek的崛起引发的 AI技术革新,到新能源汽车、半导体、医疗大健康等硬科技赛道的持续深耕,国中资本不仅见证并推动了中国科 技产业的成长,更在投资实践中形成了独特的价值理念与投资逻辑。 在2025年这一关键节点,国 ...
Qwen3深夜炸场,阿里一口气放出8款大模型,性能超越DeepSeek R1,登顶开源王座
36氪· 2025-04-29 17:53
今天凌晨,大模型领域最受关注的重磅消息来自阿里 Qwen 团队——他们正式发布了备受期待的全新 Qwen3 系列大模型。 8 大模型齐发! 这 8 款混合推理模型中,包括了 2 个 MOE 模型:Qwen3-235B-A22B 和 Qwen3-30B-A3B。 其中,Qwen3-235B-A22B 是本次发布中规模最大的旗舰模型,拥有 2350 亿个参数,激活参数超过 220 亿。 在代码、数学和通用能力等多个基准测试中,它的表现不仅超过了 DeepSeek 的 R1 开源模型,还优于 OpenAI 的闭源模型 o1。尤其在软件工程和数学领 域的 ArenaHard 测试(共 500 道题)中,成绩甚至接近了 Google 最新发布的 Gemini 2.5-Pro,可见其实力不容小觑。 | | Qwen3-235B-A22B | Qwen3-32B | OpenAl-o1 | Deepseek-R1 | Grok 3 Beta | Gemini2.5-Pro | Open Al-o3-mini | | --- | --- | --- | --- | --- | --- | --- | --- | | | MO ...
DeepSeek-R2发布在即,参数量翻倍,华为昇腾芯片利用率达82%!
搜狐财经· 2025-04-29 15:17
根据爆料信息,DeepSeek-R2大模型将会采用一种更先进的混合专家模型(MoE),结合了更加智能的门 控网络层(Gating Network),以优化高负载推理任务的性能。在MoE架构的加持下,DeepSeek-R2的模型 总参数量预计将达到1.2万亿,较之DeepSeek-R1(6710亿参数)提升约1倍。从规模上来看,DeepSeek-R2 与ChatGPT的GPT-4 Turbo以及谷歌的Gemini 2.0 Pro相当。 昨日晚间,玩家@deedydas在社交媒体平台爆料了深度求索即将发布的下一代AI大模型DeepSeek-R2的参数 信息。 在硬件平台方面,DeepSeek-R2实现了基于华为昇腾 910B(Ascend 910B)芯片集群平台的训练方案,在 FP16 精度下实现了 512 PetaFLOPS 的计算性能,芯片资源利用率达到 82%。根据华为实验室的数据,这 一算力大约是英伟达上一代A100训练集群的91%。 可能得益于华为昇腾910B训练集群,DeepSeek-R2的单位推理成本较之GPT-4下降了97.4%,DeepSeek-R2 的成本约为0.07美元/百万token,而G ...
阿里发布并开源模型Qwen3,成本仅为DeepSeek-R1的1/3
观察者网· 2025-04-29 11:27
4月29日凌晨,阿里巴巴开源新一代通义千问模型Qwen3(简称千问3),参数量仅为DeepSeek-R1的 1/3,成本大幅下降,性能全面超越R1、OpenAI-o1等领先模型,登顶全球最强开源模型。 千问3是国内首个"混合推理模型",将"快思考"与"慢思考"集成进同一个模型,大大节省算力消耗。 根据官方的说法,千问3的旗舰版本 Qwen3-235B-A22B,在代码、数学、通用能力等基准测试中,达到 了与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 同一梯度的水平。 在奥数水平的 AIME25 测评中,Qwen3-235B-A22B 斩获 81.5 分,刷新了开源模型的纪录;在考察代码 能力的 LiveCodeBench 评测中,Qwen3-235B-A22B 突破 70 分,表现甚至超过 Grok 3;在评估模型人类 偏好对齐的 ArenaHard 测评中,Qwen3-235B-A22B 以 95.6 分超越 OpenAI-o1 及 DeepSeek-R1。 | | Qwen3-235B-A22B | Qwen3-32B | OpenAl-o1 | Dee ...
阿里Qwen3性能超越DeepSeek-R1;美媒曝马斯克孩子数量远超14个;ChatGPT推出购物功能
观察者网· 2025-04-29 09:10
【观网财经丨智能早报 4月29日】 美股三大指数收盘涨跌不一,大型科技股互有涨跌 美股三大指数收盘涨跌不一,道指涨0.28%,标普500指数涨0.06%,纳指跌0.1%。大型科技股互有涨跌,英特尔涨超2%,苹果、特斯拉、奈飞、Meta小幅 上涨;英伟达跌超2%,微软、谷歌、亚马逊小幅下跌。 阿里巴巴通义千问Qwen3登顶开源王座 博客节目的主持人艾莉森·卡梅洛塔插话说,人们不知道所有其他孩子和女人的"原因是马斯克让他的孩子妈妈们签署了保密协议,他请了很多律师,他很爱 打官司,如果她们开口,他会起诉她们",马斯克付给孩子们的母亲很多钱,让她们保持沉默。据报道,马斯克第13个孩子的母亲艾希莉·圣克莱尔得到了 1500万美元封口费和每月10万美元的生活津贴,以掩盖他们孩子出生的消息,布鲁尼格补充说。(新浪科技) 库克或因对苹果AI进展失望再次重组团队 4月28日消息,据媒体报道,苹果CEO库克已经将苹果的机器人团队转移至该公司的硬件部门,该部门由苹果高管约翰·特努斯(John Ternus)领导。在苹果 智能(Apple Intelligence)功能推迟发布以来,库克一直在努力重组部分团队,例如将Siri团队移交 ...
阿里发布并开源千问3,称成本仅需DeepSeek-R1三分之一
第一财经· 2025-04-29 08:33
阿里云方面表示,性能大幅提升的同时,千问3的部署成本大幅下降,仅需4张H20即可部署千问3满血版,显存占用仅为DeepSeek-R1的三分之一。 4月29日凌晨,阿里巴巴宣布推出新一代通义千问模型Qwen3(千问3)并进行开源。阿里云方面表示,千问3是国内首个"混合推理模型",将"快思考"与"慢 思考"集成进同一个模型,参数量仅为DeepSeek-R1的1/3,成本大幅下降,并在ChatBot Arena等榜单中性能全面超越R1、OpenAI-o1等全球顶尖模型,登顶 全球最强开源模型。知情人士对记者表示,这是今年上半年阿里云最核心的技术产品发布。 | | Qwen3-235B-A22B MoE | Qwen3-32B Dense | OpenAl-o 1 2024-12-17 | | --- | --- | --- | --- | | ArenaHard | 95.6 | 93.8 | 92.1 | | AIME'24 | 85.7 | 81.4 | 74.3 | | AIME'25 | 81.5 | 72.9 | 79.2 | | LiveCodeBench v5. 2024.10-2025.02 | 7 ...