Workflow
DeepSeek Prover
icon
搜索文档
对谈 DeepSeek-Prover 核心作者辛华剑:Multi Agent 天然适合形式化数学 |Best Minds
海外独角兽· 2025-06-12 21:27
嘉宾:辛华剑 访谈:penny Era of Experience 这篇文章中提到:如果要实现 AGI, 构建能完成复杂任务的通用 agent,必须借助"经验"这一媒介,这里的"经验"就是指强化学 习过程中模型和 agent 积累的、人类数据集中不存在的高质量数据。 强化学习是 AGI 的关键解法。从 OpenAI o1 到 DeepSeek R1,我们不断在看到强化学习的潜力:DeepMind AlphaProof 被认为是"经验时代"初露端 倪的一个例子,作为第一个在 IMO 获奖的 AI,AlphaProof 借助 RL 算法自行"做题",积累经验,AlphaProof 的案例表明,在像数学这样人类高水 平知识接近极限的领域,RL 通过互动试错可以突破瓶颈,取得超人类的成果。 以 AlphaProof 为开端,整个数学证明领域也在最近半年迎来了 AI 突破的密集期:除了 AlphaProof ,OpenAI 的 o1 模型在数学推理上展现出了惊 人表现,DeepSeek-Prover 三部曲也在形式化数学证明上不断创造新纪录。 为了理解数学和 AGI 的关系,海外独角兽访谈了 DeepSeek-Prov ...
形式化证明与大模型:共创可验证的AI数学未来|量子位直播
量子位· 2025-05-27 11:53
大模型数学推理能力发展 - 5月DeepSeek Prover V2发布 陶哲轩AI数学直播举行 谷歌AlphaEvolve推出 显示大模型解数学题能力成为衡量AI智能天花板的关键指标[1] - FormalMATH基准测试近期发布 旨在系统评估AI数学推理能力 自动定理证明表现与技术路径成为行业焦点[2] 行业技术研讨活动 - 5月29日20:00举办大语言模型形式化证明前沿探索直播 由2077AI开源基金会与多个项目团队联合发起[2] - 参与嘉宾包括DeepSeek Prover第一作者辛华剑 FormalMath项目郁昼亮 Kinima技术负责人王海明等7位学术与工业界专家[3] 行业生态互动 - 量子位策划AI主题征集活动 涵盖365行AI落地方案与一千零一个AI应用案例 鼓励分享AI产品新动向[4] - 量子位每日AI交流群开放加入 提供科技前沿进展每日更新服务[5]
R2来之前,DeepSeek又放了个烟雾弹
虎嗅APP· 2025-05-15 21:03
AI卷起的财富风暴。 作者|宋思杭 编辑|苗正卿 头图|视觉中国 5月前后,DeepSeek的动作倒是频繁,却都不是大家期待的R2。不过,一系列前菜已经给R2做足 了铺垫。 5月14日,一篇DeepSeek V3论文,揭示了梁文峰是如何做到"极致降本"的。这篇论文也让业界得 以一窥这家以技术立身的公司,其"内功"究竟修炼到了何种火候。 以下文章来源于AGI接口 ,作者宋思杭 AGI接口 . 出品|虎嗅科技组 实际上,4月30日,DeepSeek还上了另一道"前菜"。 当时,DeepSeek Prover V2以671B的参数重磅亮相,要知道,DeepSeek上一次发布V2模型的时 候仅有7B。对于DeepSeek Prover V2,行业观察者们普遍认为,这是AI在辅助科学发现,特别是 挑战人类智力极限的数学领域迈出的重要一步。 而DeepSeek近期的系列动作,放置于当前AI大模型产业的宏观背景下,更耐人寻味。 与此前发布的V3技术报告不同,这篇论文详细阐述了DeepSeek如何做到在硬件资源的的"紧箍 咒"下,通过精妙的"软硬一体"协同设计,将成本效益这笔账算到极致。 (虎嗅注:DeepSeek-V3 仅 ...
R2来之前,DeepSeek又放了个烟雾弹
虎嗅· 2025-05-15 18:52
头图|视觉中国 5月前后,DeepSeek的动作倒是频繁,却都不是大家期待的R2。不过,一系列前菜已经给R2做足了铺 垫。 编辑|苗正卿 5月14日,一篇DeepSeek V3论文,揭示了梁文峰是如何做到"极致降本"的。这篇论文也让业界得以一窥 这家以技术立身的公司,其"内功"究竟修炼到了何种火候。 与此前发布的V3技术报告不同,这篇论文详细阐述了DeepSeek如何做到在硬件资源的的"紧箍咒"下, 通过精妙的"软硬一体"协同设计,将成本效益这笔账算到极致。(虎嗅注:DeepSeek-V3仅使用了2048 块英伟达H800 GPU) 出品|虎嗅科技组 作者|宋思杭 实际上,4月30日,DeepSeek还上了另一道"前菜"。 当时,DeepSeek Prover V2以671B的参数重磅亮相,要知道,DeepSeek上一次发布V2模型的时候仅有 7B。对于DeepSeek Prover V2,行业观察者们普遍认为,这是AI在辅助科学发现,特别是挑战人类智力 极限的数学领域迈出的重要一步。 而DeepSeek近期的系列动作,放置于当前AI大模型产业的宏观背景下,更耐人寻味。 一方面,我们看到的是头部厂商在模型参数 ...
算力盘中直线拉升,新易盛涨逾10%,云计算ETF(159890)半日收涨1.20%
搜狐财经· 2025-05-08 12:00
算力硬件板块表现 - 5月8日算力硬件板块异动活跃,新易盛涨超10%带动板块上行,云计算ETF(159890)早盘大涨1.20%,成交额超2500万元 [1] - 成份股方面,东华软件、万兴科技涨逾9%,中际旭创涨超8%,博思软件、数字政通、拓尔思、天下秀、卫宁健康、神州信息等股跟涨 [1] - 算力强势反弹原因包括大盘情绪好转和板块积极催化 [1] 基本面分析 - Mag7中有四家公司营收预测与华尔街预期一致或超出预期 [1] - 云计算ETF(159890)标的指数成份股一季度营收、净利润均同比实现大增,显示算力基建增长强劲 [1] - AI芯片与服务器行业受益于AI行业迅猛发展呈现指标加速,算力租赁服务企业订单密集落地和预付款增加 [1] - IDC行业业务落地周期长,目前财务数据尚未变化但前景乐观 [1] 产业发展动态 - 近期多款大模型迭代亮相,包括阿里通义千问Qwen3系列、小米Xiaomi MiMo、DeepSeek Prover-V2模型 [1] - AI模型进步和需求爆发推动国内云巨头Capex全面提升 [1] 资金流向 - 近期资金显著回流云计算,云计算ETF(159890)昨日获近1800万元资金净申购 [1] 行业展望 - AI需求未受关税扰动影响,正通过"资本开支扩张-商业化落地-业绩兑现"的正向循环持续发展 [1] - 未来伴随大模型技术突破、应用场景拓展和业绩兑现,算力产业链有望保持高景气度 [1] - 可关注算力基建、垂类应用以及生态协同等相关领域 [1]
科创综指ETF(589770)连涨3日,科技成长风格正在回归?
金融界· 2025-05-07 09:27
近期TMT领涨市场,科创综指ETF(589770)连涨3日,5月6日涨超1.9%。 消息面上,近期国内大模型新品陆续发布。DeepSeek发布Prover-V2-671B,参数达6710亿,方便模型更 快、更省资源地训练和部署。阿里Qwen3系列大模型、小米首个推理大模型等上线面世,大模型性能和 应用场景正在不断拓展和细化。 国外方面,近期披露的美股科技巨头财报纷纷超预期,且继续加大AI方面的资本开支。Meta2025财年 第一财季营收与每股收益均大幅超出市场预期,全年资本开支从先前的600亿至650亿美元上调至640亿 至720亿美元;微软2025财年第三财季营收、净利润和每股收益全线超预期,其Azure云计算部门的收入 增长33%。 机构纷纷指出,看好科技板块的布局机会,后续科技成长风格或将回归。 兴业证券认为,随着内部财报陆续披露,以及外部关税扰动逐步过去,科技成长的布局时点已在逐步临 近。且科技板块在经历前期的显著调整后,已经到了一个性价比较高的区间。中期来看,科技板块作为 兼具景气优势和产业趋势催化的中长期逻辑或将再度占据上风。 科创综指ETF(589770)紧密跟踪科创综指,对科创板市值覆盖度高约 ...
云计算沪港深ETF(517390)大涨超4%,位居ETF涨幅榜前三
新浪财经· 2025-05-06 14:47
指数表现 - 中证沪港深云计算产业指数(931470)上涨2.74%,成分股天源迪科(300047)上涨20.00%,华胜天成(600410)上涨10.01%,润和软件(300339)上涨9.01% [3] - 云计算沪港深ETF(517390)上涨4.16%,最新价报1.13元,近2周累计上涨3.15% [3] - 中证计算机主题指数(930651)上涨3.02%,成分股润和软件(300339)上涨8.91%,三六零(601360)上涨5.96%,金山办公(688111)上涨5.45% [8] - 计算机ETF(159998)上涨2.85%,最新价报0.9元,近1年累计上涨20.83% [8] 流动性及规模 - 云计算沪港深ETF盘中换手4.66%,成交1382.15万元,近1月日均成交994.03万元 [3] - 计算机ETF盘中换手1.83%,成交5464.60万元,近1周日均成交5516.59万元 [8] - 计算机ETF最新规模达29.55亿元,创近1月新高,最新份额达33.75亿份,创近1年新高 [8] - 计算机ETF近7天合计资金净流入2.06亿元,最高单日净流入9666.06万元 [8] 收益能力 - 云计算沪港深ETF近3年净值上涨56.99%,指数股票型基金排名12/1742,居于前0.69% [4] - 云计算沪港深ETF自成立以来最高单月回报33.39%,最长连涨月数6个月,最长连涨涨幅66.14%,上涨月份平均收益率9.82% [4] - 云计算沪港深ETF年盈利百分比66.67%,历史持有3年盈利概率80.85% [4] - 云计算沪港深ETF近3个月超越基准年化收益0.97%,排名可比基金1/2 [4] 风险与跟踪 - 云计算沪港深ETF近1年夏普比率1.16,排名可比基金1/2 [4] - 云计算沪港深ETF今年以来相对基准回撤0.39%,在可比基金中回撤最小 [4] - 云计算沪港深ETF管理费率0.50%,托管费率0.10%,费率在可比基金中最低 [4] - 云计算沪港深ETF近2年跟踪误差0.051%,在可比基金中跟踪精度最高 [4] 估值水平 - 中证沪港深云计算产业指数最新市盈率(PE-TTM)22.95倍,处于近1年13.38%分位,估值低于近1年86.62%以上的时间 [5] 行业动态 - 阿里通义千问发布Qwen3系列开源大模型,旗舰版Qwen3-235B-A22B在代码、数学、通用能力等基准测试中超越DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等顶级模型 [9] - 小米开源首个参数规模7B的推理大模型XiaomiMiMo,在数学推理和代码竞赛测评表现超越o1-mini和QwQ-32B-Preview [9] - DeepSeek发布Prover-V2模型,参数量达6710亿 [9] - 开源证券表示国产大模型能力快速跃进为AI应用生态繁荣奠定坚实技术底座 [9] - 海通国际认为开源模型未来将通过定制化演进在垂直行业中建立长期壁垒与用户黏性 [9] 相关产品 - 云计算沪港深ETF(517390)紧密跟踪中证沪港深云计算产业指数,选取50只业务涉及提供云计算服务以及为云计算提供硬件设备的上市公司证券 [10] - 计算机ETF(159998)跟踪中证计算机主题指数,选取涉及信息技术服务、应用软件、系统软件、电脑硬件等业务的上市公司证券 [10]
AI Agent:模型迭代方向?
2025-05-06 10:28
纪要涉及的行业和公司 - **行业**:AI行业 - **公司**:微软、OpenAI、Anthropic、Deepseek、Kimi、Meta 纪要提到的核心观点和论据 AI商业化进展 - **观点**:AI商业化进展整体慢于预期,ToB端更慢,ToC端OpenAI产品仍以chatbot为主 [1][3] - **论据**:微软Copilot未达2023年3月披露时预期效果,OpenAI产品未进入agent阶段 大模型迭代趋势 - **观点**:过去三年全球大模型能力通过前训练和后训练提升,近三个季度后训练成主要迭代方式,推理模型能力显著提高 [2] - **论据**:思维链数据使agent执行复杂任务时可利用过程数据提升推理能力,大模型厂商迭代模型,无迭代能力公司用工程化方式完善产品 agent面临的问题及解决方法 - **观点**:agent执行复杂任务准确率受大模型能力限制,可通过工程化方法和后训练技术提高准确率 [1][5][9] - **论据**:工程化方法如将任务拆分由多个Agent执行;后训练技术如思维链技术可提高模型推理能力 各公司在agent研究方面进展 - **观点**:Anthropic在agent产品化和模型能力方面比OpenAI更具优势 [1][6] - **论据**:Anthropic技术积累更超前,ComputeUse系统运行时间早于OpenAI相应产品至少一个季度 大型科技公司推动大模型发展方式 - **观点**:大型科技公司通过技术研发和工程化手段推动大模型发展 [1][7] - **论据**:Deepseek、OpenAI和Anthropic专注技术研发,其他公司采用工程化手段完善产品 Chatbot和Agent对模型幻觉容忍度差异 - **观点**:Chatbot对模型幻觉容忍度高,Agent需每步操作准确无误,提升执行准确率是当前模型重要问题 [1][8] - **论据**:Chatbot一问一答,个别回答错误不影响后续;Agent执行多步任务,每步正确率90%最终任务也可能失败 DeepSeek发展情况 - **观点**:DeepSeek在2024年推出系列新型多模态模型,提升整体性能与应用范围 [4][12] - **论据**:发布GPT系列多个版本,Prover系列不同版本陆续推出 Prover V2相关情况 - **观点**:Prover V2为解决agent产品化问题提供新思路,性能有显著提升 [1][5][20] - **论据**:核心作者公开信息并提供论文;参数量达6,711亿,采用混合专家模型等改进使其能解决更复杂任务 推理能力提升挑战与方法 - **观点**:推理能力提升依赖算法设计,各公司缺乏统一路径,Deepseek通过两阶段训练提升下一代模型推理能力 [30][32] - **论据**:成功设计奖励函数和强化学习算法可提高推理效果;第一阶段用专家模型迭代,第二阶段优化数据集和架构 Agent AI商业化与算力需求 - **观点**:Agent AI商业化需全面分析,算力需求对Agent发展有重要影响 [37][38] - **论据**:市场可能低估关键算力需求,识别后将推动Agent发展,大厂改造推荐引擎已显示算力提升重要性 其他重要但可能被忽略的内容 - **Kimi情况**:Kimi发布72B预训练版本,能力较强,产品质量优于初期,团队技术实力较强 [24] - **测试集特点**:Putnam Benchmark测试集侧重分解解决问题能力;Deepseek Prover Bench不仅测试数学问题,还对比非形式化与形式化推理,在Deepseek V3版本展示非正式推理优势 [25][26] - **Lean四版本作用**:Lean四版本作为Deepseek Prover V2形式化证明标准,确保验证过程严谨准确 [27] - **DeepSigmaMath模型应用**:V1和V1.5版本参数量约7B,采用监督学习,转向强化学习和树搜索增强探索能力;V2版本参数量提升至7,000亿,采用混合专家模型架构,提高Prover能力 [28] - **基座模型挑战**:数据集和架构优化无市场共识,增加参数量是否为未来迭代主要方式存在分歧 [31] - **DeepSeek模型迭代路径**:从2024年2月DeepSeek模型开始,经Prover 1.0、V1.5、DeepSeek V3等版本,最终蒸馏出7B参数小型高性价比模型,未来可能演化出R2或V4 [34][35]
巴菲特年底退休,63岁高管接班,已囤2.5万亿现金;黄仁勋十年首涨基本工资;爱上ChatGPT,女子结婚20年后要离婚|AI周报
AI前线· 2025-05-04 12:28
巴菲特退休与伯克希尔动态 - 巴菲特宣布2024年底退休,63岁副董事长格雷格·阿贝尔将接任CEO,但仍保留顾问角色并提供决策支持[1][2] - 伯克希尔1965-2024年每股市值复合年增长率达19.9%,显著超越标普500指数的10.4%,累计市值增长达55022倍[3] - 公司现金储备达3477亿美元(约2.53万亿元人民币),连续10个季度净减持股票,2024年一季度营业利润下降14%至96.4亿美元[6] 英伟达与芯片行业争议 - 英伟达驳斥Anthropic关于"中国用仿真孕肚和活龙虾走私GPU"的指控,称应专注技术创新而非编造故事[7][8] - 公司反对收紧芯片出口限制,指出中国拥有全球50%的AI研究人员,美国需通过技术竞争而非监管手段取胜[9] - 黄仁勋2025财年薪酬达4990万美元(约3.63亿元),同比增长46%,基本工资十年来首次上涨至150万美元[10][11][12] 中国企业动态 - 蚂蚁集团旗下蚂蚁国际计划在香港上市,该板块占集团收入20%,拥有Alipay+等三大跨境支付产品[13][14] - 腾讯重组混元大模型研发体系,成立大语言模型部和多模态模型部,2024年研发投入达707亿元[16][17][21] - 阿里千问3开源模型登顶全球最强,采用混合推理模式,235B参数模型仅需4张H20显卡部署[41] AI技术进展 - DeepSeek发布Prover-V2模型,参数量达6710亿,支持16.38万超长上下文处理[42] - 小米开源7B参数Xiaomi MiMo模型,在数学推理和代码竞赛中超越OpenAI o1-mini和阿里Qwen-32B[43] - Meta推出独立AI助手应用Meta AI,融合社交分享功能挑战ChatGPT[44][45] 行业事件与创新 - 全球首个"AI妈祖"在马来西亚亮相,由Aimazin公司开发,可解答信徒疑问并提供生活建议[38][39] - 星纪魅族联合蚂蚁国际推出全球首款支持AR眼镜线下支付功能的产品,计划2024年Q3落地[52] - 微软发布Phi-4-reasoning系列小模型,在AIME 2025评测中超越Deepseek R1满血版[46][47]