Workflow
推理
icon
搜索文档
英伟达打响“股价保卫战” 黄仁勋回答了十个关键问题
搜狐财经· 2025-05-05 13:58
文章核心观点 - 英伟达CEO黄仁勋在GTC 2025大会演讲被赋予“股价保卫战”意义,他认为AI芯片需求持续增长,大会发布新产品和系统,搜狐汽车整理其试图回答的十大问题 [2][3] 生成式AI相关 - 人工智能过去十年进步惊人,先有感知型AI,后专注生成式AI,其改变计算模式,从检索型变为生成型 [3][4] AI发展方向 - 推出可与数字世界互动、代表用户执行任务的Agent AI,接下来是有望为人形机器人提供动力的物理人工智能 [5] 推理型AI相关 - 推理型AI可像人一样分步骤推理选最佳结果,通过强化学习和自监督学习发展,训练需处理数万亿级token,推动了模型发展 [6] - 推理型AI生成Token数量巨大,需提高系统计算速度十倍,意味着一百倍以上计算量,训练和推理服务所需计算资源过去一年爆炸式增长 [7] 数据中心业务 - 今年迄今Blackwell GPU已向四大云平台销售360万块,分析师预测全球数据中心资本支出到2030年达数万亿美元,建设规模1万亿美元时间点会更快到来 [8] - 数据中心业务增长动力是计算方式转型和从检索型计算到生成型计算转变,未来各行业公司将有AI工厂 [8][9] 边缘计算领域 - 英伟达与思科、T - Mobile和服务器ODC合作将AI带入边缘计算领域,利用无线电网络和通信数据中心资源,实现加速计算与AI融合,AI可优化通信效果 [10] 自动驾驶汽车领域 - 英伟达投入超十年,技术被广泛应用,与通用汽车在多领域合作,打造“Halos”安全体系,经安全评估且拥有超1000项专利 [11] - 通过Omniverse和Cosmos加速AI开发,采用模型蒸馏、闭环训练和合成数据生成等方法提升自动驾驶安全性和智能化 [12] Dynamo软件 - Dynamo是开源软件,可提高人工智能推理效率并降低成本,能让Nvidia Hopper平台为Meta的Llama型号提供服务的性能提高一倍,加速用户采用人工智能推理 [14][15] AI系统路线图 - Blackwell Ultra今年下半年上市,亚马逊AWS、谷歌云、微软Azure和甲骨文将首批提供支持服务 [16] - 下一代系统Vera Rubin预计2026年下半年推出,含144个独立Nvidia GPU;2027年下半年发布含576个GPU的Rubin Ultra,大幅提高AI计算能力和效率 [16]
计算机行业重大事项点评:DeepSeek-Prover-V2发布,专注数学推理
华创证券· 2025-05-04 17:28
报告行业投资评级 - 推荐(维持),预期未来 3 - 6 个月内该行业指数涨幅超过基准指数 5%以上 [4][20] 报告的核心观点 - 4 月 30 日,DeepSeek 发布 DeepSeek - Prover - V2 - 671B 新模型、DeepSeek - Prover - V2 - 7B 增强模型及 DeepSeek - ProverBench 数据集并公布论文信息 [2] - 新模型专注数学定理证明,采用特定架构、参数和技术,实现形式化与非形式化数学证明融合,创新推理训练流程,定理证明达业内最佳 [7] - 国内 AI 数学推理达新高度,建议关注国产算力、AI 应用与 AI 安全等领域投资机遇,并列出多领域建议关注公司 [7] 根据相关目录分别进行总结 行业基本数据 - 股票家数 336 只,占比 0.04%;总市值 42,657.40 亿元,占比 4.41%;流通市值 36,398.85 亿元,占比 4.74% [4] 相对指数表现 - 1 个月绝对表现 - 5.3%,相对表现 - 1.6%;6 个月绝对表现 2.3%,相对表现 5.4%;12 个月绝对表现 27.0%,相对表现 22.4% [5] 新模型特点 - DeepSeek - Prover - V2 - 671B 采用和 DeepSeek V3 - 0324 相同架构,参数 6710 亿,用 MoE 模式,有 61 层 Transformer 层等,支持超长上下文及多种计算精度,用 safetensors 格式优化训练部署,通过 FP8 量化技术提高推理效率 [7] - 自 2024 年 3 月以来,DeepSeek - Prover 系列已推出 3 款模型,DeepSeek - Prover - V2 进一步提出“子目标分解的强化学习”,基础模型升级到 DeepSeek - V3 [7] - 采用“递归定理证明流程”和两阶段训练策略,减轻计算负担,构建最终形式证明 [7] - DeepSeek - Prover - V2 - 671B 在神经定理证明领域创新高,7B 模型解决部分大模型未攻克问题,形式与非形式数学能力差距缩小 [7] 投资建议 - 建议关注国产算力、AI 应用与 AI 安全等领域投资机遇,涉及办公、金融、大模型等 18 个领域多家公司 [7] 受益标的梳理 - 报告列出海光信息、寒武纪 - U 等多家公司 2024A、2025E 的营收、归母净利润、PE、PS 等数据 [8][9]
AI的下一个风口?听前DeepSeek成员辛华剑解读数学推理 | Deep Talk
锦秋集· 2025-05-03 16:51
DeepSeek-Prover-V2-671B模型发布 - 公司发布专注于形式化数学推理的开源大型语言模型DeepSeek-Prover-V2-671B,参数量达6710亿 [1] - 该模型结合LLM泛化能力与形式化工具(如Lean),首次实现自然语言描述到机器可验证证明的大规模端到端转化 [2] - 形式化数学被视为AI"终极挑战",突破可能将数学研究效率提升数倍,并打开金融建模、芯片验证、密码学等高价值商业场景 [2] 大模型开发者活动 - DeepSeek前成员辛华剑将参与"大模型开发者与AI基金合伙人跨洋对谈",分享《大语言模型时代的形式化数学革命》 [2] - 辛华剑为DeepSeek-Prover系列模型开发主导者,现任爱丁堡大学AI博士生及字节跳动研究实习生,专注大模型在数学定理证明的创新应用 [2][4] - 锦秋基金合伙人臧天宇将同期分享2025年AI创投趋势 [3][4] 活动主办方背景 - 锦秋基金专注AI领域投资,在管基金为12年长期基金,59%项目为首次投资,采取多轮追加策略,已投资北美活跃AI基金 [6] - 剑桥中国人工智能协会(CCAIA)致力于链接中国AI产业与海外学界,采用轻量化社群模式促进中英资源流动 [7] - 清华大学学生通用人工智能研究会(THUAGI)以培养下一代通用AI人才为目标,依托清华AI研究院资源 [9] - 清华大学学生创业协会成立于1997年,为全国最早高校创业协会之一,28年来聚焦创业生态培育 [10] 活动流程 - 英国时间15:00/中国时间22:00开始辛华剑主题演讲,随后臧天宇分享AI创投趋势 [8] - 活动含圆桌对谈及观众提问环节,国内通过腾讯会议直播,需通过锦秋基金公众号报名 [5][6][8]
浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误
机器之心· 2025-05-02 12:39
当前,多模态大模型驱动的图形用户界面(GUI)智能体在自动化手机、电脑操作方面展现出巨大潜力。然而,一些现有智能体更类似于「反应式行动者」 (Reactive Actors),主要依赖隐式推理,面对需要复杂规划和错误恢复的任务时常常力不从心。 我们认为,要真正提升 GUI 智能体的能力,关键在于从「反应式」迈向「深思熟虑的推理者」(Deliberative Reasoners)。为此,浙江大学联合香港理 工大学等机构的研究者们提出了 InfiGUI-R1 ,一个基于其创新的 Actor2Reasoner 框架训练的 GUI 智能体,旨在让 AI 像人一样在行动前思考,行动后 反思。 论文标题:InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners 从「反应行动」到「深思熟虑」:GUI 智能体面临的挑战 想象一下,你让 AI Agent 帮你完成一个多步骤的手机操作,比如「预订明天下午去北京的高铁票」。一个简单的「反应行动」式 Agent 可能会按顺序点 击它认为相关的按钮,但一旦遇到预 ...
Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
机器之心· 2025-05-02 12:39
推理模型发展现状 - 著名AI技术博主Sebastian Raschka正在撰写新书《Reasoning From Scratch》,聚焦LLM推理机制实现[2] - 当前LLM的成功主要依赖统计模式识别,而新兴推理技术使其能处理逻辑难题、多步骤算术等复杂任务[5] - OpenAI的o1模型和深度求索的DeepSeek-R1标志着推理能力成为行业焦点[41][44] LLM推理的核心定义 - LLM语境中的推理指模型生成中间步骤(思维链CoT)后输出最终答案的能力[8] - 推理过程可能展示中间步骤,但其底层机制与人类认知存在本质差异[12][13] - 推理与模式匹配的根本区别在于:前者需逻辑推导,后者仅复现训练数据中的统计关联[23][25] LLM训练流程 - 传统训练分两阶段:预训练(TB级文本学习语言模式)和后训练(指令微调+偏好微调)[16][17] - 预训练成本极高(数千GPU运行数月/数百万美元),使模型具备翻译、代码生成等涌现能力[17] - 后训练阶段通过SFT提升任务理解能力,通过偏好微调优化输出风格[20] 模式匹配与逻辑推理对比 - 标准LLM(如GPT-4o)通过高频搭配记忆回答问题(如「德国→柏林」),非真实推理[24] - 面对矛盾前提(「所有鸟都会飞但企鹅不会」),普通LLM依赖训练数据中的文字概率而非逻辑检查[28][30] - 大规模训练使模型能模拟推理行为,但遇到全新题型、复杂推导时仍易出错[36][37] 推理能力提升方法 - 推断时间计算增强:通过思维链等技术在推理阶段提升性能,无需修改模型权重[46] - 强化学习:基于数学证明正确性等客观奖励信号动态优化推理策略[47] - 知识蒸馏:将高性能模型的推理模式迁移至轻量化模型,需专用推理任务数据集[48][49] 推理模型的应用权衡 - 推理模型适用于数学证明、编程等复杂任务,但对翻译、问答等简单任务效率低下[56] - 生成更长中间步骤导致计算成本倍增(API计费按token数量)[57] - 行业趋势显示主流厂商正将推理能力整合至通用模型(如OpenAI计划统一GPT与o系列)[54][55] 实践价值 - 从头实现推理模型可深入理解LLM能力边界与计算成本权衡[51][57] - 深度求索开源方案推动行业技术透明化,降低开发门槛[52] - 专用推理模型需与通用模型配合使用,形成任务适配的技术矩阵[56]
阿里Qwen3大模型登顶开源冠军,中国AI应用即将迎来大爆发?
搜狐财经· 2025-05-02 02:34
文章核心观点 4月29日阿里巴巴发布新一代通义千问模型Qwen3,其效率高、成本低,性能卓越,开源后引发行业震动,适配众多厂商,在多方面表现出色,有望推动AI大模型在终端应用落地 [3] 千问3模型亮点 - 模型大小仅为相近性能模型的三分之一,性能超越R1和OpenAI - o1等全球顶尖模型,登顶全球最强开源模型 [3] - 国内首个“混合推理模型”,整合“快思考”与“慢思考”,简单问题低算力“秒回”,复杂问题多步骤思考节省算力 [3] - 在推理能力、指令遵循、工具调用及多语言能力等方面显著提升,创造国产及全球开源模型新性能高峰 [20] - 拥有独特混合推理、推理能力增强、人类偏好对齐卓越、智能体能力突出、多语言能力强大五大关键特性 [20] 千问3性能表现 - 在AIME25测评获81.5分刷新开源纪录,LiveCodeBench评测突破70分超Grok3,ArenaHard测评95.6分超越OpenAI - o1及DeepSeek - R1 [20] - 在多项评测中表现优异,如ArenaHard、AIME'24、AIME'25、LiveCodeBench v5等评测中成绩突出 [27] 混合推理模式 - 将顶尖推理和非推理模型集成,简单问题瞬间作答、算力消耗少,复杂问题开启思考模式 [21] - 技术门槛高,需多轮强化学习训练,热门模型中仅千问3、Claude3.7、Gemini 2.5 Flash可做到 [21] - 可通过API设置“思考预算”,在性能和成本间取得平衡 [22] 开源优势 - 显著降低部署成本,仅4张H20显卡即可部署旗舰版 [24] - 共开源8款模型,含2款MoE模型和6款稠密模型,各模型针对不同场景优化 [24] - 小尺寸模型对智能设备和场景部署友好,企业可免费下载和商用,加速AI大模型终端应用落地 [25] 行业适配情况 - 华为昇腾支持千问3全系列模型部署,开发者可实现0Day适配,此前也同步支持千问系列模型 [28][31] - NVIDIA、联发科、AMD等头部芯片厂商成功适配,联想“百应”接入千问3提升关键能力 [32] 智能体支持 - 在BFCL评测创下70.8新高,超越顶尖模型,降低Agent调用工具门槛 [33] - 原生支持MCP协议,结合Qwen - Agent框架降低编码复杂性,实现高效手机及电脑Agent操作 [33] 语言支持与开源成果 - 支持119种语言和方言,包括主要联合国语言、各国官方语言及多种地方性语言 [20][38] - 从2023年至今开源200多款模型,覆盖“全模态”“全尺寸”参数,多次获权威榜单冠军 [38] - 通义千问Qwen衍生模型超10万,全球下载量超3亿,在HuggingFace社区下载量占比超30% [39] - 在斯坦福HAI研究所报告中,2024年阿里6个模型入选重要大模型,AI贡献位列全球第三 [39]
刚刚!DeepSeek-Prover-V2-671B 发布,网友:DS 是假期终结者
程序员的那些事· 2025-05-01 10:04
DeepSeek-Prover-V2-671B发布 - 公司于4月30日正式推出DeepSeek-Prover-V2-671B模型,标志着AI数学推理能力进入新阶段 [2][4] - 该模型基于6710亿参数混合专家(MoE)架构,专为Lean 4证明辅助框架优化 [4] 技术架构特性 - 采用动态参数激活机制,单次推理仅调用约370亿参数,平衡性能与计算效率 [4][6] - 上下文窗口约128k tokens,支持高阶数学证明中的复杂长逻辑链处理 [6][7] - 可能延续多头潜在注意力机制(MLA),显著降低KV缓存需求并提升吞吐量 [7] 核心突破价值 - 实现形式化数学的"GPT-4级"突破,处理复杂数学证明能力显著提升 [7] - MoE架构相比稠密模型大幅降低内存需求并提高运算速度 [7] - 开放商用许可,预计在Hugging Face开源权重,支持学术与工业应用 [7] 应用场景拓展 - 形式化验证:应用于密码学安全证明、芯片设计验证等自动化流程 [7] - 数学研究加速:辅助定理形式化、新猜想探索及奥赛级难题证明 [7] - 智能教育工具:构建可验证步骤的交互式数学教学系统 [7] - 关键系统安全:通过Lean集成验证核心代码逻辑的正确性 [7] 基础训练数据 - 基础预训练可能超过14.8万亿tokens(基于V3基础),提供广泛知识储备 [6]
不到15万元!清华90后团队发布“褐蚁”一体机,已支持阿里最新Qwen3模型|钛媒体AGI
钛媒体APP· 2025-04-30 23:09
行云集成电路创始人、CEO季宇 4月30日消息,钛媒体AGI获悉,清华90后创立的北京行云集成电路有限公司(简称"行云集成电路") 宣布,推出全新的一体机产品"褐蚁",仅需最高15万元就可以跑满血版DeepSeek R1/V3大模型,并且对 话速度达到了20token/s。 今天下午,行云集成电路创始人、CEO季宇对钛媒体AGI表示,目前"褐蚁"一体机已经支持阿里最新发 布的Qwen3系列开源大模型,包括顶配版Qwen3-235B-A22B。 具体来说,"褐蚁"一体机有三款不同的配置:最高性价比的"超大杯"褐蚁HY90,搭载双路AMD EPYC 9355服务器、24条 48G 6400M频率内存和NV 5090D计算卡,支持FP8、INT4两种数据精度,在FP8精度 下跑满血版DS能达到21token/s的对话速度,在INT4精度下则能达到28token/s,最高支持128K的上下 文,售价14.9万元;此外,行云集成电路还将推出"大杯"褐蚁HY70、"中杯"褐蚁HY50两个配置版本。 | 型号 | 福盛 HY90 | 褐蚁 HY70 | 褐蚁 HY50 | | --- | --- | --- | --- | ...
从论文中积累复现 R1 的 insight
理想TOP2· 2025-04-30 21:04
算法改进与优化 - GRPO算法存在响应级长度偏差和问题级难度偏差,导致生成错误响应 Dr. GRPO通过去除归一化项、采用蒙特卡罗回报估计优势等方法,有效避免优化偏差,提升令牌效率并维持推理性能 [3][4] - DAPO方法解决GRPO和PPO在大语言模型强化学习中的熵坍缩、样本效率低等问题 Clip-Higher技术提高低概率token概率提升空间,动态采样过滤无效样本,Token-Level Policy Gradient Loss优化长思维链场景训练 [6] 强化学习超参数设置 - 较大Train Batch Size(如TBS=1024)增强训练效率与稳定性 On-policy策略相比Off-policy更具优势,促进模型探索 Tollout Times增加(如n=64)提升训练效果,Rollout Temperature为1.2时性能更佳 KL惩罚系数采用动态退火策略(从KL=1×10⁻³到KL=0余弦衰减)平衡探索与稳定性 [6] 奖励机制设计 - 早期奖励规则不完善导致模型出现多种reward hacking行为 迭代完善规则设计后,要求模型按特定格式输出并构建规则式奖励系统,格式正确得1分错误得-1分,答案完全正确得2分部分错误得-1.5分 [6] - ruled-based reward相比reward model更不易受reward hacking影响 在业务没有明确答案时,建议结合ruled-based数据(如数学、编程任务)与reward model一起训练 [9] 推理能力发展特点 - 推理能力提升是渐进过程,没有明显的"顿悟时刻" 模型在训练前已具备复杂推理行为(如反思、验证),后续提升呈渐进趋势 [5][6] - 增加回答长度与推理性能提升相关但非因果关系 响应长度增加可能提供更多探索空间,但核心提升源于对有效推理步骤的优化 通常response越长准确性越低,因难题需要更长推理 [5][6] 强化学习泛化效应 - RL相比SFT更能促进泛化 在逻辑题上使用RL对数学题也有提升,表明推理可能是模型的通用能力 [7][9]
全球最强开源AI大模型诞生:中国研发,成本只有Deepseek的30%
新浪财经· 2025-04-30 19:28
大模型技术路线分化 - 全球AI大模型发展呈现两种技术路线:OpenAI代表的"大力出奇迹"路线依赖高强度GPU堆砌算力 [1][3] - Deepseek代表的"四两拨千斤"路线通过算法优化实现低算力高性能 仅需少量显卡即可超越同行性能 [3] - 开源模式成为行业趋势 因开源模型更易获得开发者采用 [1] 阿里千问3技术突破 - 千问3(Qwen3)成为全球首个混合推理模型 集成"快思考"与"慢思考"双模式 可根据任务复杂度动态调整 [5] - 在ArenaHard(95 6)、AIME'24(85 7)等8项基准测试中超越OpenAI-o1、Deepseek-R1等主流模型 [6] - 参数规模仅为Deepseek-R1的三分之一 显存占用减少三分之二 部署成本降低65%-75% [6][7] 硬件部署革新 - 仅需4张H20显卡即可部署全功能千问3 显存需求为同类产品的三分之一 [7] - 部署成本降至满血版Deepseek-R1的25%-35% 大幅降低商业化门槛 [7] - 混合推理架构使单张H20显卡可支持2000token/s的生成速度 [7] 国产GPU产业机遇 - Deepseek已验证国产GPU可替代英伟达高端芯片部署高性能模型 [9] - 千问3的低算力需求将进一步加速国产GPU替代进程 [9] - 行业算力泡沫被打破 中低端国产GPU迎来市场扩容机会 [9]