推理

搜索文档
智谱想给DeepSeek来一场偷袭
虎嗅· 2025-03-31 20:39
文章核心观点 智谱在3月31日中关村论坛闭幕式现场推出新模型反击DeepSeek,同时公司在商业化布局、技术研发等方面有相应规划和思考,以应对行业变化和挑战 [2][6] 公司动态 - 3月31日智谱在智能体产品和基座模型两大维度分别推出"AutoGLM沉思模型"和推理模型GLM - Z1 - Air,Air用32B参数比肩671B的DeepSeek R1模型,价格仅为其1/30,且将于4月14日正式开源 [2] - 智谱CEO张鹏称公司在为IPO铺路但无具体计划,商业化以端侧为切口渗透七大行业,还宣布与东盟十国及“一带一路”沿线国家共建“自主大模型共建联盟” [6] - 智谱2023年开始在Agent领域投入,现阶段认为进入可大规模应用和落地阶段 [16] - 智谱会对具身智能进行相应布局,但还需时间 [19] 行业现状 - 2025年大模型圈“预训练”难成关键词,大模型六小虎中百川智能大批核心成员离职并砍掉部分业务,零一万物放弃万亿参数赛道转向B端业务 [3] - 自2025年初DeepSeek以“成本优势 + 开源”撕开市场缺口,头部云厂商依托生态优势卡位,大模型创业公司用价格力挽狂澜 [9] - 第一季度资本对大模型初创公司失去耐心,除智谱连续拿到地方产投融资,无市场化资本进入其余大模型企业 [4] - 大模型企业面临商业化难题,预训练未能让基座模型厂商形成护城河 [5][6] 对话问答 开源策略与商业化 - 开源是智谱从第一天开始坚持的事,宣布2025年为开源年是考虑DeepSeek对技术生态和认知的影响,公司认为模型即服务(MaaS)会落地,开源与否不是关键问题 [12] 预训练与推理模型 - 预训练仍很重要,是RL等方法的基座模型天花板,其中预训练的架构、数据使用效率等有很多待研究点 [13] - 推理模型在泛用性任务上表现不及预期,但技术改进会产生新可能,其应用受技术发展阶段影响 [14] 融资计划 - 实现AGI路程长,从0到1开拓试错成本高,公司走在前面的部分需加大投入 [15] Agent领域 - Agent核心能力是模型本身能力和感知环境与环境智能交互能力,AutoGLM更早用于手机端,其他端侧也可接入,但存在设备交互方式和硬件适配问题 [17] 战略层面 - 公司定位技术驱动,技术研发和商业化两条腿动态调整,目前核心任务和资源投入仍侧重技术研发 [21] 落地预期 - 去年公司整体实现超100%增长,今年预计市场呈十倍以上增长,公司会保持稳定商业化落地速度和效益 [22]
业界突破多模态泛化推理能力,OPPO研究院&港科广提出OThink-MR1技术
量子位· 2025-03-30 10:37
多模态大模型技术突破 - OThink-MR1技术通过动态强化学习框架显著提升多模态语言模型的泛化推理能力,突破传统方法的局限性[1][7][29] - 传统监督微调(SFT)方法在特定任务表现良好但缺乏通用推理能力,而强化学习(RL)存在训练约束导致次优瓶颈的问题[4][5] 核心技术机制 - 动态KL散度策略(GRPO-D)动态调整探索与利用的平衡,避免模型陷入局部最优解[8][10][11][12] - 双奖励模型设计包含验证准确性奖励和格式奖励,通过多维度反馈提升模型学习效率[13][14][15] 实验验证结果 - 同任务评估中GRPO-D表现超越监督微调方法,在视觉计数和几何推理任务成绩提升显著[17][18][28] - 跨任务评估显示GRPO-D模型在完全不同的任务类型间展现强泛化能力,成绩较未训练模型大幅提高[21][22][23][24] - 格式奖励权重非零时模型表现更优,KL散度权重需适中调节以取得最佳效果[17][18] 行业影响 - 该技术为多模态语言模型发展开辟新路径,展现动态强化学习在提升推理与泛化能力方面的潜力[29] - 技术由OPPO研究院与香港科技大学(广州)联合研发,论文已公开发表于arXiv平台[30]
陈立武致股东的一封信,披露英特尔未来战略
半导体行业观察· 2025-03-28 09:00
新任CEO的战略方向 - 新任CEO陈立武上任后首要任务是重新聚焦客户需求,推动文化变革以加速行动效率和简化合作流程 [2] - 强调从"空谈"转向实际行动,领导团队已开始推动组织变革,目标是更快执行、更智能工作并赋能员工技术创新 [2] - 承认2024年业绩未达预期,但第四季度收入、毛利率和每股收益均超预期,为2025年提供改进基础 [3] 成本优化与运营调整 - 已实施100亿美元成本削减计划,包括裁员15%以精简业务规模,同时保持关键增长领域投资 [3] - 持续降低运营费用和资本支出,简化产品组合并减少组织复杂度 [3] 产品业务布局 - PC芯片领域保持70%市场份额,通过Core Ultra系统强化AI PC领导地位 [4] - 与200+独立软件供应商合作优化400+功能,巩固CPU市场优势 [4] - 数据中心领域近75%主要工作负载运行于英特尔芯片,Xeon 6产品组合正缩小与竞争对手差距 [4][5] - 产品路线图:2024下半年推出18A制程的Panther Lake,2026年推出Nova Lake客户端芯片及Clearwater Forest服务器芯片 [4][5] 代工业务与技术发展 - 英特尔18A工艺进展顺利,年中将完成首批外部客户项目设计并投入晶圆制造 [6] - 亚利桑那州工厂将于2024年启动18A工艺量产,同步推进未来节点路线图 [6] - 优化资本支出以匹配市场需求,推动代工业务盈利 [6] AI与数据中心战略 - 凭借AI服务器主机CPU优势布局本地推理和边缘AI应用 [5] - 计划开发机架级系统解决方案以提升云AI数据中心市场竞争力 [5]
砸崩算力股,重挫英伟达,这份报告究竟说了什么?
华尔街见闻· 2025-03-27 18:32
隔夜,一份揭示算力市场巨变的报告带崩美国AI概念股。 3月26日,TD证券旗下TD Cowen发布报告称,微软放弃在美欧合计耗电2GW的新数据中心项目,将此归因为计算机集群供应过剩。 受此影响,美股芯片股跌幅扩大,费城半导体指数收跌约3.3%,英伟达收跌超5.7%,领跌科技七巨头,AI概念股普跌,超微电脑收跌近8.9%。 TD Cowen通过渠道调查发现,微软数据中心租赁取消和延期情况比预期更为普遍,不仅包括美国,还扩展到欧洲市场。然而,谷歌和Meta迅速填补空缺,数 据中心总需求同比仍在增长。与此同时,超算架构正向更高密度转型,导致设备订单短期放缓,这对设备供应商构成挑战。 此前2月24日,TD Cowen的相关报告就引发市场高度关注,令投资者感到不安。报告称,微软已经取消了与多个私营数据中心运营商的数项租赁协议,涉及功 率总计数百兆瓦。 这些举动表明,微软可能正处于数据中心"供应过剩"的局面。 下图为TD Cowen两次报告后英伟达股价走势: Open AI 有潜力在中长期内开始自行建设数据中心 报告指出,OpenAI正越来越多地寻求直接从第三方(包括GPU即服务提供商和第三方数据中心运营商)获取数据中心 ...
华尔街这是“约好了一起唱空”?巴克莱:现有AI算力似乎足以满足需求
硬AI· 2025-03-27 10:52
算力供需分析 - 2025年全球AI算力可支持15-220亿个AI Agent,足以满足欧美1亿多白领和10亿企业软件许可证需求 [3][4] - 2025年全球将有1570万个AI加速器在线,其中40%(630万个)用于推理,50%推理算力(310万个)专用于Agent/聊天机器人 [4] - 现有H100等效安装基数为1570万颗,其中60%(940万颗)用于训练,40%(630万颗)用于推理,50%推理芯片(310万颗)分配给Agent服务 [5] - 使用高效模型(如DeepSeek R1)可使行业容量提升15倍,企业正转向开源模型(如Mistral)降低成本 [6][11] - 表面算力充足但存在结构性缺口,需更多专用推理芯片和训练GPU转推理用途 [13] 市场机会与竞争格局 - AI Agent市场增长潜力巨大,低推理成本和开源模型是盈利关键 [8][9] - 高效推理成本结构和专注小型高效模型的公司更具竞争优势 [13] - 超级Agent产品(如GPT-5)单月消耗3560万Token,日查询44次,远超普通Agent的2.6次 [18] 模型经济效益对比 - OpenAI o1模型Agent年成本2400美元,DeepSeek R1仅88美元,后者用户容量是前者15倍 [15] - Agent单次查询生成1万Token(传统聊天机器人400个),推理成本增加25倍 [15] - 不同模型参数差异显著:GPT-5参数1.5万亿(活跃33%),DeepSeek R1参数671亿(活跃6%) [5] 技术发展趋势 - 行业需从基准测试转向实用Agent部署,关注单位经济学 [2][13] - 更便宜/小型高效模型(如DeepSeek风格)是未来需求方向 [13]
长文本向量模型在4K Tokens 之外形同盲区?
AI科技大本营· 2025-03-27 10:23
责编 | 梦依丹 2025 年 2 月发布的 NoLiMA 是一种大语言模型(LLM)长文本理解能力评估方法。不同于传统"大海捞针"(Needle-in-a-Haystack, NIAH)测试依赖 关键 词匹配的做法,它最大的特点是 通过精心设计问题和关键信息,迫使模型进行 深层语义理解和推理,才能从长文本中找到答案。Jina AI 技术团队 受到启发,并进针对向量模型 jina-embeddings-v3 进行了类似实验。 NoLiMa: https://arxiv.org/abs/2502.05167 NoLiMA 的研究结果揭示了一个重要问题:那些号称能处理几十万甚至上百万词元(tokens)的 LLM,在真正需要理解长文本的任务里,性能大打折 扣。比如,在 32K 词元的长度下,有 10 个受测模型,表现还不如处理短文本(小于 1K 词元)时的一半好;就连表现最好的 GPT-4o,性能也从接近完 美的 99.3% 掉到了 69.7%。 【编者按】 2025 年 2 月发布的 NoLiMA 是一种大语言模型(LLM)长文本理解能力评估方法。不同于传统"大海捞针"(Needle-in-a-Haystack ...
速递|《指环王》级文本吞吐,谷歌发布Gemini2.5 Pro的能效比突破密码
Z Potentials· 2025-03-26 11:49
谷歌Gemini 2.5 AI模型发布 - 谷歌于3月25日发布下一代AI推理模型Gemini 2 5 该模型家族在回答问题前会进行"思考" [1] - 推出首款多模态推理模型Gemini 2 5 Pro Experimental 被称为目前最智能的AI模型 通过Google AI Studio和Gemini Advanced订阅服务提供 订阅费20美元/月 [2] - 公司宣布未来所有新AI模型都将内置推理能力 行业自2024年9月OpenAI推出o1模型后 已形成包括Anthropic DeepSeek xAI在内的竞争格局 [3] 技术性能与基准测试 - Gemini 2 5 Pro在Aider Polyglot代码编辑评估中得分68 6% 超越OpenAI Anthropic DeepSeek的顶级模型 [4] - 在SWE-bench软件开发测试中得分63 8% 优于OpenAI o3-mini和DeepSeek R1 但低于Anthropic Claude 3 7 Sonnet的70 3% [4] - Humanity's Last Exam多模态测试得分18 8% 超过多数竞品旗舰模型 [4] 模型参数与功能 - 初始配备100万token上下文窗口 可处理约75万单词 相当于《指环王》全集长度 后续将支持200万token [5] - 专长于创建视觉化网页应用和代理编码应用 在数学编程任务中表现突出 [3] 商业化进展 - 未公布API定价细节 计划未来几周披露更多信息 [6] - 当前通过Gemini Advanced订阅制商业化 月费20美元 [2] 行业竞争态势 - 推理模型成为AI代理关键组件 但计算成本更高 谷歌Gemini 2 5被视为超越OpenAI o系列的最有力尝试 [3] - 主要竞争者包括OpenAI Anthropic DeepSeek xAI 技术路线聚焦多模态推理和复杂任务处理 [3][4]
32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强
量子位· 2025-03-25 08:59
西风 发自 凹非寺 量子位 | 公众号 QbitAI 就在DeepSeek-V3更新的同一夜,阿里通义千问Qwen又双叒叕一次梦幻联动了—— 发布 Qwen2.5-VL-32B-Instruct 。 此前开源家族视觉语言模型Qwen2.5-VL包括3B、7B和72B三种尺寸。 这一次的32B版本进一步兼顾尺寸和性能,可在本地运行。 同时经过强化学习优化,在三个方面改进显著: 对比近期开源的Mistral-Small-3.1-24B 、Gemma-3-27B-IT等, Qwen2.5-VL-32B在纯文本能力上也达到了同规模的SOTA表现。在多个基 准上,Qwen2.5-VL-32B甚至超过了72B。 举个栗子,比如根据一张交通指示牌照片,Qwen2.5-VL-32B就能做如下精细的图像理解和推理: 我正在这条路上驾驶一辆大卡车,现在12点了。我能在13点之前到达110公里远的地方吗? Qwen2.5-VL-32B首先对时间、距离、卡车限速进行分析,然后分步骤条理清晰推算出正确答案: 回答更符合人类偏好; 拥有更强的数学推理能力; 在图像解析、内容识别以及视觉逻辑推导等任务中,表现出更强的准确性和细粒度分析能力 ...
OpenAI研究负责人诺姆·布朗:基准测试比数字大小毫无意义,未来靠token成本衡量模型智能|GTC 2025
AI科技大本营· 2025-03-24 16:39
行业技术发展 - 诺姆·布朗提出范式更改比算力条件更重要,正确方法和算法可使多人扑克AI提前20年实现[2] - 推理计算被长期忽视但实际带来巨大差异,验证新范式需要大量计算投入[2] - 从Libratus到Pluribus,算法改进使六人扑克AI训练成本降至150美元,推理技术优化是关键[23][30] - CICERO项目突破自然语言博弈难题,但技术特定于《强权外交》游戏无法直接应用于现实谈判[39][40] 公司研发动态 - OpenAI o1-preview源自Q*项目,是全球首个推理模型,复现难度导致行业追赶受阻[4][6] - DeepSeek-R1于2025年1月发布并开源研究成果,终结行业闭源竞争局面[7] - 英伟达通过DLSS技术将图形渲染效率提升8-10倍,Megatron系统推动大模型训练扩展[21][22] - Meta开发Pluribus仅用28个CPU核心,每手牌20秒推理时间实现低成本高性能[24] 技术演进路径 - 从快思考(System 1)到慢思考(System 2)的转变标志AI推理能力质变[9][41] - 预训练与推理技术需协同发展,小模型无法支撑复杂推理能力[35][41] - 矩阵乘法主导AI系统设计,算法与硬件协同进化形成良性循环[33][35] - 单位成本智能成为新评估标准,需平衡token产出与计算资源消耗[41][42] 行业未来展望 - 推理计算规模将快速增长,专用硬件研发成为英伟达重点方向[41][44] - AI与人类智能成本差距显著,专业领域应用潜力巨大[42][45] - 多智能体环境技术尚未成熟,开放研究问题仍需解决[42][43] - 技术轨迹显示AI将持续突破现有局限,加速科学与社会进步[42][45]
喝点VC|a16z关于DeepSeek的内部复盘:推理模型革新与20倍算力挑战下的AI模型新格局
Z Potentials· 2025-03-23 13:10
图片来源: a16z Z Highlights 在这段访谈中 a16z 合伙人 Guido Appenzeller 和 Marco Mascorro 一同揭开了 DeepSeek 的工作原理,并解释了推理模型时代对人工智能的意义。 开源透明,点燃推理革命 Guido Appenzeller: 大家好,今天我们将深入探讨 DeepSeek ,这个来自中国的全新高性能推理模型。 DeepSeek 在上个月引起了广泛关注,它在排行榜上 名列前茅,但也引发了一些担忧和困惑。 Marco Mascorro: 是的,这不太理想。 Guido Appenzeller: DeepSeek 的优点在于,他们开源了模型权重、技术细节以及构建这些模型的方法。这为我们理解推理模型的工作原理提供了宝贵的观 点,而且展望未来,几乎所有最先进的模型都将采用其中的一些技术。我们已经从 OpenAI 和 Google 的模型中看到了类似的结构,这对我们所需的计算 量、推理和训练所需的 GPU 算力都有着重大影响。这是我们对 DeepSeek 的分析,包括他们一直在构建的一些模型,如 DeepSeek Math, V3 和 V2 ,以及 现在的 ...