推理

搜索文档
推理大模型1年内就会撞墙,性能无法再扩展几个数量级 | FrontierMath团队最新研究
量子位· 2025-05-13 15:11
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 与之伴随而来的还有另一个消息: 如果推理模型保持「每3-5个月都以10倍速度增长」,那么推理训练所需的算力可能会大幅收敛。 就像DeepSeek-R1之于OpenAI o1-preview那样。 一年之内,大模型推理训练可能就会撞墙。 以上结论来自Epoch AI。 这是一个专注于人工智能研究和基准测试的非营利组织,之前名动一时的FrontierMath基准测试 (评估AI模型数学推理能力) 就出自它家。 看了这个结果,有围观网友都着急了: 既然在o3基础上再scaling非常困难,那 为啥咱不探索模块化架构或针对特定任务的专用模型呢? "效率"比"研究过剩"更重要! 推理训练还有scalable的空间 OpenAI的o1是推理模型的开山之作。 OpenAI表示,与o1相比,训练o3所需的算力提升了10倍——提升部分几乎都花在了训练阶段。 OpenAI没有公开o1、o3的具体细节,但可以从DeepSeek-R1、微软Phi-4-reasoning、英伟达Llama-Nemotron等其它推理模型。它们 所需的推理训练阶段算力耕地,但可以根据它们进行推演。 ...
文生图进入R1时代:港中文MMLab发布T2I-R1,让AI绘画“先推理再下笔”
量子位· 2025-05-13 12:45
港中文MMLab团队 投稿 量子位 | 公众号 QbitAI "先推理、再作答",语言大模型的Thinking模式,现在已经被拓展到了图片领域。 近日,港中文MMLab团队发布了第一个基于强化学习的推理增强文生图模型:T2I-R1。 △ 文生图进入R1时刻:港中文MMLab发布T2I-R1 大家都知道,OpenAI o1和DeepSeek-R1这类的大语言模型(LLMs),已经在解数学题和写代码这些需要"动脑筋"的事情上面展现出了较 高的水平。 这些模型通过强化学习(RL),先使用全面的思维链(CoT)逐步分析问题,推理后再提供答案。 这种方法大大提高了答案的准确性,很适合用于处理一些复杂问题。 同理,如果能把强化学习应用在图片理解的多模态大模型中(LMMs),像是图片理解或者文生图这样的任务就能解决得更加出色。 想法是好的,但在实际操作中总会碰到一些问题: 比如,该如何将语义和生成结合起来,让语义理解服务于图像生成? 又比如,如何对图像生成的结果进行质量评估,让模型在生成中学习? 目前 CoT推理策略如何应用于自回归的图片生成 领域仍然处于探索阶段,港中文MMLab之前的工作Image Generation ...
芯片新贵,集体转向
半导体芯闻· 2025-05-12 18:08
行业趋势 - AI芯片行业正从大规模训练市场转向更现实的推理市场,Nvidia在训练芯片市场占据主导地位,而其他公司如Graphcore、英特尔Gaudi、SambaNova等转向推理市场 [1] - 训练芯片市场门槛高,需要重资本、重算力和成熟的软件生态,新晋企业难以生存,推理芯片成为更易规模化落地的选择 [1] - 推理市场对内存和网络的要求较低,适合初创公司切入,而Nvidia在训练市场的优势包括HBM内存和NVLink等网络技术 [21][22] Graphcore - Graphcore曾专注于训练芯片,其IPU处理器采用并行处理架构,适合处理稀疏数据,在化学材料和医疗领域表现突出 [2][4] - 2020年Graphcore估值达28亿美元,但其IPU系统在大型训练项目中难以挑战Nvidia,2021年微软终止合作后公司开始衰落 [4][5] - 2024年软银收购Graphcore后转向推理市场,优化Poplar SDK,推出轻量级推理方案,聚焦金融、医疗和政府场景 [6] 英特尔Gaudi - 英特尔2019年以20亿美元收购Habana Labs,Gaudi系列主打训练和推理,Gaudi2对比Nvidia A100吞吐量性能提高2倍 [7][9] - 英特尔内部存在Habana与GPU部门的竞争,官僚效率低下影响决策,Gaudi训练平台市场采用率低迷 [9][10] - 2023年Gaudi转向训练+推理并重,Gaudi3强调推理性能和成本优势,每美元推理吞吐量高于GPU近30%,但未能达到营收预期 [10][11] Groq - Groq创始人曾参与Google TPU设计,其LPU架构采用确定性设计,主打低延迟和高吞吐率,适合推理任务 [12][14] - 早期尝试训练市场失败后转向推理即服务,2024年展示Llama 2-70B模型每秒生成300+ Token,吸引金融、军事等延迟敏感行业 [15] - GroqCloud平台提供API接口,与LangChain等生态集成,定位为AI推理云服务提供商 [15] SambaNova - SambaNova采用RDU架构,曾重视训练市场,但2022年后转向推理即服务,推出SambaNova Suite企业AI系统 [16][18] - 2024年裁员15%并完全转向推理,聚焦政府、金融和医疗等私有化模型部署需求强烈的领域 [18][19] - 提供多语言文本分析、智能问答等推理服务,商业化路径逐渐清晰 [19] 技术对比 - Nvidia在训练市场的优势包括CUDA生态、HBM内存和NVLink网络技术,初创公司难以竞争 [21][22] - 推理任务内存负担低,无需存储梯度和复杂网络通信,适合初创公司设计专用芯片 [21] - 未来AI芯片竞争将更注重成本、部署和可维护性,推理市场成为战略重点 [23]
智通决策参考︱恒指稳步推进 重点观察机器人和稀土概念表现
智通财经· 2025-05-12 08:51
地缘政治与市场影响 - 印巴宣布停火,乌克兰提议5月15日在土耳其恢复俄乌直接谈判,显示地缘冲突趋缓 [1] - 中美会谈长达8小时进入解决分歧阶段,会谈结果将对市场走向起重大引领作用 [1] - 美国4月CPI数据及美联储主席鲍威尔讲话受关注,市场观察6月降息可能性 [1] 行业与公司动态 - 国家部署打击战略矿产走私出口专项行动,涉及镓、锗、锑、钨、中重稀土等资源 [2] - 宇树科技在上海成立分公司并扩招,机器人板块动向值得关注 [2] - 腾讯控股、京东、阿里等互联网巨头本周公布财报 [1] 万国数据-SW(09698)财报分析 - 2024年营业收入103.22亿元(+5.5%),调整后EBITDA 48.76亿元(+3%),国际业务出表后口径 [3] - 4Q24国际业务完成B轮融资,上市公司持股35.6%,合并报表口径调整后EBITDA 51.93亿元(+12.3%) [3] - 国内业务运营面积613,583平方米(+12%),机柜利用率73.8%,单价2011元/平米/月 [3] - 2025年国内新签订单152MW,资本开支预算上调至43亿元,23亿元用于新订单建设 [4] - 海外业务DayOne累计签单467MW,运营规模121MW,2024年收入1.73亿美元,计划18个月内上市 [4] 建筑行业出海趋势 - 中国建筑企业国际竞争力强,中国交建、中国建筑等进入ENR 2024年度全球前10强 [5] - 雅万高铁、中欧班列等"一带一路"项目展现技术实力,越南和发榕桔钢厂、克罗地亚风电项目为标志性工程 [6] - 八大建筑央企2024年海外新签同比+13.3%,2025年一季度同比+23.9%,中钢国际海外新签同比+54% [7] - 港股重点关注中交建(01800)、中国中铁(00390)、中铁建(01186)、中国能源建设(03996) [7] 港股市场数据 - 恒生期指(五月)未平仓合约总数96870张,净数36007张,结算日2024年05月29日 [8] - 恒生指数牛熊街货分布显示22868点熊证密集,港股存在做多动力,本周看涨 [8] - 港元汇率强势,资本持续流入,科技、生物制药、新消费等稀缺标的受资金青睐 [10]
新财富·董秘特辑 | 叶静:多维赋能 积极传递公司长期价值
新财富· 2025-05-11 16:31
新财富金牌董秘评选 - 新财富金牌董秘评选是中国资本市场极具权威性与公信力的标杆评选,见证了中国资本市场的发展历程 [1] - 金牌董秘群体凭借卓越的专业素养与创新实践能力,持续优化上市公司治理、深化投资者关系管理 [1] - 董事会秘书是上市公司治理架构中的"关键齿轮",承担承上启下、内外联动的战略职能 [1] 依米康董事会秘书叶静 - 叶静女士荣获"第二十一届新财富金牌董秘"称号,凭借其专业知识、丰富经验和敏锐市场洞察力 [2] - 叶静女士法学硕士出身,曾担任总监、常务副总裁等关键职位,在规范治理、资本运作及企业管理等领域表现卓越 [4] - 自2022年8月起任职依米康董事会秘书,积极推进合规经营,强化投资者关系管理,树立良好企业形象 [4] 公司治理与资本运作 - 叶静女士不断优化公司治理结构,深入钻研法人治理等规范性课题,提炼具有实践指导意义的专业建议 [4] - 积极搭建公司与资本市场沟通的桥梁,协助辖区上市公司及行业协会组织外联活动,推动行业整体水平提升 [4] - 在公司战略转型期间,对内参与制定资产剥离方案,对外与股东、投资人及监管机构进行有效沟通 [7] 依米康财务表现 - 依米康一季度实现营业总收入3.18亿元,同比增长26.44% [6] - 归母净利润703.93万元,同比增长34.77% [6] - 扣非净利润706.28万元,同比增长91.54% [6] 公司发展战略 - 依米康从数据中心精密空调等关键设备提供商转型为数字基础设施全生命周期绿色解决方案服务商 [6] - 完成环保领域业务剥离,战略聚焦信息数据领域,步入高质量发展阶段 [6] - 截至2024年末,依米康及下属子公司已获得152项专利,186项著作权 [7] 董秘职业发展 - 董秘能力进阶的三大关键:沟通协同、学而不辍、容纳百川 [9] - 董秘需与管理层、业务部门保持紧密协作,与监管机构和投资者建立高效互动 [9] - 持续学习最新监管动态、行业趋势、市场动向,更新知识体系,提升专业素养 [9] 行业前景与机遇 - AI大模型训练与推理、云计算、自动驾驶等前沿科技领域蓬勃发展,市场对强大算力需求持续攀升 [11] - 依米康凭借在算力基础设施领域的深厚积累与领先优势,有望在科技浪潮中充分受益 [11] - 未来将以温控设备为排头兵,联动智能工程、物联软件、智慧服务三大板块,打造智能、高效、绿色的数字基础设施 [11]
DeepSeek精度效率双提升,华为&信工所提出思维链“提前退出”机制
量子位· 2025-05-11 12:20
DEER团队 投稿 量子位 | 公众号 QbitAI 长思维链让大模型具备了推理能力,但如果过度思考,就有可能成为负担。 华为联合中科院信工所提出了一种新的模式,让大模型 提前终止思考 来避免这一问题。 利用这种方法, 无需额外训练,就可以让大模型的精度和效率同时提升 。 这种方式名为 DEER ,也就是 动态提前退出推理 (Dynamic Early Exit in Reasoning) 的简称。 其核心在于找到推理信息质量下降之前的临界点,并在临界点及时让大模型中断推理。 结果在多个推理基准中,DEER在DeepSeek系列推理LLM上始终有效,将思维链生成长度平均减少31%到43%,同时将准确率提高1.7%到 5.7%。 截至目前,DEER已在QwQ、Qwen3、Nemotron等更多推理模型和11个评测集上被验证持续有效。 停止推理的临界点,需要动态规划 直观上,随着思维链中的推理路径数量的增加,生成结论时可参考的信息也会更多。 如果能够识别出推理信息变得刚好足够的临界点 (称为珍珠推理,Pearl Reasoning) ,并迫使模型在此点停止进一步思考并直接输出结 论,就可以同时实现准确率和效率。 ...
芯片新贵,集体转向
半导体行业观察· 2025-05-10 10:53
AI芯片行业趋势 - AI芯片行业正从大规模训练市场转向更具现实落地潜力的推理市场,Nvidia在训练市场占据绝对主导地位,而其他公司如Graphcore、英特尔Gaudi等纷纷转向推理领域 [1] - 训练市场门槛极高,需要重资本、重算力和成熟的软件生态,新晋企业难以与Nvidia竞争,推理市场则更易规模化和商业化 [1][4] - 推理市场的优势在于内存和网络需求较低,适合初创企业切入,而Nvidia在训练市场的优势包括CUDA生态、HBM内存和NVLink技术 [21][22] Graphcore转型 - Graphcore曾专注于训练芯片IPU,其Colosual MK2 GC200 IPU采用台积电7nm制程,性能接近Nvidia A100,2020年估值达28亿美元 [4] - IPU在稀疏数据处理(如分子研究)和医疗领域表现突出,微软曾用于新冠X光片识别,速度比传统芯片快10倍 [5] - 由于训练市场竞争失败,Graphcore被软银收购后转向推理市场,推出轻量级推理方案,聚焦金融、医疗和政府场景 [5][6] 英特尔Gaudi策略调整 - 英特尔2019年以20亿美元收购Habana Labs,Gaudi2采用7nm制程,吞吐量性能比Nvidia A100高2倍 [7] - 内部管理混乱导致Gaudi市场表现不佳,2023年转向"训练+推理并重",Gaudi3强调推理性价比,成本优势达30% [9][10] - 英特尔终止Falcon Shores开发,Gaudi3现面向企业私有化部署,如语义搜索和客服机器人 [10][11] Groq技术定位 - Groq创始人曾参与Google TPU开发,其LPU架构采用确定性设计,专注低延迟推理,适合大模型推理任务 [13] - 2024年展示Llama 2-70B模型推理速度达300 token/秒,吸引金融、军事等延迟敏感领域客户 [15] - Groq转型推理即服务(Inference-as-a-Service),通过GroqCloud平台提供API,与LangChain等生态集成 [16] SambaNova业务转向 - SambaNova的RDU芯片曾主打训练优势,但2022年后转向推理即服务,推出企业AI系统SambaNova Suite [17][19] - 聚焦金融、政府等私有化部署需求,提供合规化推理解决方案,与拉美金融机构和欧洲能源公司合作 [20][21] - 2024年裁员15%,完全放弃训练市场,专注推理商业化 [19] 技术对比与市场逻辑 - 训练芯片需复杂内存层级(HBM/DDR)和全互联网络,Nvidia凭借CUDA生态和硬件优化占据绝对优势 [21][22] - 推理芯片门槛较低,初创企业可通过垂直场景(如医疗、金融)或技术差异化(如Groq的低延迟)竞争 [23] - 行业进入"真实世界"阶段,竞争焦点从算力转向成本、部署和维护便利性 [23]
AI推理时代 边缘云不再“边缘”
中国经营报· 2025-05-09 23:09
边缘云技术革命 - 边缘云突破传统集中式计算模式 将数据处理能力下沉至网络边缘 实现数据快速响应和处理 [1] - 在AI大模型竞争中 行业焦点从训练阶段转向AI推理 边缘云成为新竞争焦点 [1] - 边缘云靠近节点 可提升数据交互和AI推理即时性与效率 同时保障信息安全 [1][5] AI推理需求爆发 - AI推理计算需求可能是训练需求的10倍甚至更多 企业更关注"后训练"阶段部署问题 [1] - 巴克莱报告指出 AI推理计算需求预计占通用人工智能总计算需求的70%以上 达训练需求的4.5倍 [3] - 英伟达创始人预测 推理算力需求规模增长将"轻松超过去年估计的100倍" [3] 行业技术动态 - OpenAI推出O1推理模型 Anthropic上线依赖推理的Agent功能 DeepSeek R1推理模型引发全球关注 [3] - DeepSeek采用跨节点专家并行模式 通过全面开源将AI推理资源池成本降至百卡/千卡范围 [4] - DeepSeek轻量灵活的部署方式已获科技、金融、政务等多行业接入 推动端侧AI爆发 [4] 边缘云核心优势 - 边缘云地理分布广泛 缩短交互链路 降低数据传输开销和成本 [5] - 边缘云节点容量大、健壮性强 结合边缘推理可支持企业数字化和智能化转型 [5] - 边缘侧提供额外能力如边缘缓存和安全防护 增强模型部署安全性 [5] 市场竞争要素 - 未来竞争核心在于成本/性能计算 包括推理成本、延迟和吞吐量 [6] - 边缘推理靠近终端用户和数据源 可提升用户体验和效率 同时满足"数据主权"需求 [6] - AI行业投资已开始转向推理 推理效率需综合评估吞吐量、时延和成本 [6]
一张照片、一句简单提示词,就被ChatGPT人肉开盒,深度解析o3隐私漏洞
机器之心· 2025-05-09 17:02
多模态AI隐私泄露风险 - OpenAI的ChatGPT o3模型能通过生活照中的细微线索将住址锁定在1英里范围内[1] - 研究揭示了多模态大语言模型在图片地理位置定位方面的严重隐私泄露风险[1] - 简单提示词配合生活照即可触发AI的多模态推理链条精准定位隐私地址[5] AI定位技术原理 - 视觉解析提取门牌号、建筑风格、环境特征等多层次线索[10] - 通过地理围栏技术逐步缩小范围实现精确定位[10][11] - 调用街景API、房产数据库等外部工具增强定位能力[10][11] - 采用跨模态融合技术整合视觉识别、地理数据和商业信息[10][11] 典型案例分析 - 波士顿案例:通过门牌号、建筑风格和环境特征实现米级定位,误差仅0.01英里[10] - 俄亥俄州案例:通过垃圾桶LOGO和建筑风格组合实现零误差定位[11] - 苏州案例:通过背景中独墅湖教堂的不锈钢十字架锁定800米范围内的具体地址[14] - 克利夫兰案例:通过风力涡轮机和周边建筑特征精准定位到具体街道[44] AI定位能力特点 - 具备链式推理能力,能从城市级线索逐步推理到住宅级定位[10] - 拥有冗余推理能力,即使核心线索被遮盖仍可通过次要线索定位[56] - 视觉编码器可分层提取低级特征(颜色纹理)、中级特征(物体识别)和高级特征(空间关系)[58] - 结合地图API、开源数据库和气候数据等多源信息进行交叉验证[58] 行业影响与挑战 - 多模态AI的"能力-风险"悖论:模型越智能隐私泄露风险越高[57] - 传统隐私保护手段如局部遮挡在多模态AI面前严重失效[56] - 城市基础设施和标识物成为隐私泄露的核心元凶[53] - 需要重构隐私防线,将隐私保护纳入多模态模型的"出厂标准"[59]
文生图进入R1时刻:港中文MMLab发布T2I-R1
机器之心· 2025-05-09 10:47
核心观点 - 提出T2I-R1模型,基于双层次CoT推理框架(Semantic-CoT和Token-CoT)与强化学习,显著提升文本生成图像的质量和语义对齐 [1][3][9] - 首次将思维链(CoT)推理策略应用于自回归图片生成领域,解决跨模态对齐和细粒度视觉细节生成问题 [1][7] - 通过BiCoT-GRPO强化学习方法联合优化Semantic-CoT和Token-CoT,利用多专家模型集成作为奖励机制提升生成效果 [11][12] 方法架构 Semantic-CoT - 在图像生成前进行文本推理,设计全局结构(如对象外观和位置),显式规划Prompt以降低生成难度 [7][9] - 示例:生成冰屋时推理其"空气动力学穹顶形状""光滑半透明表面""入口斜坡隧道"等语义细节 [6][14] Token-CoT - 在离散空间中逐块生成图像Token,专注于底层像素细节和视觉连贯性 [7] - 与文本CoT类似,基于先前Token输出后续Token,维持相邻Patch的一致性 [7] 技术突破 - 统一理解与生成能力:基于ULM(Janus-Pro)框架整合双层次CoT,避免独立模型带来的计算成本增加 [8][9] - 奖励机制创新:集成多专家模型(如目标检测器、VQA模型)从提示对齐、美学吸引力、对象存在性等维度综合评估 [12] 性能表现 - 定量结果:在T2I-CompBench和WISE Benchmark上分别比基线模型提升13%和19%,部分子任务超越FLUX-1 [16] - 定性优势:处理非常规场景(如"火车底部的小猪")时展现更强鲁棒性,生成结果更符合人类意图 [13][14]