推理

搜索文档
ICML 2025 Oral | 从「浅对齐」到「深思熟虑」,清华牵头搭起大模型安全的下一级阶梯
机器之心· 2025-06-25 12:06
本工作共同第一作者 包括: 张亦弛 , 清华大学计算机系三年级博士生,师从朱军教授,研究方向是多模态大模型和大模型安全, 在CVPR、NeurIPS、ICML等顶会发表多篇论文,曾主导开发了首个多模态大模型可信度全面评测基准MultiTrust ; 张思源 , 清 华大学计算机系一年级硕士生,导师是苏航副研究员,研究方向是大模型安全与对齐算法。本文通讯作者是清华大学人工智能学院 董胤蓬助理教授和计算机系朱军教授。 其他合作者来自北航、瑞莱智慧、阿里安全、百川智能等单位。 在大语言模型(LLM)加速进入法律、医疗、金融等高风险应用场景的当下, " 安全对齐 " 不再只是一个选项,而是每一位模型开 发者与AI落地者都必须正面应对的挑战。然而,如今广泛采用的对齐方式,往往 只是 让 模型在检测到 风险 提示时机械地回复一 句"很抱歉,我无法满足你的请求" ——这种表面看似"安全"的机制,实则脆弱不堪。ICLR 2025 杰出论文首次将这类方法命名为 "浅对齐(Shallow Alignment)" [1] :模型的预测分布仅在 回复 开头做出了 有效 偏移,却从未真正理解潜在的风险语义 。一旦 越狱提示换个包装,模 ...
从PPTV到PPIO,派欧云不止负债越来越高
北京商报· 2025-06-24 23:07
公司概况 - 派欧云由PPTV创始人姚欣和前PPTV首席架构师王闻宇于2018年联合创立,采用轻资产运营模式,近期赴港递表 [2] - 按2024年营收计,公司在中国边缘云计算服务提供商中排名第七,市场份额4.1%,前三名天翼云、移动云、阿里云合计份额36.5% [2] - 公司专注于分布式云计算,适合图像及音视频传输等应用场景 [3] 财务表现 - 2022-2024年营收从2.86亿元增至5.58亿元,年复合增长率39.6% [4] - 同期销售成本从2.4亿元增至4.89亿元,占营收比例从83.9%升至87.7% [4] - 经调整净亏损从3913.4万元波动至6161.7万元,2024年同比扩大66.2% [6] - 2024年流动负债净额从4.39亿元扩大至7.38亿元,负债净额从4.04亿元增至6.96亿元 [5] 业务结构 - 边缘云计算服务贡献98.1%营收(2024年),AI云计算服务占比1.9% [9] - AI云计算服务2023-2024年营收从26.5万元增至1038.7万元,但毛损率高达91.3%-95.1% [10] - 全球AI云计算服务市场规模2024年315亿元,预计2029年达4277亿元(年复合增长率68.5%) [10] - 全球边缘云计算市场规模2024年1851亿元,预计2029年5003亿元(年复合增长率22%) [10] 客户与市场 - 2022-2024年前五大客户贡献营收占比86.1%-92.5%,最大客户占比35.2%-44.1% [11] - 主要客户集中于泛娱乐、社交媒体、电商领域,与分布式云计算应用场景高度匹配 [11] - 行业前三名天翼云、移动云、阿里云市场份额分别为13.8%、11.6%、11.1% [7] 行业观察 - 云计算行业普遍亏损,但金山云2024年亏损收窄60.5%,阿里云调整后EBITA增长33% [8] - 分布式云计算被公司视为AI推理的最佳选择,专家预测AI推理将占AI应用80%份额 [10] - 行业具有显著规模效应,龙头企业通过复用基础设施降低边际成本实现盈利 [8][9]
AI Lab最新InternSpatia:VLM空间推理数据集,显著提升模型能力
具身智能之心· 2025-06-24 22:09
背景与动机 - 当前视觉语言模型(VLMs)在空间推理任务中存在显著不足,如物体位置/大小比较、多视角关系理解等[3] - 现有数据集存在三大局限:场景单一性(集中于室内/室外场景)、指令格式受限(仅支持自然语言或区域掩码)、多视角监督缺失(超90%为单图推理)[3] InternSpatial数据集 - 规模与结构:包含1200万QA对(950万单视图+250万多视图),覆盖5类场景(自然场景、室内、街景、物体中心、具身导航)[3] - 指令多样性:支持19种指令格式,显著优于对比数据集[3] - 视觉格式:提供原始图/带边界框图/掩码图/编号物体图等多种形式[4] - 文本格式:包含自然语言/带<ref>标记/坐标引用等,新增246万QA对的多视角旋转角度预测任务[6] InternSpatial-Bench评估基准 - 单视图诊断:包含6,008 QA对,涵盖位置比较(1845)、大小比较(1822)、旋转估计(409)、物体计数(899)、存在性估计(1000)五类任务[7] - 多视图扩展:在VSI-Bench新增1,000个旋转角度预测QA对[7] 数据引擎设计 - 采用三阶段自动化流水线:注释生成(复用现有注释或SAM2生成掩码)、视角对齐(构建标准3D坐标系)、模板化QA生成(预定义任务模板动态填充)[9] 关键实验结果 - 空间推理性能:InternVL-Spatial-8B模型在单视图任务中位置比较提升25%,多视图任务中物体计数提升17%(68.7 vs 51.7)[9][10] - 多任务表现:在物体计数、绝对距离、物体大小等7项任务中平均得分52.3,较基线提升10.7分[10] - 指令格式鲁棒性:训练后不同格式间准确率差距从23%缩小至5%以内[12] 当前不足 - 模板局限性:自动生成的QA对难以完全复现自然语言复杂度,部分描述机械化[12] - 开放推理欠缺:集中于结构化空间关系,缺少开放式场景推理(如物体运动轨迹解释)[12]
Cache Me If You Can:陈丹琦团队如何「抓住」关键缓存,解放LLM内存?
机器之心· 2025-06-24 22:07
核心观点 - 普林斯顿大学陈丹琦团队提出「KV足迹」作为统一度量标准,用于比较不同KV缓存优化方法的效率[10] - 团队定义「关键KV足迹」为模型性能保持90%以上时的最小KV足迹,确保优化方法实用性[12] - 提出PruLong方法,通过端到端学习注意力头专业化,将KV足迹比先前方法降低12%[15][36] KV缓存问题 - Transformer模型自回归解码时需存储所有先前token的注意力状态(KV缓存),内存消耗随文本长度线性增长[3] - 处理128K token提示时,Llama-3-70B模型需分配42GB内存专用于KV缓存[5] - 现有稀疏注意力方法难以横向比较,因优化目标(预填充/解码阶段)和评估指标不一致[6][9][20] KV足迹度量框架 - 将KV条目分为活跃/非活跃/被驱逐三类,KV足迹定义为所有时间步中未被驱逐条目的归一化比例[24][26] - 支持分块预填充和多轮交互场景的评估,覆盖完整推理流程的内存使用[21][22][23] - 实验显示KV足迹与吞吐量强相关,但具体排名受实现细节影响[27] 现有方法分类 | 方法类型 | 代表技术 | 特点 | |---------|---------|------| | 动态稀疏 | NSA/MoBA | 提升吞吐量但未减少KV内存[29] | | 预填充优化 | MInference/FTP | 加速预填充但不影响解码阶段[29] | | 新近度驱逐 | StreamingLLM/DuoAttention | 固定窗口减少KV占用,可能丢失远距信息[30] | | 后填充驱逐 | H2O/SnapKV | 预填充阶段峰值内存高,长生成场景效果有限[30] | PruLong技术创新 - 训练目标:直接优化下一个token预测损失,而非隐藏状态重建误差[37] - 离散掩码:通过伯努利分布参数化实现端到端二进制掩码学习[38] - 数据改进:采用自然长上下文数据(代码/书籍)替代合成数据[39] - 实验结果:在召回任务中保持原始性能,同时显著降低内存占用[15][36]
【美股盘前】三大期指齐涨,国际油价跌超2%;特斯拉涨近3%,瑞银上调其Robotaxi业务估值;黄仁勋开始减持英伟达股票,年底前或套现8.65亿美元;星巴克称未考虑全面出售中国业务
每日经济新闻· 2025-06-24 16:58
股指期货表现 - 道指期货涨0 66% 标普500指数期货涨0 79% 纳指期货涨1 05% [1] 国际油价走势 - 美油跌2 58% 布油跌2 71% 受以伊停火影响 [1] 美联储利率政策 - 特朗普呼吁美国利率应至少下调2到3个百分点 认为经济转弱时可再加息 [1] 稳定币市场动态 - Circle盘前续涨4 53% 上市以来累计涨幅约750% [1] 星巴克中国业务 - 星巴克否认考虑全面出售中国业务 强调中国市场长期潜力 股价涨0 73% [1] 英伟达高管减持 - 黄仁勋6月20日至23日出售10万股英伟达股票 价值1440万美元 年底前或套现8 65亿美元 [2] 特斯拉估值调整 - 特斯拉盘前涨2 8% 瑞银将其Robotaxi业务估值上调至3500亿美元 [2] AMD评级上调 - Melius Research将AMD评级从"持有"上调至"买入" 目标价从110美元上调至175美元 看好AI推理潜力 [2] 谷歌业务调整 - Google TV和Android TV团队预算削减10% 原预算不足5亿美元 可能影响约75名员工 [3] 美联储与经济数据 - 美联储主席鲍威尔将在众议院发表半年度货币政策证词 美国将发布6月谘商会消费者信心指数 [3]
研报 | 英伟达RTX PRO 6000特规版出货受市场关注,但存储器供应紧张成变数
TrendForce集邦· 2025-06-24 12:03
NVIDIA RTX PRO 6000系列产品分析 - 市场对NVIDIA RTX PRO 6000系列产品需求预期较高 但受限于存储器供应紧张等因素 出货量存在不确定性 [1] - RTX PRO 6000特规版预计2025年下半年推出 采用多元化存储器供应商策略:HBM主要依赖SK hynix LPDDR以Micron为主 GDDR由Samsung独家供应 [1] - RTX PRO 6000将采用96GB GDDR7 定位中低端GPU市场 聚焦AI推理 边缘端深度学习训练及影像模拟等应用 [2] 存储器供应链现状 - HBM领域SK hynix为主要供应商 预计2025年Micron供应占比将达30% [2] - LPDDR5x目前由Micron主导供应NVIDIA Grace主板 2026年Micron或成为SOCAMM独家供应商 [2] - GDDR7由Samsung独家供应 导致供应链持续吃紧 可能影响RTX PRO 6000生产与供货能力 [2] 产品应用与市场推广 - NVIDIA在COMPUTEX展会上联合ODM/OEM厂商推广搭载RTX PRO 6000的MGX AI Server 采用PCIe Gen5接口 瞄准企业边缘AI应用场景 [3] - MGX模块化参考设计未来将延伸至特定市场供应 [3] 行业研究背景 - 研究机构覆盖存储器 AI服务器 半导体 晶圆代工等高科技领域 提供产业分析与前瞻性报告 [12]
国内首家!商汤科技大装置万象获得中国信通院“大模型推理平台”最高评级认证
中国产业经济信息网· 2025-06-24 11:56
评估结果与行业地位 - 商汤大装置万象大模型开发平台获得中国信通院可信AI《大模型推理平台通用能力成熟度》评估最高评级4+级,成为国内首家获此评级的大模型推理平台[1][3] - 该评估由70余家单位联合编制标准,聚焦88个能力项(34项基本功能+54项高级功能),覆盖部署、推理、服务与管理环节,是国内最具权威性的大模型推理平台评估之一[3] - IDC报告显示商汤万象平台以13%市场份额位居中国AI大模型解决方案市场第二位,持续领跑行业第一梯队[5] 技术优势与性能表现 - 平台提供从开发到应用的全链条工具,兼容GPU/NPU等异构推理加速卡,内置自研推理引擎可降低50%以上推理成本[4] - 在部署、推理、服务环节表现优异,具备低时延、高吞吐、可扩展特性,配备模型/算法/推理引擎/知识库等完整套件[3][4] - 建立完整安全机制,为企业大模型落地提供安全保障[4] 行业应用案例 - 已落地交通、消费、政务、自动驾驶、智能家居、医疗等多个领域[4] - 交通领域:构建工程勘察设计智能平台,实现知识检索/智能问答/报告生成,解决知识传承困难等痛点[4] - 消费领域:通过RAG技术和文档插件为企业打造AI助理,提升知识获取效率[4] - 政务领域:简化部署工程实现开箱即用,支持政府机构建设小型AI创新平台[4] 发展战略 - 未来将继续依托AI原生技术栈和行业级解决方案,结合专家服务体系,突破大模型落地"最后一公里"[5]
热乎出炉的面经,刚面完NVIDIA TRT LLM~
自动驾驶之心· 2025-06-23 19:34
作者 | 笑渐不闻声渐悄 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1918033580103282744 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>点击进入→ 自动驾驶之心 『求职招聘』技术交流群 本文只做学术分享,如有侵权,联系删文 热乎出炉,刚面完Nvidia TRTLLM。本人bg是做llm推理加速的,主要在做speculative decoding,也 有一篇文章中了ICLR 2025。因为想继续做推理加速,所以尝试性的面了一下Nvidia,看能不能积累 connection。首先得吐槽一下这个面试机制:4位面试官一人面了我一个小时,整整连续面了4个小 时,面完感觉就是一个虚弱无力...然后简单聊一聊面试的问题 第一位面试官:自我介绍,讲一下自己的iclr 25关于spec的工作。面试官问的比较细致,从方法的 设置到evaluation都问到了,然后简单讲了一下自己nips 23的科研工作。感觉面试官对我的科研经 历还是比较满意,随后出了一道coding:n位数字插入任意数量的+,最后 ...
AI真的需要「像人类」那样思考吗?AlphaOne揭示属于大模型的「思考之道」
机器之心· 2025-06-23 15:44
核心观点 - 研究提出AI模型应采用「先慢后快」的推理策略,而非模仿人类的「先快后慢」模式 [4][5] - AlphaOne框架通过引入全局推理调控超参数α,显著提升模型准确率和效率 [6][16] - 该方法无需额外训练,仅需在测试阶段调整α值即可实现推理优化 [6][13] 方法论 - 通过α-moment统一调控推理节奏,之前引导慢思考,之后切换快思考 [16][18] - 慢思考阶段采用Bernoulli过程插入wait标记,概率由调度函数控制 [20][21] - 快思考阶段用</think>标记终止慢思考,避免推理惯性 [24][25] 实验结果 - 在1.5B模型上准确率提升+6.15%,生成token数减少14% [29][30] - 线性衰减调度策略在多项任务中表现最优 [32] - α值可灵活调控思考预算,存在性能最优区间 [34] - 后α-moment调控机制对性能提升至关重要 [43] 应用场景 - 在数学解题、代码生成、科学问答等六大推理任务中验证有效性 [27] - 成功案例包括化学混合题,失败案例包括多角恒等式推理 [47] 未来方向 - 开发更复杂的慢思考调度策略 [48] - 摆脱对特定标记的依赖 [48] - 扩展至多模态推理场景 [48]
只训练数学,却在物理化学生物战胜o1!新强化学习算法带来显著性能提升,还缓解训练崩溃问题
量子位· 2025-06-23 12:45
核心观点 - 上海创智学院与上海AI Lab提出的CPGD算法显著提升多模态模型的推理能力与训练稳定性,在数学、物理、化学、生物等学科表现优异 [1][2][14] - MM-Eureka系列工作开源了模型、代码、数据集及过程奖励模型,推动多模态强化学习领域发展 [3][25] - 强化学习在跨学科泛化能力上优于监督微调(SFT),但无法替代知识本身的缺失 [22][23] 算法与技术突破 CPGD算法 - 通过策略比值对数化和策略漂移项设计,解决传统强化学习(GRPO/RLOO)训练崩溃问题,性能提升11% [8][11] - 在7B/32B模型上验证:MMK12测试集平均提升21.8%,MathVista/MathVision分别提升8.5%/11.4% [1][14] - 新型KL估计器减少梯度方差,细粒度token级损失函数优化训练效率 [9][10] 多模态强化学习框架 - 基于OpenRLHF支持Qwen-VL/InternVL等模型,可扩展至32B-38B规模 [4][5] - 训练稳定性突破:双边裁剪、online filter等技术提升资源效率 [6][7] 模型性能表现 7B模型对比 - MM-Eureka-CPGD-7B在MMK12上超越QwenVL2.5-7B基准21.8%,Overall评分1.11 [13][14] - 对比GRPO算法(提升6%),CPGD将整体提升幅度扩大至11% [1][14] 32B模型对比 - MM-Eureka-CPGD-32B在MMK12测试集超越o1模型,物理/化学/生物学科表现突出 [2][15] - 接近闭源模型水平,Overall评分1.10(以QwenVL2.5-32B为基准) [15] 数据集与工具 MMK12数据集 - 覆盖K12阶段15k多模态数学题,含几何/函数/图形推理题型,额外提供2k跨学科选择题 [16][17] - 下载量超1700次,成为多模态推理基准 [17] MM-PRM过程奖励模型 - 通过500万数据训练+70万自动标注,提升推理路径严谨性,MMK12准确率提升9% [18][19][21] - 支持全自动过程监督,无需人工标注 [21] 行业影响与开源生态 - 模型下载超1万次,代码库获1000+ star,论文引用近100次 [3] - 完整开源技术方案包括训练框架、数据集、模型权重及技术报告 [25]