推理

搜索文档
理想司机Agent的一些细节
理想TOP2· 2025-06-06 23:24
:基于2D/3D 信息编码整合进模型后,Agent 具备理解道路标牌【例如,出口,上下坡道,左右 转,电梯口,不允许通行,区域B12345,ABCDEFGG区 etc】的能力,和语音交互感知【左右转,靠边停 车,掉个头,快点慢点,甚至给出先去A区再靠边,或者掉头后再去C区】的能力。简单指令场景依赖的是 本地的多模态LLM,复杂指令是Token化后上云大参量的LLM,将任务拆解后转换成顺序任务后在本地LLM 执行。 :具备自建关联点的能力【我这里为什么不说建地图而是建关联点】有就几个原因:首先更多的 是行车的关联结构,而并非记忆了精准的道路结构。因此车辆在调用这个关联点记忆很像人在地下车库开 车【大概要往哪个地方开,而并非是像Hd map 具有严格的驾驶轨迹限定】,换句话说,关联点建好后。理 论上,给Agent 需求后,会直接进行关联点分析,规划出一条最近的【可以符合通行逻辑】的地下/园区驾 驶轨迹。 当然现在他能力还有限,还是偶尔会出现开错路,然后触发掉头再开【对因为行车模型化 后,理论上可以触发无限制掉头,几乎不会卡死】 :具备感知推理能力,而且怀疑整个AD Max Agent 场景是将行车感知摄像头和泊车 ...
博通(AVGO):营收创单季历史新高,指引25Q3AI收入同比持续高增
招商证券· 2025-06-06 23:11
报告公司投资评级 - 推荐(维持)[6] 报告的核心观点 - 博通 FY25Q2 营收创单季历史新高,毛利率超指引预期,得益于 AI 半导体业务强劲及 VMware 业务发展;AI 业务营收同比高增,软件受益 VMware 增速明显;指引 FY25Q3 预计营收同环比均增长,AI 收入同比增长 60%;预计 ASIC 增速将延续至 FY26,发布 Tomahawk6 带宽达 102.4TB/s [1][2][3][4] 各部分总结 FY25Q2 业绩情况 - 营收 150.04 亿美元创历史新高,同比+20%/环比+1%,超指引;毛利率 79.4%,同比+3.2pcts/环比+0.3pct,高于指引;库存 20 亿美元,环比增长 6%,库存周转天数 69 天 [1] - 半导体部门收入 84 亿美元,占比 56%,同比增长 17%,毛利率约 69%,运营费用 9.71 亿美元,运营利润率 57%;AI 业务收入超 44 亿美元,同比增长 46%,定制 AI 加速器同比两位数增长,AI 网络业务同比超 170%;非 AI 业务收入 40 亿美元,同比下降 5%,已接近底部但复苏缓慢 [2] - 基础设施软件收入 66 亿美元,占比 44%,同比增长 25%,毛利率 93%,反映将企业客户从永久许可 vSphere 转换为全 VCF 软件栈订阅的成功 [2] FY25Q3 业绩指引 - 营收约 158 亿美元,同比+21%/环比+5%,预计合并毛利率环比下降约 130 个基点,调整后 EBITDA 约占收入 66% [3] - 半导体部门收入 91 亿美元,同比增长 25%,人工智能收入 51 亿美元,同比增长 60%,非人工智能半导体收入预计 40 亿美元 [3] - 基础设施软件收入 67 亿美元,同比增长 16% [3] 未来展望 - 预计至少三个客户将在 2027 年各自部署 100 万个 AI 加速器集群,XPU 需求 26H2 加速,2025 财年 AI 半导体收入增长延续到 2026 财年 [4] - 发布的 Tomahawk6 交换机芯片以太网交换容量达每秒 102.4 太比特,专为数据中心需求设计 [4] 行业情况 - 行业股票家数 504 只,占比 9.8%;总市值 85940 亿元,占比 9.9%;流通市值 73262 亿元,占比 9.2% [6] - 行业指数 1m、6m、12m 绝对表现为 4.0、2.2、37.1,相对表现为 1.1、3.3、29.2 [8]
多模态推理新基准!最强Gemini 2.5 Pro仅得60分,复旦港中文上海AILab等出品
量子位· 2025-06-06 21:45
多模态大模型推理能力评估 - 复旦大学、香港中文大学MMLab及上海人工智能实验室联合推出MME-Reasoning基准,全面评估多模态大模型(MLLMs)的推理能力,涵盖演绎、归纳和溯因三种推理类型[1][3][4] - 基准包含1188道题目,其中84.85%为新增题目,15.15%为抽样题目,题型包括选择题(58.50%)、自由形式问题(31.57%)和基于规则的题目(9.93%)[9] - 题目设计弱化学科知识依赖,聚焦K12以下难度,避免知识盲区干扰推理能力测试[11] 推理类型与评估维度 - 演绎推理通过规则和前提推导结论,归纳推理从大量案例学习规则,溯因推理通过结论反推前提[5] - 评估维度包括五种能力:模式分析、规划与探索、空间与时间、计算、因果链分析,每道题目标注1-5种能力[11] - 题目难度分为三级,图像类型包含单图(58.50%)和多图(31.57%)问题,学科类题目占比31.48%[8][9] 模型表现分析 - 30余个模型评测显示最优成绩仅60.2%(Gemini-2.5-Pro-T),显示基准挑战性极强[2][18] - 模型表现存在显著偏差:演绎推理平均得分最高(如Gemini-2.5-Pro-T达64.0),溯因推理最弱(如开源模型R1-VL-7B仅15.8)[18][19] - 闭源"思考模式"模型普遍优于基础版,如Gemini-2.5-Pro-T比Gemini-2.5-Flash-T高35个百分点[18] 技术瓶颈与发现 - 开放式问题表现最差,规划与探索类任务平均得分最低(如Mulberry仅13.3)[18][20] - 规则强化学习在7B规模模型上效果有限,可能降低泛化能力(如R1-VL-7B得分21.1)[18][20] - 推理过程存在边际效应:输出token超1k时准确率提升趋缓,o4-mini案例达24.6k token但效率下降[22][25] 模型行为特征 - 案例显示模型存在结构化规划行为,包含假设生成-验证-反思的多次迭代(最高达7次)[25][26] - 开源模型表现显著落后闭源模型,Qwen2.5-VL-72B最高34.1分,仅为闭源头部模型的56%[18] - 多图像问题(占比31.57%)和学科类问题(占比31.48%)构成主要挑战点[9][11]
首个多模态专用慢思考框架!超GPT-o1近7个百分点,强化学习教会VLM「三思而后行」
量子位· 2025-06-06 21:45
多模态推理模型的挑战与突破 - 在文本推理领域,"慢思考"模型(如GPT-o1、DeepSeek-R1)凭借显式反思机制,在数学和科学任务上显著优于"快思考"模型(如GPT-4o)[1] - 但在多模态推理场景中,这些模型表现平平,甚至被Qwen2.5-VL-72B超越,在MathVista、MathVerse等基准上与快思考模型持平[1] 多模态慢思考的两大核心障碍 - **优势消失问题**:在GRPO算法训练多模态模型时,随着训练推进,零优势信号样本比例显著增加,导致有效训练样本锐减[3][10] - **反思惰性问题**:现有视觉语言模型(VLM)受限于视觉模态特性,倾向于"快思考",缺乏主动审视与修正能力[5][6] VL-Rethinker的创新解决方案 - **优势样本回放(SSR)**:动态存储非零优势样本,优先复用绝对优势值较大的关键样本,提升训练效率[19][23] - **强制反思机制**:通过追加"反思触发"文本强制模型二次推理,引导多样化反思行为,已在Pixel Reasoner、SkyR1V2中应用[21][25] 训练数据集与模型性能 - 研究团队精编ViRL39K数据集,包含38,870条高质量多模态推理问题,覆盖八大主题(逻辑推理、图表推理等)[7][8][9] - VL-Rethinker-72B在MathVista上提升5.6%(达80.4%),MathVerse提升6.3%(达63.5%),超越GPT-o1(73.4%、57.0%)[27][29] - 在多学科测试中,MMMU-Pro成绩55.9%,EMMA成绩38.5%,接近OpenAI-o1水平[28]
大模型推理,得讲性价比
虎嗅APP· 2025-06-06 18:10
华为MoE架构技术突破 - 华为推出昇腾平台原生设计的Pangu Pro MoE 72B模型,大幅降低计算开销,在SuperCLUE千亿内模型并列国内第一[3] - 通过系统级软硬协同优化、高性能算子融合优化、模型原生投机算法优化,Pangu Pro MoE推理性能提升6~8倍[3] - 在昇腾300I Duo上单卡吞吐可达321 tokens/s,在昇腾800I A2上更可飙升至1528 tokens/s[3] 分层混合并行(H2P)优化 - 提出创新性的H2P分层混合并行策略,根据任务特性"分工开小会",让每个部分在各自的通信域内高效执行[6] - Attention模块采用DP2+TP4并行方案,Expert模块采用TP2+EP4策略,共享专家以TP8全芯并行[6] - 相比纯TP方案,Decode吞吐性能提升33.1%[7] 通信瓶颈优化(TopoComm) - 提出SlimRing算法合并相邻通信步的后同步与前同步操作,同步次数降低35%[10] - 提出NHD算法通过拓扑亲和的分级通信等效提高链路有效带宽21%[10] - 引入INT8 AllGather + FP16 Reduce-Scatter混合量化通信策略,实现通信数据压缩25%,AllGather通信耗时降低39%[10] 计算&通信融合(DuoStream) - 提出DuoStream算子级多流融合通算优化方案,实现计算与通信的细粒度并发调度[11] - 构建GMMRS与AGMM两大融合策略,克服通信与数据搬运和计算之间的瓶颈[11] - 显著提升模型在昇腾平台上的推理效率,最大化释放硬件资源潜能[11] 融合算子优化 - 打造MulAttention和SwiftGMM两支精锐融合算子特种部队[16] - MulAttention实现Attention计算加速4.5倍,达成89%以上的数据搬运流水占用率[17] - SwiftGMM实现GMM计算加速2.1倍,解码阶段整网推理时延降低48.7%[20] 推理算法加速 - 提出专家动态剪枝算法PreMoE,实现推理吞吐提升10%+[25] - 提出TrimR反思压缩算法,推理步数降低14%[27] - 提出SpecReason反思投机算法,推理吞吐提升30%[27] 昇腾平台性能表现 - 昇腾800I A2平台在BS=456时单卡吞吐达1148 tokens/s,较72B和32B稠密模型分别提升97%和18%[30] - 结合MTP投机推理技术,单卡BS可提升至146,最高吞吐突破1528 tokens/s[30] - 昇腾300I Duo平台在BS=128时单卡吞吐最高达321 tokens/s,提供更具性价比的MoE推理解决方案[32]
类R1训练不再只看结果对错!港中文推出SophiaVL-R1模型
机器之心· 2025-06-06 17:36
DeepSeek-R1 爆火后,类 R1 的结果奖励训练范式在各领域掀起了推理热潮。基于规则的结果奖励实现简单、判断严格。但是,这真的够了吗? 在推理任务中,如果我们只是用「结果对错」来奖励模型,那模型就很可能学会了「靠捷径答题」。 这种模式下,模型的「正确思考策略」没有完全建立起来,它甚至会因为一次「瞎蒙对」的奖励,而在之后反复强化错误策略,越走越偏。 为了解决这个问题,港中文联合上海人工智能实验室团队发布了多模态推理模型 SophiaVL-R1,它在类 R1 强化学习训练框架上做了一次关键进化:不再 只奖励结果是否正确,而是将「思考过程」也纳入奖励体系。 这一套设计不仅能让模型学会更通用、更靠谱的推理策略,还显著提升了泛化能力——在多个数学和通用多模态基准测试中,SophiaVL-R1-7B 甚至击败 了参数量是其 10 倍的 LLaVA-OneVision-72B 模型。 目前,研究团队已将所有模型、数据和代码开源。 思考过程也要评分,才是好模型 SophiaVL-R1 的关键突破点,就在于它引入了「思考奖励」机制 —— 不再只看答案对不对,而是开始评估模型整个推理过程是否合理、连贯、靠谱。 论文链接: ...
MoE推理「王炸」组合:昇腾×盘古让推理性能狂飙6-8倍
机器之心· 2025-06-06 17:36
混合专家模型技术突破 - 华为推出昇腾平台原生设计的Pangu Pro MoE 72B模型,显著降低计算开销并在SuperCLUE千亿内模型评测中并列国内第一 [2] - 通过软硬协同优化实现推理性能提升6~8倍,昇腾300I Duo单卡吞吐达321 tokens/s,昇腾800I A2单卡吞吐飙升至1528 tokens/s [3] - 采用分层混合并行(HP)策略,Decode吞吐性能相比纯TP方案提升33.1%,通过模块化分工优化通信效率 [5][6][7] 通信与计算协同优化 - 提出TopoComm优化方案,同步次数降低35%,链路有效带宽提高21%,通信数据压缩25%,AllGather通信耗时降低39% [9] - 开发DuoStream多流融合方案,实现计算与通信细粒度并发调度,解决Expert模块通信瓶颈 [12] - 构建GMMRS与AGMM融合策略,关键通信路径流水掩盖,显著提升硬件资源利用率 [12] 高性能算子创新 - 开发MulAttention融合算子,Attention计算加速4.5倍,数据搬运流水占用率89%,访存带宽利用率87% [16] - 推出SwiftGMM矩阵计算引擎,GMM计算加速2.1倍,解码阶段整网推理时延降低48.7% [18] - 算子优化实现KV缓存搬运效率提升,路由专家权重搬运瓶颈突破 [15][16][18] 推理算法创新 - 专家动态剪枝算法PreMoE保持模型准确率同时提升推理吞吐10%+ [21] - TrimR反思压缩算法通过小模型监测大模型思考过程,推理步数降低14% [22] - SpecReason反思投机算法结合大小模型优势,推理吞吐提升30% [22] 昇腾平台性能表现 - 昇腾800I A2平台4卡部署下,大并发场景单卡吞吐1148 tokens/s,较72B/32B稠密模型提升97%/18%,MTP技术下最高吞吐达1528 tokens/s [24] - 昇腾300I Duo平台4卡部署实现小并发延迟50ms,大并发单卡吞吐201 tokens/s,MTP技术下吞吐最高321 tokens/s,提供高性价比解决方案 [26] - 预填充阶段2卡2路并发实现2k序列输入延迟1.94s,单卡吞吐1055 tokens/s [26]
中移齐鲁创新院发布“迅测”工具:助力国产芯片选型效率跃升
齐鲁晚报· 2025-06-06 16:15
行业趋势 - 大模型推理成本持续下降和国产芯片快速发展推动政务、金融、医疗等数据敏感行业加速推进推理模型国产化本地部署 [1] - 国产智算芯片型号众多、性能差异显著,高效准确压测模型推理性能成为筛选高性能低成本芯片的关键挑战 [1] 技术创新 - 中移齐鲁创新院自主研发"迅测"芯片推理性能自动压测工具,创新构建"配置即测试"压测模式并集成数据自动解析能力 [1] - "迅测"工具单轮测试人工值守时长从平均8小时降至0.5小时,数据整理耗时减少70%,整体芯片选型效率提升3倍 [1] - 工具核心技术亮点包括基于vLLM的智能自动压测和压测数据自动汇总及可视化分析 [3] 技术细节 - 通过智能调度vLLM引擎实现一键化操作,用户仅需设定并发请求量即可自动执行多轮压力测试 [3] - 支持本地和宿主机远程两种压测模式,适配不同芯片的单节点或多节点部署需求 [3] - 采用标准化数据存储机制自动计算生成错误率、单路输出速度等核心性能指标,确保跨平台测试结果可比性 [3] - 内嵌数据可视化引擎直观呈现芯片性能差异,自动化日志解析技术解决海量日志人工汇总痛点 [3] 应用成果 - 已完成DeepSeek系列大模型在天数智芯、华为昇腾、壁仞科技、瀚博半导体等主流国产计算平台上的推理性能测试 [3] - 生成精细化对比报告包含多项关键参数对比矩阵,为国产大模型推理芯片选型提供重要参考依据 [3]
阿里智能体多轮推理超越GPT-4o,开源模型也能做Deep Research
量子位· 2025-06-06 12:01
WebDancer团队 投稿 量子位 | 公众号 QbitAI 能够完成多步信息检索任务,涵盖多轮推理与连续动作执行的智能体来了。 通义实验室推出WebWalker(ACL2025)续作自主信息检索智能体WebDancer。 WebDancer 通过系统化的训练范式——涵盖从数据构建到算法设计的全流程——为构建具备长期信息检索能力的智能体提供了明确路径。 同时,该框架也为在开源模型上复现Deep Research系统提供了可行的指导。团队将进一步在更开放的环境中、结合更多工具,持续拓展和 集成Agentic能力,推动通用智能体的落地与演进。 一、背景:信息检索的新需求与挑战 在信息爆炸的时代,传统的搜索引擎已难以满足用户对深层次、多步骤信息获取的需求。从医学研究到科技创新,从商业决策到学术探索,复 杂问题的解决需要深入的信息挖掘和多步推理能力。这催生了对能够自主思考、自主决策的智能体的需求。 然而,构建这样的智能体面临诸多挑战: 二、突破训练数据难获得问题 在自主信息检索领域,高质量的训练数据至关重要。然而,现有的数据集如2WIKI,HotpotQA多为浅层次问题,难以支持复杂多步推理的训 练需求。 数据过滤 ...
国产替代加速或成长期主线,芯片板块小幅回调,芯片ETF(512760)昨日净流入超5000万元
每日经济新闻· 2025-06-06 10:55
消息面上,5月27日中欧半导体上下游企业座谈会在北京召开,商务部、中国半导体行业协会及40余家 中欧企业代表参会,强调深化半导体领域经贸合作,维护全球供应链稳定。 6月6日,芯片板块小幅回调,芯片ETF(512760)昨日净流入超5000万元。 东海证券指出,电子行业需求处于温和复苏阶段,AI推理市场需求高度增长,英伟达一季度数据中心 营收同比增长73%,AI推理token生成量在短短一年内激增10倍。当前国产EDA尚不具备完全替代美系 产品的能力,但长期将推动国产化进程。半导体设备、材料领域国产替代持续加速,1-4月半导体器件 专用设备制造利润同比增长105.1%。行业面临海外技术限制压力,自主可控成为发展主线,建议关注 AIOT、AI驱动、设备材料及消费电子周期筑底板块。 注:指数/基金短期涨跌幅及历史表现仅供分析参考,不预示未来表现。市场观点随市场环境变化而变 动,不构成任何投资建议或承诺。文中提及指数仅供参考,不构成任何投资建议,也不构成对基金业绩 的预测和保证。如需购买相关基金产品,请选择与风险等级相匹配的产品。基金有风险,投资需谨慎。 (文章来源:每日经济新闻) 没有股票账户的投资者可关注国泰CE ...