Workflow
推理
icon
搜索文档
告别数据「噪音」,UCSD大模型推理新方法DreamPRM充当「信号放大器」,登顶MathVista测评榜
机器之心· 2025-07-10 18:49
DreamPRM 由加州大学圣地亚哥分校的研究团队开发,在数学推理权威测评榜MathVista上获得了第一 名。 第一作者为博士生 Qi Cao,通讯作者为该校副教授 Pengtao Xie,团队其他成员还包括王睿一, Ruiyi Zhang 和 Sai Ashish Somayajula。 由于多模态输入(图像 + 文本)构成高维连续与离散信号的混合空间,训练数据与测试数据的分 布偏移(Distribution Shift)远超纯文本场景,导致一般过程奖励模型泛化能力显著下降。 数据集质量失衡。现有开源多模态推理数据集存在大量低价值样本,如冗余模态与低难度问题。 若直接用于训练,噪声数据会稀释过程奖励模型对关键推理步骤(如跨模态逻辑衔接)的监督信 号。 使用过程奖励模型(PRM)强化大语言模型的推理能力已在纯文本任务中取得显著成果,但将过程奖 励模型扩展至多模态大语言模型(MLLMs)时,面临两大难题: 针对上述问题,我们通过双层优化框架,将数据域权重(Domain Weights)作为可学习参数,动态抑 制低质量数据域的影响,同时强化高信息密度数据域(如需要多步跨模态推理的 M3CoT 数据集)的贡 献, ...
AI芯片公司,估值60亿美元
半导体芯闻· 2025-07-10 18:33
如果您希望可以时常见面,欢迎标星收藏哦~ 来 源: 内容编译自路透社 。 Groq 正在寻求利用欧洲对人工智能服务不断增长的需求,此前已有其他美国公司加大了在该地区 的投资。北欧地区尤其受到青睐,因为这里能轻松获取可再生能源,气候也较为凉爽。上个月,英 伟达首席执行官黄仁勋在欧洲签署了多项基础设施协议,其中包括数据中心。 Groq 公司估值 28 亿美元,设计了一款名为语言处理单元(LPU)的芯片。该芯片专为推理而非训 练而设计。推理是指预先训练好的人工智能模型对实时数据进行解读以得出结果,这与热门聊天机 器人生成的答案类似。 《The Information》周三援引知情人士的话报道称,美国半导体初创公司 Groq 已与投资者商谈 筹集 3 亿至 5 亿美元资金,投资后估值为 60 亿美元。 报道称,该公司正在寻求现金来履行最近与沙特阿拉伯签署的协议。 报道称,Groq 告诉投资者,沙特阿拉伯的合同将帮助该公司今年带来约 5 亿美元的收入。 Groq 尚未回应路透社的置评请求。 去年 8 月,Groq 在由思科投资、三星催化基金和贝莱德私募股权合作伙伴等领投的 D 轮融资中 筹集了 6.4 亿美元,使其估值 ...
博通管理层会议:AI推理需求激增,甚至超过当前产能,并未反映在当前预期内
华尔街见闻· 2025-07-10 16:46
博通最新管理层会议释放出清晰信号——AI推理需求不仅正在迅速放量,而且仍处于上升通道的早期,未来对市场规模和产能 配置的重估,可能带来利润的系统性上修。 据追风交易台,在摩根大通日前组织的一场投资者会议中,博通管理层透露,公司在AI推理领域正迎来超预期的需求增长,甚 至"超过当前产能",而这一趋势尚未被纳入此前对市场规模的预测,或为未来盈利带来上修空间。与此同时,非AI业务也开始 复苏,VMware持续放量,公司整体"多线开火"。 博通CEO Hock Tan与CFO Kirsten Spears表示,过去一年AI需求主要来自训练负载,尤其是"前沿模型"的训练。但最近两个月, 公司在AI推理方面的订单大幅上升。管理层指出,这波推理需求来自客户希望更快地变现其AI投资,"推理的市场容量,可能被 严重低估"。 AI推理需求超预期,有望推高市场规模预测上限 博通管理层表示,定制AI XPU芯片业务依然强劲,增长跑道清晰可见。过去9-12个月中,AI需求主要集中在前沿模型等训练工 作负载上。但在过去2个月里,随着客户努力将投资货币化,公司经历了推理需求的显著激增。管理层认为当前推理需求已超过 产能。 这一强劲的AI推 ...
复杂系统自学习“逆最优”理论与方法专题论坛在京举行
环球网资讯· 2025-07-10 16:40
来源:光明网 中国科学院院士、中国自动化学会理事长、中国空间技术研究院研究员杨孟飞出席。中国自动化学会特 聘顾问、青岛科技大学副校长、上海交通大学教授李少远,华北电力大学教授肖峰,中国自动化学会副 监事长、安徽大学教授孙长银,中国自动化学会理事、武汉大学教授张俊作主旨报告。中国自动化学会 理事、中国科学院自动化研究所研究员魏庆来,英国格拉斯哥大学教授于慧,英国剑桥大学助理教授那 晓翔作专题报告。北京航空航天大学教授王卓主持报告环节。中国科协第十届青年人才托举工程入选 者、中国科学院自动化研究所副研究员王晨主持圆桌讨论环节。 7月5日,第二十七届中国科协年会复杂系统自学习"逆最优"理论与方法专题论坛在北京召开。本次专题 论坛由中国科协主办,中国自动化学会承办,与会专家围绕实际复杂系统最优运行建模等非共识议题, 共同探讨复杂非线性系统自学习"逆最优"发展路径。 张俊教授作题为"基于生成式人工智能和科学智能(AI4S)的复杂电力系统数智化关键技术与应用"的报 告 孙长银教授作题为"试错驱动具身智能学习与进化"的报告 魏庆来研究员作题为"自学习最优控制"的报告 杨孟飞理事长出席论坛 李少远教授作题为"基于'智能'增强 ...
师兄自己发了篇自动驾大模型,申博去TOP2了。。。
自动驾驶之心· 2025-07-09 20:56
大模型在自动驾驶领域的应用趋势 - 大模型在自动驾驶功能上的落地逐渐清晰化,理想、华为等公司开始推行VLA、VLM方案 [2] - 下一代大模型需关注轻量化与硬件适配、知识蒸馏与量化加速、高效微调等方向 [2] - CoT方案和VLA+强化学习等高级推理范式成为行业重点 [2] 大模型优化技术研究方向 - 参数高效计算:研究剪枝稀疏化和量化加速等轻量化方法 [3] - 知识动态扩展:探索检索增强生成(RAG)和参数高效微调(PEFT)技术 [3] - 复杂推理优化:研究链式思维(CoT)和强化学习优化(GRPO)等范式 [3] 课程核心内容 - 系统探讨大模型前沿优化方法,包括参数压缩、知识扩展和推理优化 [3] - 关键技术涵盖结构化剪枝、低比特量化、动态检索、多跳推理等 [3] - 实验平台使用主流大模型如LLaMA、GPT,结合理论讲解与实践 [3] 课程目标与收获 - 帮助学员系统掌握大模型优化理论,形成清晰知识体系 [8] - 提升Coding能力,实现论文复现与模型开发 [8] - 提供论文写作方法论、修稿指导与投稿建议 [8] 课程招生与要求 - 招生对象:大模型方向本硕博、申硕申博、AI领域从业者 [9] - 招生人数:6人/期,至多8人 [5] - 要求:具备深度学习基础,熟悉Python和PyTorch,有研究热情 [10] 课程大纲与时间安排 - 12周在线科研+2周论文指导+10周论文维护期 [9] - 每周主题涵盖大模型剪枝、量化加速、PEFT、多智能体协作等 [20] - 最终产出论文初稿,具备投稿潜力 [9] 实验与资源支持 - 提供Baseline代码,涵盖剪枝、量化、多模态推理等方向 [19] - 数据集采用公开资源或垂类自定义数据 [17] - 硬件要求最低2张4090显卡,建议4张或租赁云服务器 [15] 学术支持与成果预期 - 导师提供定制化研究idea,目标SCI 1~4区或CCF A/B/C级别论文 [22] - 课程交付价值包括科研流程、写作方法、论文初稿 [22] - 答疑周期为6个月,确保后续研究支持 [22]
智谱GLM-4.1V-Thinking登顶HuggingFace Trending全球第一:同尺寸效果最好
IPO早知道· 2025-07-09 18:01
模型性能与突破 - GLM-4.1V-9B-Thinking凭借9B模型尺寸登顶HuggingFace Trending第一 [2] - 该模型在28项权威评测中23项达成10B级模型最佳成绩,其中18项持平或超越72B的Qwen-2.5-VL [4] - 采用"思维链推理机制"和"课程采样强化学习策略",系统性提升跨模态因果推理能力与稳定性 [3] 多模态能力 - 支持视频理解,可解析最长两小时内容并分析时间、人物、事件和逻辑关系 [4] - 具备图像问答能力,能深入分析图像内容并解答,逻辑能力和世界知识较强 [4] - 支持学科解题,包括数学、物理、生物、化学等学科的看图解题并给出详细思考过程 [4] 应用场景 - 文字识别:准确抽取图片和视频中的文字及图表内容并结构化输出 [5] - 文档解读:对金融、政务、教育等领域文档进行原生理解、抽取、提炼和问答 [5] - GUI Agent:识别网页、电脑和手机屏幕的交互界面元素,支持点击、滑动等指令执行 [5] 技术特点 - 轻量版模型参数控制在10B级别,兼顾部署效率与性能突破 [4] - 融合丰富多模态能力,包括代码生成(基于图片文字内容自动编写前端代码) [5] - 支持Grounding功能,识别图片特定区域并抽取坐标位置 [5]
DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌
量子位· 2025-07-09 12:57
核心观点 - 上海交大联合深势科技团队在"人类最后的考试"(HLE)上取得32.1分,创下新纪录[2] - 该团队推出工具增强推理智能体X-Master和多智能体工作流系统X-Masters[3] - 研究成果已开源[4] - 使用DeepSeek-R1-0528作为驱动智能体的推理模型[6] - 这是首个在HLE上得分超过30%的系统[26] 技术方案 - X-Master是一个由开源模型驱动的工具增强型推理智能体,模拟人类研究者的动态问题解决过程[9] - 将代码概念化为一种交互语言,在遇到无法解决的问题时编写代码块执行[11] - 引入初始推理引导机制,通过精心设计的自我陈述引导模型[17] - X-Masters采用分散-堆叠式智能体工作流,通过多智能体协作增强推理[20] - 分散阶段:多个求解器智能体并行工作,批评者智能体修正方案[22] - 堆叠阶段:重写器智能体综合方案,选择器智能体裁定最佳答案[22] 性能表现 - 在HLE测试中取得32.1%的最高分[26] - 消融研究显示:工具增强推理提高3.4%,迭代优化增加9.5%,最终选择实现32.1%[29] - 在生物学/医学类别中表现优于现有系统,达到27.6%正确率[31] - 在TRQA-lit生物学测试中取得67.4%的SOTA成绩[32] HLE测试背景 - 由AI安全中心和Scale AI发起,被称为史上最难大模型测试集[34] - 题目来自500多家机构的1000多名学者,需通过大模型和人工双重审查[38] - 最终入围3000多道题目,涵盖数理化、生物医药等八大类[39] - 数学占比42%,物理和生物医药各占11%[39]
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
量子位· 2025-07-09 09:18
模型性能突破 - Polaris通过Scaling RL技术使4B模型在数学推理任务(AIME25得分79.4,AIME24得分81.2)超越商业大模型如Claude-4-Opus和Seed-1.5-thinking [1] - 仅用700步RL训练即让Qwen3-4B接近其235B版本的表现 [5] - 模型轻量化设计支持消费级显卡部署 [2] 训练方法论创新 - 提出"镜像J"数据分布理论:构建轻微偏向难题的分布可优化不同能力基模型的训练效果 [10] - 采用动态数据更新策略:删除训练过程中准确率过高的样本以维持挑战性 [13] - 实现多阶段温度调整:通过控制探索区温度初始化,动态维持60分多样性水平 [32][33] 技术实现细节 - 引入长度外推技术:应用YaRN方法将32K以上长文本准确率从26%提升至50% [41][43] - 优化采样温度区间:划分鲁棒生成区/控制探索区/性能崩塌区,打破t=0.6或1.0的行业惯例 [28] - 采用渐进式上下文窗口扩展:Qwen3-4B需直接从40K长度启动训练以避免性能塌陷 [52] 开源生态建设 - 完整公开训练数据/模型/代码,包括Huggingface模型库和GitHub仓库 [3][53] - 验证Scaling RL对前沿开源模型(如Qwen3)的普适性提升效果 [5] - 提出token利用效率概念:不同基模型对响应长度的敏感度存在显著差异 [51]
长思维链里的推理步骤,哪些最关键?三招锁定LLM的「命门句子」
机器之心· 2025-07-09 08:50
机器之心报道 编辑:张倩 思维链里的步骤很重要,但有些步骤比其他步骤更重要,尤其是在一些比较长的思维链中。 找出这些步骤,我们就可以更深入地理解 LLM 的内部推理机制,从而提高模型的可解释性、可调试性和安全性。 但是,这些步骤没有那么好找,因为每个生成的 token 都依赖于之前的所有 token,其计算难以分解。 在最近的一项研究中,来自杜克大学和 Aiphabet 的研究者提出, 在句子层面分析推理痕迹或许是一种有前途的方法 。 作者指出,与 token 相比,句子的连贯性更强,并且往往与 LLM 提取的推理步骤相一致;与段落相比,句子不太可能混淆推理步骤,并且可以作为连接不同步骤 的有效对象。 作者提出了三种互补的方法来分析 LLM 的推理过程,这些方法旨在识别推理过程中的关键步骤,即所谓的「思维锚(thought anchor)」,这些步骤对后续推理过 程具有重大影响。 论文标题:Thought Anchors: Which LLM Reasoning Steps Matter? 论文链接:https://arxiv.org/pdf/2506.19143 第一种是 黑盒方法 。它通过反事实分析衡量句 ...
KAG-Thinker:「结构化」思考新范式,支持逻辑严谨的大模型复杂推理
机器之心· 2025-07-08 14:54
模型发布与背景 - 蚂蚁集团知识引擎团队联合浙江大学、同济大学发布KAG-Thinker模型,聚焦复杂推理任务的结构化思考范式构建[1] - 该模型是KAG框架的重要迭代升级,旨在提升推理过程的逻辑性与稳定性[1] - 相比OpenAI的Deep Research等Model-Centric方法,KAG-Thinker通过建立分层"脚手架"解决自由发挥式推理的不严谨问题[1] 技术架构与创新 - 采用Logical Form自然语言与逻辑函数双语义表示机制,提升结构化知识利用率[3] - 提出"广度拆分+深度求解"方法:将复杂问题分解为原子问题并保持逻辑依赖关系[10] - 引入知识边界判定机制,通过无监督过程判断是否需外部检索[12][13] - 开发检索抗噪模块,过滤无关内容并提取核心信息作为答案依据[17][18] - 集成4种Logical Form求解器(Retrieval/Deduce/Math/Output)处理不同类型子问题[19][20] 性能表现 - 在7个单跳/多跳推理数据集上平均性能超越SOTA方法ReSearch达4.1%[6][24] - 单跳数据集平均提升4.5%,多跳数据集提升3.9%[25] - 与无检索基线相比,性能分别高出Naive Generation 27.1%和CoT 34.6%[23] - 集成KAG框架后,EM和F1指标较基础Thinker模型再提升3.0%和3.8%[31] 框架升级 - KAG V0.8扩展私域/公网知识库支持,新增多种基础索引类型[28] - 全面拥抱MCP协议,支持接入公网数据源及Agent流程集成[29] - 在HotpotQA等数据集上稳定性较前代提升17.9%(7B)和7.6%(72B)[33] 专业领域应用 - 医疗领域定制版KAG-Med-Thinker在MedQA任务中超越IRCoT 3.95%、ReAct 4.41%[39] - 相比Naive RAG自适应检索模型性能提升3.8%[39]