推理

搜索文档
知识类型视角切入,全面评测图像编辑模型推理能力:所有模型在「程序性推理」方面表现不佳
量子位· 2025-06-13 13:07
研究背景 - 东南大学联合马克斯·普朗克信息研究所、上海交通大学、阶跃星辰、加州大学伯克利分校与加州大学默塞德分校的研究团队共同提出KRIS-Bench评测框架 [2] - 首创从知识类型视角系统化评测图像编辑模型的推理能力 [3] - 借鉴布鲁姆认知分类与教育心理学分层教学理念设计评测体系 [4] 评测框架设计 - 基于三大知识范畴:事实性知识(颜色、数量等)、概念性知识(物理化学常识)、程序性知识(多步推理) [8] - 细分为7大推理维度和22种编辑任务覆盖全谱系难度 [6] - 样本总量1267对图像-指令由专家手工打磨数据来源多样化 [12] 评估指标与方法 - 首创四维度自动化评估:视觉一致性、视觉质量、指令跟随、知识合理性 [10][11][13] - 深度知识任务附带手工知识提示以验证模型理解能力 [11] - 评测10款模型包含3款闭源(GPT-Image-1等)和7款开源(OmniGen等) [14] 评测结果 - 闭源旗舰GPT-Image-1表现领先开源黑马BAGEL-Think在知识合理性上有提升但仍有差距 [17] - 多数模型在事实性知识(如数量变化)基础任务上表现欠佳 [17] - 所有模型在程序性推理、自然科学及多步骤合成任务上普遍失分 [17] 行业意义 - 推动图像编辑模型从像素搬运向具备认知能力的视觉智者进化 [16] - 未来目标是在模型中植入物理化学常识与因果推理实现真正的理解 [16]
AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%
量子位· 2025-06-13 13:07
大型推理模型安全研究 - 大型推理模型(LRMs)在复杂任务中表现强大但存在安全风险,监督微调(SFT)对训练数据外的"越狱"攻击泛化能力有限[1] - 此前研究缺乏对大型推理模型安全性的深入分析[2] - 加州大学圣克鲁兹分校等团队提出SafeKey框架,在不影响模型核心能力前提下增强安全稳健性[3] 模型"越狱"核心发现 - 发现"关键句"现象:模型回答中第一个句子决定回答的安全调性,是安全与危险回答的分水岭[5][6] - 模型在生成"关键句"前对恶意查询的理解和复述已暴露安全特征信号,但该信号未被充分利用导致安全防线崩溃[8][9] SafeKey框架设计 - 采用双通路安全头:通过监督预测头强化隐藏状态的安全信号,为触发"安全顿悟"做铺垫[11] - 查询遮蔽建模:遮蔽原始用户输入,迫使模型基于自身生成的安全信号续写"关键句"以增强决策自主性[12][13][14] 实验验证结果 - 安全性能提升:SafeKey在三个模型上降低9.6%危险率,尤其在训练领域外的攻击中表现显著[17] - 核心能力维持:在数学推理、代码和语言理解等基准测试中,模型准确率比基线平均高0.8%[17] - 模块有效性:双通路安全头和查询遮蔽建模可独立提升安全性,前者优化安全表征,后者增强模型对自身理解的注意力[17] 资源与成果 - SafeKey框架兼容不同规模模型,计算资源需求较低[17] - 研究成果已公开论文、项目主页、复现代码和模型[18]
o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理
量子位· 2025-06-13 10:25
OpenAI o3-pro模型性能评测 - o3-pro在复杂推理测试中成功解答歌手Sabrina Carpenter歌曲名的字母谜题耗时4分25秒[2] - 与o3相比o3-pro在相同测试中仅能答对部分字母[3] - 前OpenAI AGI团队负责人Miles Brundage公开支持o3-pro的推理能力并暗讽苹果对AI推理的质疑[4][5] 模型基准测试表现 - 官方测评显示o3-pro成为OpenAI当前最强编码模型[8] - LiveBench榜单显示o3-pro与o3编码平均分仅差0.07分(76.78 vs 76.71)[11] - 智能体编码得分o3-pro显著落后o3(31.67 vs 36.67)[11] - 亚马逊云科技前高管指出o3-pro在智能体和工具使用方面存在不足[12] 上下文处理能力 - 短上下文场景下o3-pro表现优于o3[15] - 192k超长上下文处理Gemini 2.5 Pro得分90.6显著高于o3-pro的65.6[16] - 上下文长度测试显示o3-pro在60k以下场景保持94.4分以上表现[17] 实际应用案例 - 前苹果工程师Ben Hylak通过输入公司历史会议记录等完整背景信息o3-pro输出精准业务规划[24][25] - o3-pro在工具调用和环境认知方面表现提升能明确说明功能边界[30][31] - 相比o3的虚假承诺o3-pro更诚实地说明功能限制[33][35] - 在SQL等特定任务上o3表现仍优于o3-pro[38] 模型特性分析 - o3-pro需要更丰富的背景信息输入否则易出现过度思考[37] - 与Claude Opus和Gemini 2.5 Pro相比o3-pro输出质量更高维度不同[39] - OpenAI通过强化学习路径提升模型"何时使用工具"的决策能力[39] - 系统提示和语境设置对o3-pro表现影响显著[40][41] 商业动态 - o3模型价格下调成为昨日重要新闻[13] - 前苹果工程师Ben Hylak透露已提前一周接触o3-pro进行测试[23]
不靠价格战,豆包大模型靠技术杀出重围
经济观察网· 2025-06-12 21:51
字节跳动AI产品发布 - 火山引擎发布豆包大模型1.6、视频生成模型Seedance 1.0 pro及升级Agent开发平台等AI云原生服务 [1] - 豆包大模型日均tokens使用量超16.4万亿,较去年5月增长137倍 [1] - 豆包大模型在中国公有云大模型市场份额达46.4%,排名第一 [1] 产品技术亮点 - 豆包1.6支持多模态理解和图形界面操作,可自动完成预订酒店、整理Excel等任务 [2][3] - Seedance 1.0 pro支持生成1080P多镜头视频,在Artificial Analysis评测中两项任务全球第一 [3] - 豆包1.6-thinking在复杂推理、数学竞赛等评测中跻身全球第一梯队 [2] 行业应用与客户覆盖 - 豆包大模型服务全球TOP10手机厂商中的9家、80%主流汽车品牌、70%系统重要性银行及超50%的985高校 [2] - 在金融行业提供智能展业、投顾等方案,服务华泰证券、招商银行等客户 [6] - 在教育行业与北大、浙大等高校合作推动智能化转型 [6] 商业模式与成本优化 - 豆包1.6首创按输入长度区间定价,综合成本为豆包1.5或DeepSeek R1的三分之一 [4][5] - Seedance 1.0 pro每千tokens仅0.015元,生成5秒1080P视频成本3.67元 [5] - 降价源于技术突破与规模效应,非价格战,日均调用量超16万亿tokens摊薄边际成本 [7][8] 企业合作案例 - 联想集成豆包大模型至AI桌面助手"如意",实现AI搜索、写作等功能 [10][12] - 瑞幸推出AI点单助手"Lucky",基于豆包大模型实现意图识别与快速下单 [11] - 百胜中国引入豆包大模型于智能客服与员工培训,降本增效 [11] 战略与行业趋势 - 公司定位Agent智能体为AI时代核心形态,未来将围绕Agent持续演进技术 [13] - 大模型被视为软件生产调度核心,豆包1.6编程能力显著提升并即将开放TRAE编程助手 [14] - Agentic AI被视为产业数字化转型新引擎,将重塑企业流程与行业格局 [16]
专为实际应用场景设计,旨在追赶美中,欧洲首个AI推理模型来了
环球时报· 2025-06-12 06:33
公司动态 - 法国AI初创企业米斯特拉尔推出欧洲首个推理模型Magistral Small和Magistral Medium,专为法律、金融、医疗和工程领域设计 [1] - 新模型在数学运算和编程方面表现卓越,但在基准测试中逊于谷歌Gemini 2.5 Pro和Anthropic Claude Opus 4 [4] - 公司声称Magistral在Le Chat平台的回答速度是竞争对手的10倍,并支持意大利语、阿拉伯语、俄语和简体中文等多语言 [4] - 公司2023年由前Meta和谷歌DeepMind研究员创立,两年内发布系列开源AI模型及Le Chat平台 [5] - 公司估值达62亿美元(风投评估值),2024年营收预计首次突破1亿美元 [2][5] 行业趋势 - 行业从单纯扩大语言模型规模转向推理模型方向,可能为资金较少的公司提供追赶机会 [2] - 欧洲企业寻求降低对美国AI供应商依赖,战略自主需求增长推动本土科技龙头发展 [5] - 美国OpenAI、谷歌和中国深度求索已占据推理模型先发优势,米斯特拉尔代表欧洲首次突破 [2] 产品技术 - Magistral Medium在物理、数学和科学能力测试中落后于国际竞品,但在特定场景(如多语言支持)有差异化优势 [4] - 推理模型通过分步逻辑思维执行复杂任务,适用于实际应用场景 [1]
获沙特15亿美元投资,Groq专注以垂直整合策略打造AI推理基础设施
36氪· 2025-06-11 17:42
NVIDIA市场地位变化 - NVIDIA的市值目前稳居美国股市前三,但其市场地位已经不如之前那么稳固 [1] - Google使用TPU芯片训练出Gemini 2.5 Pro这个SOTA通用模型,打破了SOTA模型主要由NVIDIA GPU训练的垄断 [1] - 在市场更大的推理计算市场,NVIDIA的领先相对更小,面对AMD、Google、华为等大厂以及创业公司的竞争 [3] Groq公司发展 - Groq在2024年12月在沙特构建了由19000个Groq LPU组成的AI推理数据中心,仅花了8天时间就上线 [3] - Groq创始人兼首席执行官Jonathan Ross宣布获得沙特15亿美元的投资承诺,用于扩大其基于LPU的AI推理基础设施在该国的交付规模 [3] - 2024年早些时候,Groq完成由贝莱德领投的6.4亿美元融资,总融资金额超过10亿美元,公司估值达到28亿美元 [3] - Meta的首席AI科学家Yann LeCun加入Groq担任技术顾问,英特尔前晶圆厂业务负责人Stuart Pann加入担任首席运营官 [4] - Groq的创始人兼CEO Jonathan Ross参与了TPU的发明,公司吸纳了TPU团队的10位成员中的8位 [5] AI芯片市场与推理需求 - AI芯片的市场规模预计到2030年将达到1100亿美元左右 [7] - 目前大约有40%的AI芯片用于推理,未来AI推理的需求将提升至总计算需求的60-80% [7] - AI的推理成本已经下降99%,每美元在推理上的投入每年带来的价值提升十倍 [7] Groq的LPU芯片技术 - Groq的LPU(Language Processing Unit)是完全根据AI推理计算的需求而设计的 [8] - LPU专注于线性代数计算并简化多芯片计算模式,采用可编程流水线架构 [10] - LPU将内存和计算单元都集成在同一芯片上,片上SRAM内存带宽高达80TB/s,比GPU的HBM内存带宽高10倍 [10] - 当前一代LPU的能效比目前最节能的GPU高10倍 [10] - Groq的芯片组基于14纳米工艺制造,将在2025年内推出基于4纳米工艺制造的芯片 [11] Groq的产品与商业模式 - Groq的主要产品是AI推理云服务和AI计算中心,而非直接卖芯片 [12] - GroqRack集群以私有云或AI计算中心方式提供,计划在挪威部署129600个LPU [12] - GroqCloud云平台提供Tokens-as-a-Service的服务,开发者可以通过API访问平台并构建AI应用 [12] - GroqCloud平台上的活跃开发者数量从2024年7月的35.6万名增长到2025年4月的超过150万名 [15] - 大多数财富500强公司已经成为Groq的客户 [15] Groq的复合AI系统 - Groq在2025年开发了Compound复合AI系统,通过采取行动来解决问题 [16] - 该系统由多个开源模型共同驱动,使用Llama 4 Scout进行核心推理,Llama 3.3 70B辅助进行请求路由和工具选择 [16] - 开发者可以在此基础上构建AI Agent、智能助手和研究工具 [16] Groq的竞争优势 - Groq专注于提供快速的AI推理服务,没有碰训练和其他类型的计算 [18] - 垂直整合从硬件芯片到云服务之上的自研Compound复合AI系统 [18] - 与云服务商相比的差异化优势来自于专注和垂直整合 [18] - 创始人Jonathan Ross认为最关键的指标应该是每token的成本和能耗 [18] 行业趋势与创业公司优势 - 开源模型的崛起让企业和开发者能够用它们构建生产力 [13] - Groq在云服务中推出DeepSeek和Qwen的服务 [13] - 创业公司在速度、效率和对用户体验的迭代方面具有优势 [19] - 垂直整合路线中,大厂如阿里云、百度智能云更有基础,但创业公司可以在某些垂直服务上做到极致 [19]
OpenAI发布最强模型o3-pro
第一财经· 2025-06-11 13:29
2025.06. 11 本文字数:1976,阅读时长大约3分钟 根据OpenAI内部测试,o3-pro在数学基准测试AIME 2024中超越谷歌最强的模型Gemini 2.5 Pro,在 博士级科学测试GPQA Diamond中击败Anthropic 最强的Claude 4 Opus,展现出推理模型领域的领 先性能。 不过,在X上的评论区有用户反馈,"o3 - pro什么时候能回复我的问题?已经加载了45分钟了。"显示 出推理模型的回复速度问题。 作者 | 第一财经 刘晓洁 基座模型圈的迭代已成循环,继DeepSeek和谷歌进行了一轮模型更新后, OpenAI接替开始发布新的 模型版本。 北京时间6月11日,OpenAI在X上宣布o3-pro正式上线,向Pro和Team用户开放,企业、教育用户将在 下周获得使用权限。 OpenAI CEO奥尔特曼(Sam Altman)发文称,"o3-pro太聪明了!我第一次看到它相对于 o3 的胜率 时,简直不敢相信。" 2025年,能够进行真正认知工作的代理系统将出现; 2026年,能够提出新颖见解的系统可能会出现; 2027年,能够在现实世界中执行任务的机器人可能会出现 ...
「Next-Token」范式改变!刚刚,强化学习预训练来了
机器之心· 2025-06-11 11:54
核心观点 - 强化学习(RL)在AI模型预训练阶段展现出突破性潜力,微软研究提出的「强化预训练(RPT)」新范式将传统next-token预测任务重构为推理任务,通过可验证的内在奖励提升模型性能 [6][9][24] - RPT通过利用海量无标注文本数据实现通用强化学习,显著提升语言建模准确性和推理能力,同时规避reward hacking风险 [26][28][29][30] - 实验表明RPT-14B模型在next-token预测准确率、零样本性能及下游任务微调效果上均超越基线模型,甚至媲美更大规模模型 [40][42][43][49][50] 技术范式创新 - **任务重构**:将next-token预测转化为推理过程,模型通过比对语料真实token获得内在奖励,无需外部标注 [25][32] - **可扩展性**:直接利用现有预训练语料库,将其转化为强化学习训练资源,支持长思维链推理(如自我修正) [28][33][34] - **训练机制**:采用on-policy强化学习,生成多组思维轨迹并通过前缀匹配奖励验证,分配更多计算资源于推理步骤 [35][37][31] 实验性能表现 - **语言建模**:RPT-14B在Easy/Medium/Hard难度测试集上next-token准确率分别达45.11%/33.56%/23.75%,全面超越基线模型Qwen2.5-14B和R1-Distill-Qwen-14B [42] - **Scaling特性**:预测准确率随训练计算量增加持续提升,高R2值验证性能增长趋势稳定 [45] - **下游任务**:经RPT预训练的模型在RLVR微调后性能上限提升至58.3,显著高于基线模型的52.7 [47][48] - **零样本能力**:在SuperGLUE和MMLU-Pro基准测试中,RPT-14B分别以39.0和71.1的分数超越32B大模型 [50] 行业影响 - **突破限制**:解决传统RL依赖人类反馈数据(高成本)和RLVR数据稀缺的问题,实现通用预训练与强化学习的结合 [22][23][24] - **效率提升**:通过推理过程直接优化token预测准确性,模型在相同参数量下性能可比拟更大规模模型 [43][49] - **潜在应用**:特别适用于需复杂推理的领域(如数学解题),模型表现出结构化问题解决能力 [51][53]
Mistral AI推出首个AI推理模型
快讯· 2025-06-11 07:38
Mistral AI推出Magistral AI推理模型 - 法国科技公司Mistral AI于6月10日宣布推出首个AI推理模型Magistral [1] - Magistral模型将通过逻辑推理生成响应 融合跨专业领域的专业知识 [1] - 该模型提供可追踪和验证的透明推理过程 [1] - 模型将以开放版和企业版两种形式发布 [1] - 公司旨在通过该产品与AI发展前沿的竞争对手保持同步 [1]
十大推理模型挑战2025年高考数学题:DeepSeek-R1、腾讯混元T1并列第一,马斯克的Grok 3遭遇“滑铁卢”
每日经济新闻· 2025-06-10 21:53
测评结果 - 国产大模型DeepSeek-R1与腾讯混元T1在117分标准化试卷测试中以零错误并列榜首,均获得117分满分 [1][4] - 讯飞星火X1以112分紧随其后,因填空题自我怀疑导致答案不完整 [5] - Gemini 2.5 Pro、OpenAI o3、阿里千问Qwen3和豆包深度思考模式得分均超100分,分别为109分、107分、106分和104分 [7] - Grok 3表现意外,仅得91分排名倒数第三,主要因多选题理解失误 [8] - 智谱清言推理模式得78分排名倒数第二,因逻辑崩溃导致失分 [8] - Kimi k1.5因压轴大题失误得分最低 [10] 测评标准与方法 - 以2025年全国新课标数学I卷(总分150分)为考题,移除图形/图表题后形成117分标准化试卷 [3] - 部分模型因"重要考试期间"限制未参与图形题测试,如讯飞星火X1、豆包深度思考和智谱清言推理模式 [2][3] - 对无限制模型(如Gemini 2.5 Pro)仍测试完整150分试卷以评估最高水平 [3] - 扣分标准遵循高考规则,但解答题仅按结果计分 [3] 模型表现细节 - DeepSeek-R1与腾讯混元T1在代数计算和函数题中展现极高稳定性 [4] - 讯飞星火X1在填空题中因自我怀疑仅输出部分正确答案("2"而非"±2") [5] - Grok 3在多选题中固执输出单一答案,导致部分失分 [8] - 智谱清言推理模式多次在最终推理步骤崩溃,陷入逻辑循环 [8] - Kimi k1.5在压轴大题上表现最弱 [10] 行业技术现状 - AI推理大模型在固定步骤和严密逻辑的数学问题上能力较强 [10] - 涉及抽象和创新思维的题目仍是当前模型的局限性所在 [10]