Workflow
逻辑推理
icon
搜索文档
治食不谨非但无罪,反得赏赐?
新浪财经· 2026-01-02 07:53
案件概述 - 文章核心观点:通过分析一则载于《奏谳书》的春秋古案,阐述了古代司法官史猷如何通过实地查证、逻辑推理和证据比对,推翻对两名膳食服务人员的错误指控,并体现了司法中注重事实、挑战权威以及人文关怀的智慧 [1][3][4] - 案件记载于《奏谳书》案例十九,该文献共记载22个司法审判案例,于20世纪80年代出土于湖北省江陵县张家山247号汉墓 [3] - 类似故事亦见于《韩非子·内储说下六微》、谢承《后汉书·陈正传》及清代《全唐文》中的“对庖人进炙判”,表明该案具有多重叙事和司法典范意义 [3] 案件经过与证据分析 - 春秋时期,卫国膳食官“说”进献的烤肉上发现一根三寸长的头发,婢女“媚”为国君夫人进献的食物中发现半寸长的杂草,二人面临“治食不谨,罪死”的重刑 [1][2] - 司法官史猷查验证据:切肉刀新且锋利,砧板坚固,切出的肉块不到一寸,但三寸长发未被斩断,不合逻辑 [2] - 史猷查验烤肉工具:桑炭质好,铁炉坚固,肉被烤焦,但三寸长发不焦,不合逻辑 [2] - 史猷勘查夫人食室:涂饰严谨,帷幕齐全,无草且无风道,排除环境因素 [2] - 史猷检查婢女媚的住所:其莞席已破,编织绳断,有莞碎,且其衣袖破旧棉絮露出,发现六根半寸长的莞草粘在棉絮上,并与饭中杂草比对相同 [2] - 史猷提出假设:烤肉上的头发是国君早晨梳发时,被人扇风吹至肉上,经国君现场实验,从席上发现六根长二寸到一尺不等的头发,并成功再现头发飞落烤肉的过程 [2] 司法方法与智慧 - 史猷审理时不先入为主,注重实地查证与物证比对,还原案件事实 [4] - 史猷敢于挑战国君权威,未迎合其盛怒,坚持以理服人,并引导国君共同验证 [4] - 判决结果:释放膳食官说,并赐予婢女媚新衣,体现了对底层服务人员的体恤与实质正义 [4] - 史猷运用严密逻辑推理,提出“利刃怎可不断发”、“炽火怎可不焦发”等质疑,使原有指控不攻自破 [5] - 类似逻辑辩护亦见于晋文公时“宰臣上炙而发绕之”的故事,宰臣以三条罪状的自辩说服国君,最终陷害者被绳之以法 [5] 当代启示 - 该案蕴含的司法智慧对当代检察工作有深刻启迪,强调履行法律监督职能时应作出独立专业判断,坚持以理服人 [5] - 办案需在法律授权内积极主动核实证据,确保事实认定清楚、法律适用准确 [5] - 司法工作不仅要关注法律条文,还需关注案件背后的社会情理,常怀司法温情,以实现法律效果与社会效果的统一 [5]
多模态推理新基准!最强Gemini 2.5 Pro仅得60分,复旦港中文上海AILab等出品
量子位· 2025-06-06 21:45
多模态大模型推理能力评估 - 复旦大学、香港中文大学MMLab及上海人工智能实验室联合推出MME-Reasoning基准,全面评估多模态大模型(MLLMs)的推理能力,涵盖演绎、归纳和溯因三种推理类型[1][3][4] - 基准包含1188道题目,其中84.85%为新增题目,15.15%为抽样题目,题型包括选择题(58.50%)、自由形式问题(31.57%)和基于规则的题目(9.93%)[9] - 题目设计弱化学科知识依赖,聚焦K12以下难度,避免知识盲区干扰推理能力测试[11] 推理类型与评估维度 - 演绎推理通过规则和前提推导结论,归纳推理从大量案例学习规则,溯因推理通过结论反推前提[5] - 评估维度包括五种能力:模式分析、规划与探索、空间与时间、计算、因果链分析,每道题目标注1-5种能力[11] - 题目难度分为三级,图像类型包含单图(58.50%)和多图(31.57%)问题,学科类题目占比31.48%[8][9] 模型表现分析 - 30余个模型评测显示最优成绩仅60.2%(Gemini-2.5-Pro-T),显示基准挑战性极强[2][18] - 模型表现存在显著偏差:演绎推理平均得分最高(如Gemini-2.5-Pro-T达64.0),溯因推理最弱(如开源模型R1-VL-7B仅15.8)[18][19] - 闭源"思考模式"模型普遍优于基础版,如Gemini-2.5-Pro-T比Gemini-2.5-Flash-T高35个百分点[18] 技术瓶颈与发现 - 开放式问题表现最差,规划与探索类任务平均得分最低(如Mulberry仅13.3)[18][20] - 规则强化学习在7B规模模型上效果有限,可能降低泛化能力(如R1-VL-7B得分21.1)[18][20] - 推理过程存在边际效应:输出token超1k时准确率提升趋缓,o4-mini案例达24.6k token但效率下降[22][25] 模型行为特征 - 案例显示模型存在结构化规划行为,包含假设生成-验证-反思的多次迭代(最高达7次)[25][26] - 开源模型表现显著落后闭源模型,Qwen2.5-VL-72B最高34.1分,仅为闭源头部模型的56%[18] - 多图像问题(占比31.57%)和学科类问题(占比31.48%)构成主要挑战点[9][11]
Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
机器之心· 2025-05-02 12:39
推理模型发展现状 - 著名AI技术博主Sebastian Raschka正在撰写新书《Reasoning From Scratch》,聚焦LLM推理机制实现[2] - 当前LLM的成功主要依赖统计模式识别,而新兴推理技术使其能处理逻辑难题、多步骤算术等复杂任务[5] - OpenAI的o1模型和深度求索的DeepSeek-R1标志着推理能力成为行业焦点[41][44] LLM推理的核心定义 - LLM语境中的推理指模型生成中间步骤(思维链CoT)后输出最终答案的能力[8] - 推理过程可能展示中间步骤,但其底层机制与人类认知存在本质差异[12][13] - 推理与模式匹配的根本区别在于:前者需逻辑推导,后者仅复现训练数据中的统计关联[23][25] LLM训练流程 - 传统训练分两阶段:预训练(TB级文本学习语言模式)和后训练(指令微调+偏好微调)[16][17] - 预训练成本极高(数千GPU运行数月/数百万美元),使模型具备翻译、代码生成等涌现能力[17] - 后训练阶段通过SFT提升任务理解能力,通过偏好微调优化输出风格[20] 模式匹配与逻辑推理对比 - 标准LLM(如GPT-4o)通过高频搭配记忆回答问题(如「德国→柏林」),非真实推理[24] - 面对矛盾前提(「所有鸟都会飞但企鹅不会」),普通LLM依赖训练数据中的文字概率而非逻辑检查[28][30] - 大规模训练使模型能模拟推理行为,但遇到全新题型、复杂推导时仍易出错[36][37] 推理能力提升方法 - 推断时间计算增强:通过思维链等技术在推理阶段提升性能,无需修改模型权重[46] - 强化学习:基于数学证明正确性等客观奖励信号动态优化推理策略[47] - 知识蒸馏:将高性能模型的推理模式迁移至轻量化模型,需专用推理任务数据集[48][49] 推理模型的应用权衡 - 推理模型适用于数学证明、编程等复杂任务,但对翻译、问答等简单任务效率低下[56] - 生成更长中间步骤导致计算成本倍增(API计费按token数量)[57] - 行业趋势显示主流厂商正将推理能力整合至通用模型(如OpenAI计划统一GPT与o系列)[54][55] 实践价值 - 从头实现推理模型可深入理解LLM能力边界与计算成本权衡[51][57] - 深度求索开源方案推动行业技术透明化,降低开发门槛[52] - 专用推理模型需与通用模型配合使用,形成任务适配的技术矩阵[56]