逻辑推理 - 财报，业绩电话会，研报，新闻

逻辑推理

搜索文档

新浪财经· 2026-01-02 07:53

案件概述 - 文章核心观点：通过分析一则载于《奏谳书》的春秋古案，阐述了古代司法官史猷如何通过实地查证、逻辑推理和证据比对，推翻对两名膳食服务人员的错误指控，并体现了司法中注重事实、挑战权威以及人文关怀的智慧 [1][3][4] - 案件记载于《奏谳书》案例十九，该文献共记载22个司法审判案例，于20世纪80年代出土于湖北省江陵县张家山247号汉墓 [3] - 类似故事亦见于《韩非子·内储说下六微》、谢承《后汉书·陈正传》及清代《全唐文》中的“对庖人进炙判”，表明该案具有多重叙事和司法典范意义 [3] 案件经过与证据分析 - 春秋时期，卫国膳食官“说”进献的烤肉上发现一根三寸长的头发，婢女“媚”为国君夫人进献的食物中发现半寸长的杂草，二人面临“治食不谨，罪死”的重刑 [1][2] - 司法官史猷查验证据：切肉刀新且锋利，砧板坚固，切出的肉块不到一寸，但三寸长发未被斩断，不合逻辑 [2] - 史猷查验烤肉工具：桑炭质好，铁炉坚固，肉被烤焦，但三寸长发不焦，不合逻辑 [2] - 史猷勘查夫人食室：涂饰严谨，帷幕齐全，无草且无风道，排除环境因素 [2] - 史猷检查婢女媚的住所：其莞席已破，编织绳断，有莞碎，且其衣袖破旧棉絮露出，发现六根半寸长的莞草粘在棉絮上，并与饭中杂草比对相同 [2] - 史猷提出假设：烤肉上的头发是国君早晨梳发时，被人扇风吹至肉上，经国君现场实验，从席上发现六根长二寸到一尺不等的头发，并成功再现头发飞落烤肉的过程 [2] 司法方法与智慧 - 史猷审理时不先入为主，注重实地查证与物证比对，还原案件事实 [4] - 史猷敢于挑战国君权威，未迎合其盛怒，坚持以理服人，并引导国君共同验证 [4] - 判决结果：释放膳食官说，并赐予婢女媚新衣，体现了对底层服务人员的体恤与实质正义 [4] - 史猷运用严密逻辑推理，提出“利刃怎可不断发”、“炽火怎可不焦发”等质疑，使原有指控不攻自破 [5] - 类似逻辑辩护亦见于晋文公时“宰臣上炙而发绕之”的故事，宰臣以三条罪状的自辩说服国君，最终陷害者被绳之以法 [5] 当代启示 - 该案蕴含的司法智慧对当代检察工作有深刻启迪，强调履行法律监督职能时应作出独立专业判断，坚持以理服人 [5] - 办案需在法律授权内积极主动核实证据，确保事实认定清楚、法律适用准确 [5] - 司法工作不仅要关注法律条文，还需关注案件背后的社会情理，常怀司法温情，以实现法律效果与社会效果的统一 [5]

多模态推理新基准！最强Gemini 2.5 Pro仅得60分，复旦港中文上海AILab等出品

量子位· 2025-06-06 21:45

多模态大模型推理能力评估 - 复旦大学、香港中文大学MMLab及上海人工智能实验室联合推出MME-Reasoning基准，全面评估多模态大模型(MLLMs)的推理能力，涵盖演绎、归纳和溯因三种推理类型[1][3][4] - 基准包含1188道题目，其中84.85%为新增题目，15.15%为抽样题目，题型包括选择题(58.50%)、自由形式问题(31.57%)和基于规则的题目(9.93%)[9] - 题目设计弱化学科知识依赖，聚焦K12以下难度，避免知识盲区干扰推理能力测试[11] 推理类型与评估维度 - 演绎推理通过规则和前提推导结论，归纳推理从大量案例学习规则，溯因推理通过结论反推前提[5] - 评估维度包括五种能力：模式分析、规划与探索、空间与时间、计算、因果链分析，每道题目标注1-5种能力[11] - 题目难度分为三级，图像类型包含单图(58.50%)和多图(31.57%)问题，学科类题目占比31.48%[8][9] 模型表现分析 - 30余个模型评测显示最优成绩仅60.2%(Gemini-2.5-Pro-T)，显示基准挑战性极强[2][18] - 模型表现存在显著偏差：演绎推理平均得分最高(如Gemini-2.5-Pro-T达64.0)，溯因推理最弱(如开源模型R1-VL-7B仅15.8)[18][19] - 闭源"思考模式"模型普遍优于基础版，如Gemini-2.5-Pro-T比Gemini-2.5-Flash-T高35个百分点[18] 技术瓶颈与发现 - 开放式问题表现最差，规划与探索类任务平均得分最低(如Mulberry仅13.3)[18][20] - 规则强化学习在7B规模模型上效果有限，可能降低泛化能力(如R1-VL-7B得分21.1)[18][20] - 推理过程存在边际效应：输出token超1k时准确率提升趋缓，o4-mini案例达24.6k token但效率下降[22][25] 模型行为特征 - 案例显示模型存在结构化规划行为，包含假设生成-验证-反思的多次迭代(最高达7次)[25][26] - 开源模型表现显著落后闭源模型，Qwen2.5-VL-72B最高34.1分，仅为闭源头部模型的56%[18] - 多图像问题(占比31.57%)和学科类问题(占比31.48%)构成主要挑战点[9][11]

机器之心· 2025-05-02 12:39

推理模型发展现状 - 著名AI技术博主Sebastian Raschka正在撰写新书《Reasoning From Scratch》，聚焦LLM推理机制实现[2] - 当前LLM的成功主要依赖统计模式识别，而新兴推理技术使其能处理逻辑难题、多步骤算术等复杂任务[5] - OpenAI的o1模型和深度求索的DeepSeek-R1标志着推理能力成为行业焦点[41][44] LLM推理的核心定义 - LLM语境中的推理指模型生成中间步骤（思维链CoT）后输出最终答案的能力[8] - 推理过程可能展示中间步骤，但其底层机制与人类认知存在本质差异[12][13] - 推理与模式匹配的根本区别在于：前者需逻辑推导，后者仅复现训练数据中的统计关联[23][25] LLM训练流程 - 传统训练分两阶段：预训练（TB级文本学习语言模式）和后训练（指令微调+偏好微调）[16][17] - 预训练成本极高（数千GPU运行数月/数百万美元），使模型具备翻译、代码生成等涌现能力[17] - 后训练阶段通过SFT提升任务理解能力，通过偏好微调优化输出风格[20] 模式匹配与逻辑推理对比 - 标准LLM（如GPT-4o）通过高频搭配记忆回答问题（如「德国→柏林」），非真实推理[24] - 面对矛盾前提（「所有鸟都会飞但企鹅不会」），普通LLM依赖训练数据中的文字概率而非逻辑检查[28][30] - 大规模训练使模型能模拟推理行为，但遇到全新题型、复杂推导时仍易出错[36][37] 推理能力提升方法 - 推断时间计算增强：通过思维链等技术在推理阶段提升性能，无需修改模型权重[46] - 强化学习：基于数学证明正确性等客观奖励信号动态优化推理策略[47] - 知识蒸馏：将高性能模型的推理模式迁移至轻量化模型，需专用推理任务数据集[48][49] 推理模型的应用权衡 - 推理模型适用于数学证明、编程等复杂任务，但对翻译、问答等简单任务效率低下[56] - 生成更长中间步骤导致计算成本倍增（API计费按token数量）[57] - 行业趋势显示主流厂商正将推理能力整合至通用模型（如OpenAI计划统一GPT与o系列）[54][55] 实践价值 - 从头实现推理模型可深入理解LLM能力边界与计算成本权衡[51][57] - 深度求索开源方案推动行业技术透明化，降低开发门槛[52] - 专用推理模型需与通用模型配合使用，形成任务适配的技术矩阵[56]