Workflow
元思维
icon
搜索文档
Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化
机器之心· 2025-07-03 11:26
大模型元思维推理框架ReMA 核心观点 - 提出强化元思维智能体(ReMA)框架,通过多智能体强化学习实现大语言模型的"元思维"能力,即监控、评估和控制自身推理过程的能力 [3][4][6] - 将复杂推理解耦为元思维智能体(战略规划)和推理智能体(执行计算)的双层架构,通过多智能体协作提升探索效率和泛化能力 [10][11][12] - 在数学推理和LLM-as-a-Judge基准测试中,ReMA平均性能优于基线方法,如Llama3-8B在AMC23数据集提升20% [27][28] 方法论创新 - **架构设计**:采用层级化多智能体系统(MAS),相比单智能体方法(如DeepSeek R1)降低探索难度,避免动作空间过大问题 [8][12] - **训练机制**: - 单轮场景使用GRPO和REINFORCE++算法优化,奖励函数兼顾回答正确性与格式规范性 [19] - 多轮场景引入参数共享和轮次级比率(turn-level ratio)技术,提升训练稳定性 [20][22][23] - **数据生成**:从LIMO数据集转换800条多轮MAMRP样本作为冷启动数据 [37] 实验结果 - **单轮测试**: - Llama3-8B在7个数学基准平均提升6.68%,Qwen2.5-7B在AIME24提升13.33% [27] - 元思维指导使困难任务准确率提升更显著,如Llama3-8B在AMC23从2.5%提升至22.5% [27][33] - **多轮测试**: - 8B以上模型能自适应选择元思维动作(如DECOMPOSE/REWRITE),小模型(1B)则收敛至简单策略 [36] - 共享参数设计使训练效率提升2.3倍,轮次级比率技术加速收敛 [37] 技术局限 - 多轮训练存在不稳定性,测试集提升不明显且对超参数敏感 [40] - 当前基于Deterministic MDP的训练流程可能不适用于Stochastic MDP场景 [39] 资源信息 - 论文已发布于arXiv(编号2503.09501),代码开源在GitHub [8] - 实验涉及Llama3-8B、Qwen2.5-7B等模型,测试覆盖MATH、GSM8K等12个基准数据集 [27][28]
【内部培训】如何构建你的知识体系(新材料篇)?
材料汇· 2025-05-30 23:35
知识体系构建 - 知识体系由大量知识点组成有序结构,需通过广度积累和深度框架建立[12][19] - 知识体系金字塔包含隐性知识、跨界能力、行动力、模型等层级[14] - 爱因斯坦司机故事说明知识应用比单纯记忆更重要[16] 思维模型 - 多元思维模型整合历史学/心理学/经济学等跨学科工具[24] - 系统思维需避免"只见树木不见森林"的片面视角[26][30] - 结构化思维可采用金字塔原理组织信息[39][41] 行业研究方法 - 产业链分析需梳理上游原材料到下游终端产品的价值流向[51][52] - PESTEL模型涵盖政策/经济/社会/技术/环境/法律六维度[57][58] - 波特五力模型分析供应商/客户/竞争者/替代品/新进入者[63][64] - 商业模式画布包含价值主张/客户关系/核心资源等9要素[69] 行业生命周期 - 分幼稚期/成长期/成熟期/衰退期四阶段特征[59] - 新材料领域显示不同细分技术处于各生命周期阶段[62] - 幼稚期适合风险投资,成熟期可获稳定回报[59] 数据获取渠道 - 包括金融机构报告/咨询公司分析/行业论坛/企业课件等[49] - 需结合展会论坛和从业者交流获取一手信息[46][47] 分析框架工具 - 麦肯锡七步法/5W2H/SWOT等9种常用方法论[50] - 价值链分析区分基础活动与支持性活动[53][54] - SWOT矩阵组合内部能力与外部环境制定策略[71][72]
走近申万宏源研究人 | 王珂
申万宏源研究· 2025-04-16 09:02
专业领域知识 - 机械行业是研究各类下游行业及景气周期的重要参考系,观察其细分需求变化可起到见微知著的中观效果 [5] - 机械作为生产工具是衡量生产力发展水平的客观尺度,国家工业经济各阶段均有对应机械品类大发展 [5] - 典型发展案例包括:2000年代WTO带动的集装箱/船舶、2010年代"4万亿"刺激的工程机械、2015年后人口红利消退催生的机器人/锂电光伏设备、近2年AI推动的人形机器人 [5][6] 行业见解 - 机器人产业链采用跨行业协作机制,由6-7个行业20余位分析师组成团队,实现"集团军式"交叉覆盖 [7] - 该机制能兼顾上市公司传统主业价值判断与新兴业务前瞻性研究,并提供国际化视角辅助产业决策 [7] 个人成长经验 - 理工科背景通过跨学科思维打破研究局限,技术专利经历强化了技术创新商业化价值的思考维度 [8] 从业经历分享 - 2023年10月率先发布市场首篇低空经济报告,较2024年两会政策催化提前半年挖掘该板块 [9] - 持续两年坚定推荐机器人板块,前瞻性源于产业链机制与跨行业趋势研判能力 [9] 党建文化 - 将金融工作政治性、人民性融入研究,通过提升专业水平服务实体经济与中国式现代化建设 [11]