Workflow
Alibaba researchers unveil Marco-o1, an LLM with advanced reasoning capabilities
BABABABA(BABA) VentureBeat·2024-11-28 07:26

文章核心观点 OpenAI o1发布引发对大推理模型关注,阿里巴巴基于此推出Marco - o1,其增强推理能力以解决开放式问题,在多任务测试中表现出色,同时行业内多家机构也在积极推出推理模型,探索推理时间缩放的可能性 [1][9][11] 分组1:OpenAI o1与研究背景 - OpenAI o1发布引发对大推理模型关注,激发解决复杂问题新模型诞生 [1] - o1用“推理时间缩放”提升推理能力,在有标准答案任务中表现出色 [1] 分组2:Marco - o1模型介绍 - Marco - o1是阿里巴巴Qwen2 - 7B - Instruct微调版本,集成先进技术 [1] - 研究人员用多数据集训练Marco - o1 [1] - Marco - o1用MCTS探索推理路径,引入灵活推理行动策略 [2] - Marco - o1引入反思机制,重新评估推理步骤 [2] 分组3:Marco - o1性能评估 - 在MGSM基准测试中,Marco - o1显著优于基础Qwen2 - 7B模型 [2] - 在翻译口语和俚语表达任务中,Marco - o1比传统工具更有效 [4] 分组4:行业动态 - 自o1发布后,AI实验室竞相发布推理模型,如DeepSeck的R1 - Lite - Preview [9] - 开源社区追赶私有模型市场,阿里巴巴在Hugging Face发布Marco - o1及部分推理数据集 [10] - 中国多所大学研究人员开发I.L.aVA - o1,将推理时间推理范式引入开源视觉语言模型 [10] 分组5:行业趋势 - 训练更大模型的回报递减,行业开始探索推理时间缩放的可能性 [11]