阿里巴巴宣布推出 Marco-o1,这是一个大型语言模型(LLM),旨在解决常规和开放式的问题。 Marco-o1 由阿里巴巴的 MarcoPolo 团队开发,标志着人工智能在处理复杂推理挑战方面取得的新进展,尤其是在数学、物理、编程以及那些缺乏明确标准的领域。
借鉴 OpenAI 的 o1 模型在推理方面的进步,Marco-o1 通过融合多种先进技术而脱颖而出,这些技术包括思维链(CoT)微调、蒙特卡洛树搜索(MCTS)以及创新的反思机制。这些组件协同工作,以增强模型在各个领域的问题解决能力。
开发团队采用多个数据集执行了全面的微调策略,包括 Open-O1 CoT 数据集的筛选版本、合成的 Marco-o1 CoT 数据集以及专门的 Marco 指令数据集。总体而言,训练语料库由超过 60,000 个精心挑选的样本构成。 该模型在多语言应用方面取得了特别引人注目的成果。在测试中,Marco-o1 在英文 MGSM 数据集上实现了 6.17% 的准确率显著提升,在中文对应数据集上实现了 5.60% 的准确率提升。该模型在翻译任务方面显示出特别的优势,特别是在处理口语表达和文化细微差别方面。
该模型最创新的特点之一是在 MCTS 框架内实现了不同级别的动作粒度。此方法使模型能够在不同细节层次上探索推理路径,从宽泛的步骤到更精确的 32 或 64 个标记的“小步骤”。该团队还引入了一种反思机制,促使模型自我评估并重新审视其推理过程,以提高复杂问题解决场景中的准确率。 MCTS 的集成已被证实特别有效,所有采用 MCTS 增强的模型版本相较于基础的 Marco-o1-CoT 版本均有显著改进。
该团队对不同动作粒度的实验揭示了有趣的模式,尽管他们指出确定最佳策略需要进一步的研究和更精确的奖励模型。 对最新集成 MCTS 的 Marco-o1 LLM 模型与先前的人工智能模型及其变体进行基准测试比较。 开发团队对模型当前的局限性持开放态度,承认尽管 Marco-o1 展现了强大的推理能力,但它尚未达到完全实现的“o1”模型水平。他们强调,此次发布代表着对改进的持续承诺,而不是一个成品。
展望未来,阿里巴巴团队宣布计划整合奖励模型,包括结果奖励建模(ORM)和过程奖励建模(PRM),以提升 Marco-o1 的决策能力。他们还在探索强化学习技术,以进一步优化模型的问题解决能力。 Marco-o1 模型及其相关数据集已通过阿里巴巴的 GitHub 仓库向研究社区提供,并附有详尽的文档和实施指南。该版本提供了安装指南和示例脚本,便于直接使用模型以及通过 FastAPI 进行部署。