麻瓜数学：数据增强提高大模型数学推理能力，但泛化能力待提升

Original 李成鹏 PaperWeekly

2024-08-22

©PaperWeekly 原创 · 作者 | 李成鹏

单位 | 阿里达摩院

研究方向 | 大模型推理

数学推理任务上被认为是闭源模型（如 ChatGPT 和 GPT4）和开源模型（如 LLaMA）最大的差距之一。而基于数学问题的问题或者答案进行数据增强后对大型语言模型（LLMs）进行微调被证实是有效的，这也极大地缩小了开源 LLMs 与闭源 LLMs 之间的差距。

例如，GSM8K RFT [1] 通过对相同的数学问题采样了多样化的推理答案，并利用拒绝采样的方式筛选出答案正确的推理路径，在 GSM8K 数据集上取得了良好的效果。而 WizardMATH [2] 和MetaMATH [3] 则通过对数据集中原有的数学问题进行改编的方式获得些新问题的方式进行数据增强，在 GSM8K 数据集和 MATH 数据集上都取得了良好的效果。

而这篇论文则是更深入地对数学推理任务中的数据增强进行了研究，旨在回答以下问题：1）怎样数据增强策略更有效？2）增强数据量与模型性能之间的关系如何？3）数据增强给模型带来的性能提升能否在其他领域的数学推理任务上泛化？

为此，文章通过使 GSM8K（主要包含初等代数问题）中的问题更复杂和多样化，并对每个新问题采样多个推理路径，创建了一个名为 AugGSM8K 的新数据集。在 AugGSM8K 的子集进行微调后，获得了一系列名为 MuggleMath 的 LLMs。MuggleMath 在 GSM8K 上取得了显著的新最佳成绩（在将 LLaMA-2-7B 提高到 68.4%；将 LLaMA-2-13B 提高到 74.0%，将 LLaMA2-70B 提升到 82.3%）。

MuggleMath 的在 GSM8K 上的性能与增强数据量之间呈现出对数线性关系。文章还发现，MuggleMath 在数学推理能力泛化到其他领域的 MATH 数据集（包含初等代数，代数，数论，计数和概率，几何，中等代数和微积分）时表现较弱。这主要归因于 AugGSM8K 和 MATH 之间问题分布的差异，这表明在单一基准上进行数据增强无法提高模型整体数学推理性能。

论文标题：

Query and Response Augmentation Cannot Help Out-of-domain Math Reasoning Generalization

论文链接：

https://arxiv.org/pdf/2310.05506.pdf

代码链接：

https://github.com/OFA-Sys/gsm8k-ScRel

数据增强方法

通过对 GSM8K 的问题进行改写（后文称作问题增强），并通过对改写后的新问题采样不同的回答（后文称作回复增强），文章获得了新的数据集 AugGSM8K。

问题增强

问题增强的改写方式为根据人类知识设计的五条规则：Change specific numbers; Introduce fractions or percentages; Combine multiple concepts; Include a conditional statement; Increase the complexity of the problem.

改写样例：

回复增强

文章通过对 GPT-3.5 和 GPT-4 推理时的温度系数进行设置，获得多样化的推理路径。例子如下：

哪些因素影响数据增强的效果？

问题增强的类型

作者发现不同问题增强的方式都可以对不同尺度的 LLaMA 模型有效的增强，但是 Increase complexity 这种方式的相对效果最好。所以，作者进行了两个有趣的实验。第一个实验比较对不同难易程度的训练集题目做增强后微调模型的性能差异，发现对那些训练集中需要超过三个等式才能解决的题目做增强的效果最好。第二是，比较在仅利用训练集微调后的模型在训练集上的错题的增强和相同随机数目的题目增强的增强效果，发现对错题的增强能够更有效地提升模型性能。

问题增强和答复增强的来源

作者通过设置不同的生成模型的类型、prompt 和温度系数，得到了一下的结论：

1. GPT-3.5 和 GPT-4 生成的问题对性能提升的效果相似；

2. GPT-4 生成的答复对模型性能的提升明显优于 GPT-3.5；

3. 使用 GPT-4 进行回复生成时，温度系数的影响不明显；使用 one-shot 的 prompt 生成的答复相对于 zero-shot 对 sft 的效果更好。

问题增强和答复增强的数目与微调模型的性能之间的关系

问题增强数目与微调模型的性能之间的关系

作者对 LLaMA-7B，LLaMA-2-7B 和 LLaMA-2-13B 在 AugGSM8K 不同规模的子集上进行微调，发现随着数据增强产生的问题-答复增加时，这些模型在 GSM8K 的测试集上的准确率也保持增长，而这个关系可以用对数线性关系表示。对准确率和数据增强数目的对数进行线性回归得到的关系式子可以很好地预测内插点和外插点的性能。而且，该对数线性增强的系数与通过人类手写的方式进行数据增强时的系数相仿。

答复增强数目与微调模型的性能之间的关系

当控制问题增强的数目保持为 30K 不变，只增加答复的数目时，对于 LLaMA-2-13B 而言，整体上依然呈现正相关，而对于 LLaMA-7B 和 LLaMA-2-7B 而言，当答复数目小于 97K 时，模型性能与答复增强的数目呈正相关，当当答复数目超过 97K 时，模型性能不再发生显著变化。

当对于问题的不同答复采用多数投票的策略（即对于一个问题的多个答复，只保留答案相同且票数最多的答复时），作者发现模型整体性能反而发生一定程度的下降。有两个潜在的原因，一个是一些答案错误的答复，因为其中间推理步骤部分正确，故而依然能提升模型的推理能力，另一个是在进行多数投票时，损失了部分问题的多样性。

问题增强和答复增强的混合效果

当文章将问题增强和答复增强进一步结合时，得到的模型性与相较于仅仅进行问题增强和答复增强比，性能得到了进一步提升，超过了当前最好的开源模型在 GSM8K 上的性能。

单一领域数据增强的能力在领域外数据问题的泛化能力

文章发现不论是问题增强还是答复增强对于领域内的数学推理能力提升都是巨大的，但是对于其他领域的数学问题的是否同样有效是一个值得探究的问题。为了研究这一问题，文章进行在 MATH 数据集上进行了实验。相较于主要包含初等代数问题的 GSM8K 数据集，MATH 数据集则包含初等代数，代数，数论，计数和概率，几何，中等代数和微积分等领域的多种数学问题。

文章进行了两种实验：1）混合 AugGSM8K 和 MATH 数据集，进行实验，称之为 Multi-task leaning；2）先在 AugGSM8K 上微调，再在 MATH 上微调，称之为 Transfer learning。

我们发现，不论哪种方式，相对于数据增强在 GSM8K 上的性能提升，在 MATH 上的提升上不稳定且不明显的，这告诉我们，要提升 LLMs 的整体数学推理能力，要么在尽可能多元领域的数学问题上微调，要么提升在 pre-training 阶段的模型数学推理能力。

从大模型的隐空间的数据分布我们可以得知，GSM8K 和 AugGSM8K 问题的分布区域接近，而与 MATH 的大部分数学问题的分布区域相隔较远。这种领域内的数学推理能力和领域外的数学推理能力的差异本质上是由于不同数据集问题的分布不同造成的。

参考文献

[1] Yuan Z, Yuan H, Li C, et al. Scaling relatCing mathematical reasoning with large language models[J]. arXiv preprint arXiv:2308.01825, 2023.

[2] Haipeng Luo, Qingfeng Sun, Can Xu, Pu Zhao, Jianguang Lou, Chongyang Tao, Xiubo Geng, Qingx2;wei Lin, Shifeng Chen, and Dongmei Zhang. Wizardmath: Empowering mathematical reasoning for large language models via reinforced evol-instruct, 2023a

[3] Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu, Zhengying Liu, Yu Zhang, James T. Kwok, Zhenguo Li, Adrian Weller, and Weiyang Liu. Metamath: Bootstrap your own mathematical questions for large language models, 2023.

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

继续滑动看下一个

PaperWeekly

向上滑动看下一个

一把短刀，怎么就让他连捅18人？！

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

这一刻，快乐被具象化了

女高管与男下属上班约会开房，男方妻子闹到单位！被开除后她辩称：一直保持0.46-1.22米“个人距离”

周一004 意甲帕尔马VS卡利亚里【全网最强分析】今日继续拿捏主任！跟上吃肉！昨日推荐早场全收，今日8000倍直接做胆！

麻瓜数学：数据增强提高大模型数学推理能力，但泛化能力待提升

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

这一刻，快乐被具象化了

女高管与男下属上班约会开房，男方妻子闹到单位！被开除后她辩称：一直保持0.46-1.22米“个人距离”

周一004 意甲 帕尔马VS卡利亚里 【全网最强分析】今日继续拿捏主任！跟上吃肉！昨日推荐早场全收，今日8000倍直接做胆！

生成图片，分享到微信朋友圈

麻瓜数学：数据增强提高大模型数学推理能力，但泛化能力待提升

您可能也对以下帖子感兴趣

周一004 意甲帕尔马VS卡利亚里【全网最强分析】今日继续拿捏主任！跟上吃肉！昨日推荐早场全收，今日8000倍直接做胆！