ICML 2020 | 第四范式基于AutoML的深度网络记忆性自动化挖掘

Original 让你更懂AI PaperWeekly 2022-07-04

概述

样本选择方法是噪声标签鲁棒学习的常用方法。然而，如何正确地控制选择过程，使深度网络能够从记忆效应中获益是一大难题。本次工作中，受自动机器学习（AutoML）的成功启发，我们将此问题建模为一个函数逼近问题。

具体来说，我们基于记忆效应的一般模式设计了一个特定领域的搜索空间，并提出了一种新的牛顿算法来有效地解决双层优化问题，并进一步对算法进行了理论分析，保证了算法对临界点的良好逼近。实验结果表明，该方法优于现有的噪声标签学习方法，并且比现有的 AutoML 算法有更高的效率。

论文作者：Quanming Yao [1], Hansi Yang [2], Bo Han, Gang Niu, James Kwok

论文地址：https://arxiv.org/abs/1911.02377

代码地址：https://github.com/AutoML-4Paradigm/S2E

招聘启事：http://www.cse.ust.hk/~qyaoaa/pages/job-ad.pdf

研究组介绍：http://www.cse.ust.hk/~qyaoaa/pages/group.html

背景

深度网络在图像处理、语音识别、语言建模和推荐系统等多项任务中取得了巨大的成功，很大程度上在于拥有大量高质量的可用数据，但这在现实场景中很难实现。相反，许多大型数据集是通过众包平台收集或互联网抓取得来，获得的标签很嘈杂。

由于深度网络具有较大的学习能力，最终会过度匹配噪声标签，导致泛化性能较差。因此，抗噪的机器学习方法逐渐受到关注，并在医疗图像分类、人脸识别、目标检测等许多领域均得到应用（实例请参见代码地址）。

为了减少噪声标签的负面影响，抗噪机器学习领域提出了许多方法，它们可以分为三大类。第一种方法基于对标签转换矩阵进行估算，然而，这可能导致含有噪声和无法处理的大量标签。第二种类型基于正则化方法，然而由于深度网络通常是过参数化，在足够的训练时间下，仍然可以完全记忆含噪声的数据。

第三种方法是本文的重点，它基于在每个迭代中选择（或加权）可能干净的样本进行训练，通过降低训练数据的噪声，可以获得更好的性能。代表性的方法包括 MentorNet 和 Co-teaching [3]（去噪原理如下图所示）。

具体地说，MentorNet 使用一个额外的网络来选择干净的样本来培训一个 StudentNet。Co-teaching 通过在培训期间同时维护两个具有相同架构的网络来改进 MentorNet，并且每个网络都使用来自另一个网络的小损失样本进行更新。

▲ Figure1.为何能用大损失衡量标签可能被污染的示意图

在样本选择中，一个核心问题是在每次迭代中选择多少个小损失样本。虽然丢弃大量样本可以避免使用噪声标签进行训练，但丢弃过多样本会导致准确度降低。Co-teaching 使用后发现，深度网络通常在过度拟合噪声样本之前学习简单的模式，这种记忆效应广泛存在于各种深度网络中。

因此，在训练的早期阶段，由于网络无法记忆噪声数据，Co-teaching 会减少很少的样本。随着训练的进行，网络开始记忆噪声数据。

这种情况在 Co-teaching 中是可以避免的，方法是根据预先确定的时间表逐渐减少更多的样本。从经验上讲，这显著提高了网络在噪声标签上的泛化性能。然而，尚不清楚其人工设计的时间表是否“最优”。此外，该调度与数据无关，但对所有数据集都是相同的。手动为每个数据集找到一个好的时间表显然非常耗时而且不可行。

本次工作的方法

受 AutoML 成功启发，本文提出利用 AutoML 自动开发记忆效应。我们首先将制定学习描述为一个双层优化问题，类似于神经架构搜索（NAS）。基于深度网络共享学习曲线行为，设计了调度的搜索空间。这个空间是富于表现力的，但只有少量的超参数。

然而，由于样本选择是一个离散算子，计算梯度非常困难。为了避免这一问题并进行有效的搜索，我们建议使用随机松弛和牛顿方法从模型和优化目标中获取信息。

从经验上看，该方法优于现有的方法，并且可以比其他的样本选择方法选择更高比例的干净样本。实验表明，本次工作选择的搜索空间是合适的，且提出的搜索算法比其余的 AutoML 搜索算法更快。

3.1 动机图示：普世的记忆性

当在有噪声的数据集上训练深度网络时，网络会出现所谓“记忆性”现象：在训练的初始阶段，网络会学到一些简单的模式，在验证集上的准确率随之上升；而随着训练过程继续进行，网络会逐渐“记忆”噪声样本，导致验证集上的准确率因过拟合而下降。上述现象在不同网络、数据集、噪声水平和优化器设置下均能观察到，具有普适性：

受此启发，MentorNet 和 Co-teaching 提出了如下的抗噪训练方法：随着训练过程进行逐渐去掉每批中的大损失样本，因为当模型在验证集上准确率提升后，这些样本更有可能是噪声样本，而非模型错分的样本。

然而，已有工作均需要人工确定大损失样本移除比例的具体时间表，无法适用于多样的噪声数据集。因此，我们计划将 AutoML 引入抗噪机器学习领域，自动地选择大损失样本移除比例的时间表。

尽管不同噪声数据集上的最佳时间表可能不同，但一般来说，一个较好的时间表应与验证集上准确率趋势刚好相反：当验证集上准确率提升时，网络具有更好的判别能力，此时大损失的样本更有可能是噪声样本，所以应当移除更多的大损失样本，反之亦然。而上图显示网络在验证集上的准确率会先上升，再下降，因此一个较好的时间表应具有先下降，再上升的趋势。

基于上述推理，本文将时间表的搜索范围限制为一组具有“先下降，再上升”趋势函数的线性组合，相关函数及其示意图如下：

3.2 公式化AutoML目标

记网络权重为 w，使用的时间表为 R，我们的优化问题可以建模为如下的双层优化问题：

其中分别表示在训练（带噪）/ 验证（无噪）集上的损失，F 为所有可能的时间表组成的集合。

然而，由于无法计算目标对 R 的导数，直接求解这个问题是十分困难的。为解决这一困难，本文提出对 R 进行随机松弛操作，在 R 上附加一个概率分布，并将优化目标由寻找一个较好的时间表转变为寻找一个更有可能抽取到较好时间表的概率分布，即优化在此概率分布下，用抽取到的时间表 R 训练网络在验证集上表现的期望，如下式所示：

其中 x 为控制时间表 R 的参数，f（x）为使用这一时间表 R（x）在验证集上的表现，为随机松弛的概率分布。

3.3 快速Newton优化算法

已有使用随机松弛的 AutoML 算法均基于梯度下降或自然梯度下降，无法利用优化目标的高阶信息，具有收敛速度较慢、训练过程不稳定等问题。由此本文提出将 Newton 优化算法应用到随机松弛上，导出了上述随机松弛问题 Hessian 矩阵的一般形式，如下：

算法流程见下图（细节请参见论文）。

本文同时从理论上证明了，在梯度和 Hessian 矩阵可能出现一定偏差的情形下，同样可以保证优化过程收敛到稳定点（详见论文 Theorem 1）。

实验

4.1 基准标签噪声数据

该实验中，使用了三个流行的基准数据集：MNIST、CIFAR-10 和 CIFAR-100。接下来，添加了两种类型的标签噪声：

1. 对称翻转，它以相同的概率将标签翻转到其他不正确的标签上；

2. 成对翻转，即翻转一对相似的标签，并使用相同的网络架构。

我们将 S2E 与以下最先进的方法进行比较：Decoupling、F-correction、MentoNet、Co-teaching、Co-teaching+、Reweight。

作为一个简单的基线，我们还与直接在全噪声数据集上训练的标准深度网络进行比较。所有实验重复五次，取平均结果。下图显示了测试精度的收敛性。可以看出，S2E 明显优于其他方法，并且更加稳定。

下图比较了 S2E 和 Mentonnet、Co-teaching 和 Co-teaching+ 的样本选择方法。

可以看出，由 S2E 学习的 R（·）是特定于数据集的，而其他方法总是使用相同的 R（·）。此外，在噪声较大的数据上学习的 R（·）较小。因为较高的噪声水平意味着每个小批量中的干净样品（R（·）更小）。此外，R（·）下降的大损失样本比例大于潜在噪声水平。

由此看出，大损失样本通常具有较大的梯度，如果标签错误，可能会对模型产生重大影响。由于大损失样本不一定会因为模型的不完美而产生噪声，所以会丢弃更多的样本。另一方面，简单地丢弃更多的样本会导致精度降低。

下图比较了 S2E 和其他比较方法的标签精度（即，选择后每个小批次中干净样品的比率）。可以看出，S2E 的标签精度一直是最高的。这表明，S2E 使用的训练样本更干净，从而产生更好的性能。

4.2 对比实验

在这个实验中，我们依旧使用 MNIST、CIFAR-10 和 CIFAR-100 数据集来研究不同的搜索空间设计。将 S2E 的搜索空间与Co-teaching 在指定空间比较，并与 Single 的单个基函数跨越的空间进行比较。在这里，我们展示了四个基函数的最佳性能；为了公平比较，本实验采用随机搜索。重复 50 次，取平均结果。

上图显示了不同搜索空间变量所获得的所有时期的最佳测试精度。Co-teaching 和 Single 的性能优于两种一般函数逼近法（RBF 和 MLP）。

上图显示了在 CIFAR-10 数据集上由 MLP（其性能优于 RBF）获得的 R（·）（MNIST 和 CIFAR-100 的结果相似）。可以看出，这些形状通常遵循此前的假设，为支持这一假设提供了进一步的经验证据。S2E 所获得的性能仍然是最好的（即使这里只使用随机搜索）。这证明了所提出的搜索空间的表达性和紧凑性。

4.3 搜索算法

S2E 使用随机松弛和牛顿法作为搜索算法。在此，我们将研究其他基于梯度搜索算法的使用，包括梯度下降（Gradient Descent）、自然梯度下降（Natural Gradient Descent）、以及随机搜索、贝叶斯优化（Bayesian Optimization）、hyperband 等无导数搜索算法。实验在 CIFAR-10 上进行。

上图显示了测试精度 w.r.t. 这类调用的数量。可以看出，与其他算法相比，使用 Hessian 矩阵的 S2E 是最有效的。

总结

本次工作利用深度网络的记忆效应，利用 AutoML 来解决带噪声标签的学习问题。首先根据学习曲线的观察值设计一个有表现力但紧凑的搜索空间，通过一种基于随机松弛和牛顿法的高效搜索算法，克服了计算梯度的困难，并允许将模型和优化目标的信息结合起来。

经试验表明，该方法的性能优于现有的方法，并且可以比其他的样本选择方法选择出更高比例的干净样本。

参考注释

[1] 姚权铭博士为第四范式资深研究员

[2] 杨瀚思为清华大学本科生，现为第四范式机器学习研究组实习生

[3] Co-teaching是本组2018年发表于NeurIPS的工作，为当年10大高引论文之一

更多阅读

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

📝 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

📬 投稿邮箱：

• 投稿邮箱：hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

这一刻，快乐被具象化了

女高管与男下属上班约会开房，男方妻子闹到单位！被开除后她辩称：一直保持0.46-1.22米“个人距离”

周一004 意甲帕尔马VS卡利亚里【全网最强分析】今日继续拿捏主任！跟上吃肉！昨日推荐早场全收，今日8000倍直接做胆！

错过这轮牛市，等于2000年错过楼市！

ICML 2020 | 第四范式基于AutoML的深度网络记忆性自动化挖掘

概述

背景

本次工作的方法

3.1 动机图示：普世的记忆性

3.2 公式化AutoML目标

3.3 快速Newton优化算法

实验

4.1 基准标签噪声数据

4.2 对比实验

4.3 搜索算法

总结

您可能也对以下帖子感兴趣

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

这一刻，快乐被具象化了

女高管与男下属上班约会开房，男方妻子闹到单位！被开除后她辩称：一直保持0.46-1.22米“个人距离”

周一004 意甲 帕尔马VS卡利亚里 【全网最强分析】今日继续拿捏主任！跟上吃肉！昨日推荐早场全收，今日8000倍直接做胆！

错过这轮牛市，等于2000年错过楼市！

生成图片，分享到微信朋友圈

ICML 2020 | 第四范式基于AutoML的深度网络记忆性自动化挖掘

概述

背景

本次工作的方法

3.1 动机图示：普世的记忆性

3.2 公式化AutoML目标

3.3 快速Newton优化算法

实验

4.1 基准标签噪声数据

4.2 对比实验

4.3 搜索算法

总结

您可能也对以下帖子感兴趣

周一004 意甲帕尔马VS卡利亚里【全网最强分析】今日继续拿捏主任！跟上吃肉！昨日推荐早场全收，今日8000倍直接做胆！