带噪学习研究及其在内容审核业务下的工业级应用

AINLP原创 · 作者 | 叶俊杰、赵京伟

工作单位 | vivo 深圳AI研究院 NLP技术组

研究方向 | 多模态，表示学习

个人介绍 | 叶俊杰，技术专家，毕业于香港中文大学。赵京伟，vivo AI Lab基础研究负责人，毕业于清华大学电子工程系。

合作单位：香港中文大学、中国科学院深圳先进技术研究院

从人脸识别，机器翻译到智能推荐，人工智能已经深入到现代社会的方方面面。现在工业上最常见的人工智能系统，往往依赖于大量有标签的数据。通常，优质的有标签数据需要耗费大量的人力、物力。而且人工打的标签的准确度，往往随着标注任务复杂度的提高而降低。

一般的人工智能算法，都是在干净的数据集上做学习和优化。在现实中的工业应用场景中存在大量弱监督的情况，即标签缺失（无监督、半监督）、标签错误（错监督）的情况。我们在第一个章节，简单介绍一下我们vivo ai lab两篇AAAI2021关于弱监督带噪学习的工作；并在第二章介绍一下我们的工作在内容审核业务下的工业级应用。

一、论文介绍

1）Robustness of Accuracy Metric and its Inspirations in Learning with Noisy Labels

我们称包含错误的标签为噪声标签，而在给定错误标签上学习的过程为带噪学习。传统对噪声标签的研究集中在Class Conditional Noise（CCN）的假设下。CCN假设了，一个样本的噪声标签的分布只和该样本的真实标签有关系，即Pr[Y~ = j|Y = i] = Ti;j，其中i是真实的标签，j是噪声标签。由组成的矩阵，称为转移矩阵；转移矩阵完整表示了CCN下的噪声的分布。

图表 1 Clothing1M数据集的混淆矩阵

针对一般的人工智能算法，我们可以在一个干净的数据集上训练，目标是在干净的真实分布上表现好。算法的泛化能力只需要考虑准确率在数据集和真实分布之间的差距。但是当我们进行带噪学习时，我们只有一个带噪数据集，和一个隐含并未知的噪声分布，需要在干净的真实分布上表现好。泛化能力的分析需要考虑算法在噪声数据，噪声分布和真实分布三者上准确率的差距（图2）。

图表 2带噪学习的分析和算法流程

理论分析：

之前很多工作大多把注意力放在研究损失函数的鲁棒性上，并提出了各种不同的鲁棒的损失函数，包括GCE、DMI等等。我们的工作证明了，最基本的0-1 loss（即，准确率）本身就是鲁棒的。所以，对于CCN下的带噪学习，我们并不需要过多得关注损失函数的鲁棒性。在CCN的假设下，当分类器在噪声分布上表现最优时，它在真实分布上的表现也是最优的。我们只需要针对噪声分布的Acc进行优化，就可以在真实分布上达到好的效果。

图表 3最优分类器以及准确率的鲁棒性

基于VC-bound，本工作还进一步分析了从噪声数据到噪声分布的泛化能力（论文中的Theorem 2和3）。定理1和2保证了，噪声数据到真实分布之间的泛化能力；而定理1和3证明了用带噪声的验证集验证算法的有效性是可行的。

图表 4. 带噪训练集到噪声分布的泛化能力。

图表 5. 带噪验证集到噪声分布的泛化能力。

总结：

鲁棒性（定理1）：当分类器在噪声分布下准确率最优时，其在干净分布下保证是最优的。
噪声泛化（定理2）：给定足够多的噪声数据，用最简单的CE-loss训练可以获得最优分类器。
噪声验证（定理3）：用带噪声的验证集验证算法，是可靠的。

实验结果：

我们用实验观察和论证了，当噪声数据逐渐变多，分类器的效果如何接近最优分类器（定理1和定理2）。

图表 6. 1）不可预测的分类器，2）完全拟合噪声，3）最优分类器。

同时，我们设计了一种简单、有效的带噪学习的框架NTS。NTS包含两个部分，其中Noisy Best Teacher（NT）：在带噪的训练集上训练，并选取在带噪的验证集表现最好的模型（教师模型）；Noisy Best Student（NS）: 用教师模型的预测替换噪声标签，再进行训练，同样地通过带噪的验证集选取最好的模型（学生模型）。通过的大量的实验对比，NTS都能提升GCE、DMI、Co-Teaching等SOTA的算法性能。

图表 7. SOTA算法结合了NTS之后的实验效果。

图表 8. 通过带噪验证集选取的模型，确实是表现最优的。

2）An Attempt to Combat Instance-Dependent Label Noise

上一部分，我们分享了在CCN假设下的带噪学习。接下来，我们介绍更一般化的Instance-Dependent Noise（IDN）。

现有的深度学习大厦，建立在数据独立同分布的根基上；而真实数据往往并不独立，同一类别内也可能存在不同分布。这些不是独立同分布的数据点，例如远离分布中心的特殊样本，对于模型的泛化能力至关重要。

下图很好得体现了这一点：上排是MINST数据集中标签为8的数据，可以看到它们的形态很不一样，有些更容易被错标成6，有些更容易被错标成0；下排是CIFAR10中标签为飞机的数据，同样它们的噪声标签可能很不一样。由此，我们可以知道，噪声标签不仅仅依赖于真实标签（CCN假设了噪声标签仅仅依赖于真实的标签），还和样本本身的feature息息相关，而IDN就是基于这样的考虑下研究的噪声标签。

图表 9. MINST中标签为8，和CIFAR10中标签为Airplane的数据。

图表 10. CCN和IDN的不同。

在这一工作中，我们首先证明了CCN的噪声标签下，分类器在噪声分布上的准确率不可能太好（定理1）。证明内容详见论文。

图表 11. CCN假设下，分类器在噪声分布上表现不会很好。

其中M是混淆矩阵，er[f]是分类器f的错误率。

在Clothing1M数据集上，我们用随机选取的50万数据，训练了一个ResNet-50的模型，并在剩下的数据上验证，得到验证集上的错误率为0.1605。然而，我们利用定理1和Clothing1M的混淆矩阵，可以计算出在CCN的假设下0.1605这个错误率发生的概率低于。所以，明显得Clothing1M这一真实数据集的标签，并不满足CCN假设，而是属于IDN。

IDN的挑战和实验现象：

在CCN噪声的数据集上，我们可以挑选标签是正确的样本，来训练神经网络。很多优秀的算法，就是通过挑选出尽量多的正确样本来提升算法性能。这样挑选并不会破坏数据的真实分布，但是在IDN噪声的数据集上，这样挑选样本，很有可能挑选出来的样本集和原本数据的真实分布就不一样。
在学术界并没有很规范的IDN数据集，供大家在上面分析和研究。
由于IDN的错误是和样本本身的feature相关，所以相对于CCN，神经网络更容易拟合IDN的错误。这也进一步导致，与CCN相比，在IDN上的memorization effect现象并不明显。
实验表明，在最终记住样本的错误标签之前，神经网络的预测会在正确标签和错误标签之间震荡，如图12所示。

图表 12. 神经网络的预测在错误标签和真实值之间震荡，并最终记住了错误的标签。

受神经网络的震荡效果的启发，我们提出了一种简单、实效的IDN算法SEAL（self-evolution average label）。我们将神经网络多个epochs的预测值求平均作为下一个iteration中的目标值，迭代几次iteration，得到最终的输出。

图表 13. SEAL算法的一次iteration。

实验结果：

我们在MNIST，CIFAR10和Clothing1M上都验证了SEAL的有效性。特别地，在CIFAR10数据集30%和40%的噪声比例下，简单的Cross Entropy训练配合SEAL算法可以比Co-teaching、DMI等SOTA算法提高3-4个点的准确率。同样地，在Clothing1M数据集上，运用SEAL算法，也能提升1-2个点的准确率。具体实验数值见下图。

图表 14. 通过SEAL修正的标签。其中上排为噪声标签，括号内是SEAL预测值。

图表 15. CIFAR10上SEAL的效果，其中10%-40%值得是IDN的噪声比例。

图表 16. Clothing1M上SEAL的效果。

二、带噪学习在内容审核中的应用

1）任务介绍

在vivo ai lab内容理解平台上，每天有大量的信息流(资讯，新闻，图文视频等)内容，其中有很多高质量的优秀内容，但由于其内容量过大(图文类内容就有数百万条)，其中难免会混杂一些低质内容。显然直接通过人力审核是不现实的，所以一般是先通过人工智能筛查，再通过人工审核的方式去保证用户的阅读体验。

我们就以正常内容和低质内容的二分类问题，来说明我们是如何优化业务目标的。由于线上实际的低质内容比例很低，但是一旦错漏，会造成很大的不良影响；所以我们通过大量的人工标注，获得了一份离线数据集用于算法验证。在离线数据集中，训练样本10万条，验证集2万，测试集2万；正常样本和低质样本按1:1分布。每一条样本是一条图文混合资讯。如下图所示：

图例

我们对离线数据集中的数据进行了2次标注，发现里面错标，误标，标签不确定的比例在15%左右。在这些有问题的标注数据里，主要是存在很多边界问题很难定义，例如在低质类资讯中的标题党，这种资讯大部分是靠标题吸引用户点击，但是内容与标题不符合。对于标题与内容完全无关的资讯是基本不会错标的。但是标题和内容关联度的具体界限是很难定义的，所以就有很多样本，标注难度很大，很难用硬标签刻画其真实的类别。

2）实践结果：

在实际的业务分类数据中，我们同时采用了NTS+SEAL的方法去优化这样的带噪数据。在文章An Attempt to Combat Instance-Dependent Label Noise中，我们展示了网络对于含有IDN噪声的数据，会在类别间震荡的现象。同样的，在低质内容中，对于一些错误标签，或者打标签难度很大的样本，也存在同样的现象。如下图所示：

图例2

图例3

对于图例2来说，标签是正常，实际也是正常文章，但是由于在数据集中，艾滋病，暴力，咬，经常出现在低俗类别的文章中，所以网络在学习的过程中，会在正常和低俗(低俗是低质内容中的一个子类别)中震荡，最终收敛。

图例3是一个比较难学的软文，标题，配图，和前面大部分文字都是正常的科普向文章。但是最后一句开始介绍某个固定品牌的技术和历史。标签为软文，但在网络学习的过程中，同样经过了预测结果在正常和软文类别间的震荡。

SEAL中对教师模型学习过程中的预测标签取滑动平均的方法，对于在类别间震荡的困难样本，会输出更平滑和更‘soft’的标签，防止网络出现对少样本数据over confident的现象。而对图例1这种网络比较容易学习的样本，即使通过SEAL之后，教师模型的输出依然很‘hard’,不会影响收敛速度。

3）模型指标

内容审核	二分类F1(%)	有标签数据	无标签数据
Supervised	Teacher	90.86	100%	无
Student	91.26
Semi-supervised	Teacher	89.36	25%	75%
Student	90.97

教师网络和学生网络选择一样的结构，测试结果如下表：

其中Supervised Teacher代表用全量10万条数据训练的模型。而Semi-supervised Teacher则只用了训练数据中随机抽取的2万5千条有标签的数据训练教师网络，学生网络则是学习教师网络在训练集(10万条数据)打的软标签。通过表格我们可以得知：

用NTS+SEAL的训练方式要比直接训练模型好，这一点其实其他知识蒸馏的相关的文章也有类似的结论。
越好的教师训练出的学生就越好。
随着标签数据的减少，有监督任务退化成了半监督任务，用NTS+SEAL的方法训练，依然好于直接的监督训练。减少75%的数据标注量，却获得了2+%的指标提升。
减少75%的数据标注量，用半监督的学习方法，教师网络的能力下降了1.5%，而学生网络只下降了0.29%

综上，NTS+SEAL的技术，可以对同时含有CCN和IDN的噪声数据，进行半监督优化。尤其是业务数据中存在大量无标签数据时，可以极大的提高对无标签数据的利用效率，降低企业对标注数据的需求，提高对难以避免的标注错误的鲁棒性。同时，如果标注噪声是CCN，那么NTS的技术以及文章中提到的定理，可以降低业务算法评估中对val，test数据集的质量要求。最后，学生模型可以使用异构的轻量级框架，进一步兼顾模型指标与运算性能。

论文链接：

Robustness of Accuracy Metric and its Inspirations in Learning with Noisy Labels, https://arxiv.org/abs/2012.04193
Beyond Class-Conditional Assumption: A Primary Attempt to Combat Instance-Dependent Label Noise, https://arxiv.org/abs/2012.0545

带噪学习研究及其在内容审核业务下的工业级应用

作者52nlp

作者 52nlp

相关文章

Qwen3来了，全尺寸开源，性能拉满！附最新一手实测！

OpenAI GPT-4.1 API 发布及简介

Seed-Thinking-v1.5：用强化学习推动语言模型的深度推理能力

发表回复

You missed

Qwen3-VL技术报告英中对照版.pdf

DeepSeek-V3.2-Exp：用稀疏注意力实现更高效的长上下文推理

LongCat-Flash：美团发布的高效MoE大模型，支持智能体任务，推理速度达100 token/秒

GLM-4.5：三体合一的开源智能体大模型，重新定义AI推理边界

作者52nlp

相关文章：

作者 52nlp

相关文章

发表回复

You missed