5分钟NLP：文本分类任务中的数据增强技术-锐单电子商城

为什么要增加训练数据？

机器学习中的数据增强主要是通过人工构建数据，增加训练集的大小，使模型达到更好的泛化特性。这是机器学习中广泛研究的研究领域。

数据增强的主要作用如下：

一般来说，文本分类中的数据增强会产生更好的模型，因为模型在训练过程中会看到更多的语言模型。但现在这种数据增强是通过大规模预训练语言模型的迁移学习来管理的，因为这些模型对我们使用的各种转换并不敏感。事实上，数据增强方法只有在创建以前从未见过的新语言模型时才有益。

本文从论文中整理了文本分类的数据增强方法《 A Survey on Data Augmentation for Text Classification》。一般来说，我们会结合几种数据增强方法来实现更多样化的例子。

[外链图片存储失败，源站可能有防盗链机制，建议保存图片直接上传(img-sRy3IWUI-1651714847137)(http://images.overfit.cn/upload/20220505/0187f5593f8646a5bf5aeeeab31424eb.png)]

一般来说，有四种类型的文本数据增强：字符级、单词级、短语和句子级、文档级。

这种类型的数据增强处理是通过改变现有的训练样本单个字符来创建新的训练样本。主要包括：随机字符删除、交换和插入。以及基于规则的转换，如使用正则表达式（如插入拼写错误、数据更改、实体名称和缩写）。

这种类型的数据增强通常会改变单个训练样本的单词。

添加噪声：使用 Unigram Noising在一定的概率下，输入数据中的单词被另一个单词替换。或者通过空白噪声，单词被 _替换。其它噪声技术是随机单词交换和删除。
同义词替代：这是一种非常流行的形式。同义词替代通常使用WordNet等现有的知识库来进行。
嵌入式替换：类似于同义词替换，嵌入式替换方法可以通过搜索找到适合上下文的单词。为了实现这一目标，单词被投射到一个潜在的表达空间中，类似于上下文的单词在这个空间中更紧密，然后近这个空间的单词替换。
语言模型替换：语言模型可以用来过滤不合适的单词，根据之前或周围的上下文来预测背后或缺失的单词。语言模型支持更本地化的替换，而不是考虑嵌入嵌入替换。