在没有训练数据的情况下通过领域知识利用弱监督方法生成NLP大型标记数据集-锐单电子商城

在现实世界中开发机器学习（ML）模型的主要瓶颈之一是需要大量手动标记的训练数据。Imagenet数据集由1400多万手动标记的各种现实图像组成。

虽然迁移学习的出现大大缓解了这一要求，但仍需要数百个标记示例进行微调。然而，获得这些手动注释通常需要时间和劳动密集型，而且很容易出现人类的错误和偏见。

那怎样才能改善这种情况呢？

最近的弱监管（WS）该框架可以通过使用多样化来减少手动标记，并可以使用该领域的主题专家（SME）提高模型性能的广泛知识。

本文将介绍Edelman DxI数据科学团队使用弱监督解决方案NLP一些问题的最新进展！

弱监督学习

数据编程是指使用启发性标记函数与标签模型相结合，以编程的形式创建标记数据集。弱监督使用标签模型创建的标签数据集来训练下游模型。下游模型的主要工作是在标签模型输出之外进行泛化。Snorkel在数据集中实现弱监督有三个步骤。

编写标记函数（LFS）：任何可以输入数据的标记函数python使用一些规则输出银行标签的函数。例如，如果我们的任务是电子邮件垃圾邮件检测每个标签函数独立运行，标记每行数据。在二元分类的情况下，标签为0(无标签)或1(有标签)或-1(信息不足，无标记)。
弱标签和标签模型（LM）如果我们有M行数据和N个数据LFS，若操作所有LFS将导致总共M x n标签，所以需要汇总n个单个LFS输出使每行只有一个标记结果。多种投票模式LF汇总到单个标签的最简单方法。然而，通过整个M行的每个M行，有更好的方法LF在相同的结果和不同的结果中学习的聚合方法。例如，Data Programming Paper ，MeTaL Pape，Flying Squid paper 这三篇论文中提到的一些方法。
训练下游模型（EM）：训练数据微调下游模型采用标签模型输出BERT。由于LFS它是程序标签源，因此我们可以在未标记的语料库上操作步骤1和2，生成许多标签并在步骤3中训练的模型可以从步骤1和步骤2中创建的更广泛的训练数据集中受益。

上图中的Snorkel 利用数据编程的弱监督学习python库。它提供了易于使用的服务API实现和评估步骤1和2。我们可以使用先进的ML API，例如HuggingFace的transformers 或Sklearn实现步骤3。

在某些方法中，步骤2和3也可以结合到一个步骤中。但一般来说，两个阶段的方法优于单个阶段，因为可以选择任何方法LM和EM组合可以通过不同的组合找到最佳性能。因此，本文将步骤1和步骤2分开进行。

弱监督框架

在弱监督基准测试中，作者基准了各种弱监督框架，并将其与完全监督基准进行了比较，如下所示。

对于NLP任务，Cosine Roberta（RC）总比其他模型好（EM），包括Vanilla Roberta（R），因此，我们可以安全地选择RC作为两阶段方法的最终模型！从上图可以看出，没有单标签模型（LM）框架总是优于其他框架，这表明我们必须尝试不同的数据集中LMS选择最好的LMS。

COSINE (RC, BC)

COSINE 是COntrastive Self-training for fINE-Tuning 缩写是近年来弱监管领域最有前途的研究进展之一。该算法有五个步骤。

1、初始化：使用标签模型的弱标签来微调语言模型，例如在初始化步骤中使用交叉熵损失。然后进行微调BERT模型在整个数据集中的概率预测被用作软伪标签。然后用这些软伪标签迭代复合损失，继续BERT模型的微调如下公式所示。

2.样品加权：根据预测概率重新加权，使预测概率高的样品权重较高，预测概率低的样品权重较低。

3.高信度样本上的分类损失：由于使用了软伪标签。因此，使用权重阈值高于预定义ξ基于样本的计算Kullback-Leibler Divergence加权分类损失。

4.高可信度样本上的对比损失使用上述步骤中相同的样品计算比较损失，使具有相似伪标签的样品更接近，不同伪标签的样品在矢量空间更远。正负样品之间的边缘差是一个超参数。

5.所有样本上的可信度正则化:以上整个方法只有在可信度(预测概率)正确，错误标记的样本可信度很低时才有效。所以最后Loss它是一种基于置信度的正则化器，可以防止错误标记的样品获得过高的置信度(过度置信)。λ正则化强度可以调整。

通过以上步骤COSINE 该方法对弱标签中的噪声非常强烈。这也是基准测试中实施小标签数据初始化步骤的最佳方法之一。

Snorkel

Snorkel可以说是所有弱监督标签模型方法的创始人，也可以说是弱监督标签模型方法的母亲！斯坦福大学的同一位研究人员创造了数据编程一词Snorkel 。Snorkel 前提非常简单：给定启发性标签函数（LFS）将每个函数中的弱标签组合成每个样本的单个标签。Snorkel 它提供了一个易于使用的框架，可以总结多个不同的弱点LFS。

组合多个弱标签的一种方法是只使用大多数投票算法（majority vote），在基准测试中MV确实是一些数据集最好的LM。但是LF中的方法可能是相关的，所以导致特定特征在MV过度性能的模型。Snorkel更复杂的实现LM，使用一些数学矩阵逆向导组合LF的输出。

启发式LF选择

Snorkel 易于使用，但在Snorkel 在标签上训练的最终模型（EM）可能是因为准确性LFS质量变化很大。所以启发式LF提出了选择，这个过程只使在一个小的手工标记验证集中具有最好的准确性LF集合的LF子集。

启发式LF我们一开始只能使用少量的选择LFS，并随着时间的推移增加和改进它们。通过每次分析LFS我们可以确定每次迭代的性能LFS在下一轮中LF更新或增加新的条件。这种分析也会暴露出对问题域理解的差距！

总结

本文介绍了弱监督的概念，以及如何将专家的知识编码到机器学习模型中。我还讨论了一些标记模型。结合这两种弱监督方法的框架，可以而不收集大量的手动标记培训数据集ML与模型相当的准确性！

引用：

Want To Reduce Labeling Cost? GPT-3 Can Help
X-Class: Text Classification with Extremely Weak Supervision
OptimSeed: Seed Word Selection for Weakly-Supervised Text Classification with Unsupervised Error Estimation
ASTRA: Self-Training with Weak Supervision
SPEAR: Semi-Supervised Data Programming with Subset Selectio
Revisiting Unreasonable Effectiveness of Data in Deep Learning Era
Data Programming: Creating Large Training Sets, Quickly
Snorkel: Rapid Training Data Creation with Weak Supervision
Fine-Tuning Pre-trained Language Model with Weak Supervision: A Contrastive-Regularized Self-Training Approach
Training Complex Models with Multi-Task Weak Supervision
Fast and Three-rious: Speeding Up Weak Supervision with Triplet Methods

https://avoid.overfit.cn/post/82ca4ceb918d41ba95bfc53db3ebd14e

作者：Marie Stephen Leo

资讯详情

在没有训练数据的情况下通过领域知识利用弱监督方法生成NLP大型标记数据集

弱监督学习

弱监督框架

总结

详细介绍电流互感器功能区别3CT SR ZCT

在没有训练数据的情况下通过领域知识利用弱监督方法生成NLP大型标记数据集

弱监督学习

弱监督框架

总结

详细介绍电流互感器功能区别3CT SR ZCT

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录