点击上方“AI遇到机器学习,选择星标微信官方账号 重磅干货,第一时间送达
文 | AlbertYang编 | 小轶
已经成为 NLP 以及多模态任务的重要组成部分。如果我们给模型一个冬奥会奖牌列表,问,哪个国家的金牌最多?,现有的模型可以毫不费力地输出正确的答案(通常是第一个国家的金牌)。
但是如果我们打乱了表格的所有顺序,模型还能输出正确的答案吗?还是模型仍然没有选择第一行的国家?
。所以,为了解决这个问题,我在 ACL2022 本文提出,,。
由此,TableFormer 它还可以更好地编码表格结构,对齐表格和相应的文本描述(如自动问答中的问题)。
TableFormer 基于表格的自动问答和事实验证的三个常用数据集中都取得了良好的表现,并在基于表格的连续问答任务中实现SOTA。面对表格行列的扰动,TableFormer由于其严格的鲁棒性,绝对比高了6%-10%的最佳模型!
让我们来看看这篇文章的具体细节。
:
:https://arxiv.org/pdf/2203.00274.pdf
:https://github.com/google-research/tapas
理解表格
模型编码表的典型任务包括:
(如文本转SQL),输出通常可以在表格上执行SQL语句
,输出是从表格中提取或生成的答案
,输出是二级标签(表示语言表达是否符合表格事实)
除了编码半结构化的表格数据外,模型还需要有能力。
许多图片和文本编码的多模态模型也被用来编码表格和文本。
同时,为了实现表格理解推理的任务SOTA因此,需要对预收集的表格文本进行大规模的预训练,甚至扩展数据。
最新的方法和文章可参考本文的相关工作,或作者整理的论文列表:https://github.com/JingfengYang/Multi-modal-Deep-Learning#table
[4] huggingface transformers 唯一存在的表格问答模型 [2]。编码表格结构,TAPAS 以及以前的工作都需要并将文本拼接起来作为 BERT(或者 BART)的输入。
在编码单元格时,为了在序列化表中添加表格结构信息,TAPAS使用了,许多其他模型将相应的表面列作为额外的特征或单元格的前置 token。
然而,行列 ID 以及 BERT(BART)编码中存在的序列的相对位置或绝对位置(spurious bias)。
在回答绝大多数问题时,我们希望模型真正理解表格内容,而不是根据行列顺序的虚假偏置来作出判断。理想情况下,模型只需要知道同行同列信息即可,不需要知道额外的行及列的顺序信息。
实验表明,使用TAPAS在执行表格问答任务时,如果在预测阶段添加随机行列扰动,模型性能将下降4%-6%。
TableFormer结构
为了解决上述问题,对齐更好的表格结构编码和文本表格内容,本文,每个偏置都用一个可学习的标量来表示self-attention 中key value计算好并且scaling之后的similarity score相加,以。
例如,表格中的一个token对同一行或同一列token对文本会有特定的注意力分数token会有特定的注意力分数,表头对应的列名也会有特定的注意力分数。
用公式表示是对的Transfomer中的self-attention机制调整如下:
它是序列中的第一个query 向量表示,在序列中排名第jkey向量表示,。前面提到种关系对应13种偏置:
同行注意力偏置有助于编码token位于表格同一行的信息,同列注意力偏置,当前token对相应表头列名的注意力偏置和表头列名的单元格token当前的注意力偏置可以帮助编码同一列信息token相应表头列名的偏置可以使单元格注意到表头信息,而不需要多次将表头放在每个单元格前,对文本和单元格对文本的注意偏置有助于对齐文本描述和相应的表格内容(grounding)。
,并把BERT将全序列位置编码改为,也就是每个单元格 token 序列从 0 开始编码。
表格结构的编码在删除与行列顺序相关的信息后,完全由行列注意力偏置实现。,这可以保证扰动前后预测的完全一致性。
TableFormer 如图所示:
实验与分析
本文对三种表格理解和推理的数据集进行了实验SQA(基于表格的连续问答),WTQ(基于表格的复杂问答)和TabFact(基于表格的事实验证)。
除了标准的评估数据外,本文还将SQA和TabFact测试集中的表格行列施加随机扰动,构建扰动评估场景。
除了标准的评价指标,本文还提出了一个测量所有测试样本中扰动前后预测变化比例的下界,可作为样本水平鲁棒的上界(VP越低越鲁棒)。
其中 t2t, t2f, f2t, f2f 分别表示扰动后预测从正确到正确,从正确到错误,从错误到正确,从错误到错误。
在SQA在标准测试集上,TableFormer超过了所有baseline实现了SOTA,在扰动测试场景中:
在TabFact上也取得了比例TAPAS扰动测试场景下的显著改进更为明显:
同样,在WTQ上TableFormer也稳步超越TAPAS(具体实验结果见原文)。
本文还设计了一系列比较实验,指出设计TableFormer有一些重要的启示:
可学习的注意力偏置比注意力掩码更适合表格结构编码,可能是因为严格的行列掩码限制了token注意到非同行同列单元的格格token的能力。
在计算中施加注意力偏置的位置非常重要key value 相似的分数和scaling然后添加注意力偏置标量,而不是scaling之前。因为scaling的目的是为了调整key value 高维向量点积后向量模长,注意力偏置为标量,无需scaling,注意力偏置 scaling会降低偏置分数,从而限制偏置对最终注意分数的影响,影响表格结构偏置的注入效果。
TAPAS删除行列ID将序列的整体位置编码改为单元格的内部位置编码后,模型效果显著下降,TableFormer这些变化后可以保持效果,说明TableFormer注意力偏置足以在没有额外行列信息的情况下编码表格结构。
相关实验数据如下表所示:/p>
另一个很自然的想法来解决表格行列顺序扰动带来的影响是在训练时随机扰动表格进行数据扩增,而不改变TAPAS的模型结构。
本文也对TableFormer和这种数据扩增进行了对比实验。实验表明,数据扩增虽然可以减小扰动对于模型总体效果的影响,但最好的表现依然逊色于TableFormer,可能由于TableFormer带来了额外的有效偏置信息(如文本表格对齐等)。
并且,数据扩增无法保证样例水平模型预测对扰动的鲁棒性,从而VP远远高于TableFormer接近于0的VP:
启示
本文除了发现表格行列扰动下模型的鲁棒性问题以及提出TableFormer严格的解决方案外,还带给我们一些启示:
类似TableFormer、Graphomer [3],很多结构化与半结构化的数据都可以用注意力偏置标量来编码token间的关系。
结构化数据编码模型的鲁棒性问题应该被重视。
设计模型时每一个component的选择都要非常用心,例如归纳偏置加在scaling之后或者之前,对模型表现就有很大的影响。
作者简介:本科毕业于北大,Georgia Tech硕士毕业后,暂时放弃UW CS NLP的PhD,去工业界Amazon做了Applied Scientist。不管在哪里,还是希望能做一些扎实的研究或者应用问题。
△长按添加小助手
扫描二维码添加小助手微信
请备注:姓名-学校/公司-研究方向-城市
(如:小明-浙大-对话系统-北京)
即可申请加入AI算法干货/资源等交流群
AI算法应用与研究社群(知识星球) 是一个面向全体学生和算法工程师/研究员的学习交流平台。旨在分享AI论文解读,资源,求职技巧和个人成长等内容。
目前我们的社群更加专注于NLP和数据挖掘领域,具体来说涉及:NLP中的信息抽取、对话问答、query理解、情感分析、知识图谱等等;数据挖掘中的异常检测、分类回归、时序挖掘、图计算、图神经网络、AI可解释等等等等