周鹏
中山大学硕士
计算语言学、二语加工、认知与教学
讽刺是一种常见的语言现象,由于其主观性、缺乏背景和深刻的见解,具有极大的挑战性。印度因陀罗普罗司泰信息技术研究所的学者提出了基于自然语言的多模式讽刺解释(MuSE)——给出包含图像和标题的多模态讽刺文本,生成自然语言解释来揭示预期的讽刺。
为此,他们开发了MORE,解释了3510篇多模态讽刺文章的新数据集。每一种解释都是描述隐藏反讽的自然语言(英语)句子。采用基于多模式转换器的系统结构进行更多的基准测试。它在Transformer编码器包含跨模式注意,注意两种模式的区别特征。然后,使用基础BART自回归解码器作为生成器。实证结果表明,五个评估指标的不同基线(MuSE采用)得到了令人信服的结果。他们还对预测反讽进行了人类评估,并获得了Fleiss的Kappa分数0.4.这是25名评估师之间的公平一致性。
https://github.com/LCS2-IIITD/MultimodalSarcasm-Explanation-MuSE.
讽刺是指用讽刺或讽刺的陈述来伤害、侮辱或冒犯某人。这种陈述的表面含义通常不同于预期的含义要理解讽刺,人们需要知道陈述的上下文。Joshi,Sharma和Bhattacharyya(2015)认为不协调的存在是讽刺的重要信号。而在MuSE在模型中,它不仅可以发现讽刺,还可以揭示隐含的讽刺,这对于理解为什么讽刺的内容和以讽刺的形式检测负面情绪一样重要,从电子商务的反馈分析到敏感的社交媒体分析。该任务以多模态(图片及其标题)的讽刺文本为输入,旨在生成一个自然的语言句子来解释讽刺文本中预期的讽刺。下面图1就是MuSE任务的一个例子显示,一辆车停在一栋大楼前,上面有用户写的讽刺标题这家伙在停车时得到了一颗金星。考虑到跨模式的不协调(图片和标题的不协调),我们可以意识到用户突出了不当停车位,因为它部分覆盖了残疾人预留的停车位。 作为MuSE对于任务的结果,我们的结果。
▲图1
标题(讽刺的话):这家伙因为停车而得到金星。
解释:这家伙把车停在残疾人的停车位上。
非讽刺的话:这家伙不会因为停车不好而得到金星。
突变的任务不同于使用注意力热图(attention heatmaps)解释模型行为的传统可解释系统或类似机制(e.g., SHAP (Parsa et al. 2020),LIME (Pramanick et al. 2021; Mahajan, Shah, and Jafar 2021), etc.),相比之下,我们将讽刺解释作为自然语言生成的任务。因此,MuSE输出需要一个连贯的英语句子。因此,MuSE输出需要一个连贯的英语句子。MuSE正式定义如下:对给定的多模态讽刺文本P= ?I, T[t1, t2, ..., tN ]?,其中 I 和 T[]分别表示图像和标题,T是标题中的标记,我们的目的是通过生成自然语言解释E[e1,e2..,eD] 揭示预期的讽刺, 其中?ti, ej ∈ V ocabEnglish(ej 表示解释中的标记)。
我们从图1中提取MuSE任务和Dubey,Joshi,Bhattacharyya(2019)非讽刺解读任务的区别。第一个区别是,与基于文本的非讽刺解释相比,在 MuSE 添加多模态。第二个和最主要的区别是,非讽刺的解释主要是对讽刺文本的否定。相比之下,MuSE 定义是为了理解 释不协调-不一定使用否定。
我们介绍了MuSE,一项新任务旨在为给定的讽刺文本生成一种自然语言来解释预期的讽刺。据我们所知,这是第一次试图解释有意的讽刺。
我们开发了MORE,包括3510个三元组(图像、标题和解释)的新数据集。
我们用一个新的基于变压器的编码器-解码器模型进行基准测试,它将作为一个强大的基线。实证结果表明, 五个评价指标优于现有模型。
为了衡量我们提出的模型所产生的解释的一致性和凝聚力,我们。
为了解决 MuSE 我们整理了问题MORE,一个新颖的多模态讽刺解释数据集,包括 3510 专家注释者手工制作的讽刺文章和自然语言解释。为了进一步进行基准测试,我们设计了基于变压器的编码器- 解码器模型。我们使用两个编码器,每个编码器的文本和图像来获得模态上的潜在表示,然后添加一个跨模态注意模块。最后,在管道中添加了一个基础bart解码器生成解释。
由于MuSE我们探索了两个现有的多模态讽刺检测数据集-(Schifanellaetal.2016)和(Sangwanetal.2020)-提取那些讽刺的文本,Schifanella等人(2016)使用基于标签的方法(#讽刺或#反讽)从推特、 Instagram 和 Tumblr 上收集了 10000 讽刺帖子。另一方面,Sangwan等人(2020年)手动注释了1600篇讽刺帖子。另一方面,Sangwan等人(2020年)手动注释了1600篇讽刺帖子。 此外,我们还探索了另一个多模态讽刺检测数据集,收集10560篇讽刺文本。我们收集了22160篇讽刺文本。
接下来,我们将采每篇文章生成以下注释指导方针 一个解释。
丢弃以下文本
-没有讽刺意味的帖子会被丢弃。
-明确提到讽刺的帖子将被丢弃。
-含有非英语内容的帖子将被丢弃。
-需要额外的上下文来解释讽刺或注释者不熟悉 一些主题帖子将被丢弃。
考虑描述内部不一致(文本内部或图像内部)或内部不一致(图像与文本之间)的文本。
使用以下说明来生成解释。
- 所有实体,包括图像、标题、标签、符号等,都要考虑讽刺的解释和适当的解释。
-假如多种方式解释潜在的讽刺,则首选更短、更简单的解释。
- 避免在解释中出现任何不相关的主题。
我们得到了两个注释者的服务,他们仔细检查了我们收集的个人文本。根据这些指导方针,注释者解释了3510篇讽刺帖子。在这些样本中,MORE包含1968个样本的文本实体有图像和标题,其余1542个样本没有图像和文本重叠。我们称前者为OCR样本,而后者为非OCR样本。
▲MORE统计数据集
▲图2 ExMore的完整架构
总之,印度对陀罗普罗司泰信息技术研究所的学者提出了新的多模式讽刺解释(MuSE)多媒体帖子中的预期讽刺是通过标题和图像进行的。 为了解决这个任务,我们开发了一个新的数据集-MORE,其中包含 3510 讽刺文章用自然语言(英语)句子注释参考解释。此外,他们还提出了一大的基线 ExMore 来对 MORE 基准测试数据集。
评估显示,ExMore 在五 优于各种基线(用于各种基线)MuSE)。此外,他们还广泛分析了生成的解释。POS 基于同义词的标签和语言学分析表明,ExMore 语义准确输出高于最佳基线。此外,25名评估师使用公平弗莱斯 Kappa 协议的人类评估支持更高质量的解释(评估分析见原文:https://arxiv.org/abs/2112.04873)。他们认为,MuSE在讽刺分析和可解释性领域开辟了新途径。
Poorav Desai, Tanmoy Chakraborty, Md Shad Akhtar.Nice perfume. How long did you marinate in it? Multimodal Sarcasm Explanation2021. Indraprastha Institute of Information Tecnology, Delhi (IIIT Delhi), India
原文链接:
https://arxiv.org/abs/2112.04873