Divide-and-Conquer: Post-User Interaction Network for Fake News Detection on Social Media
分而治之:基于推文-用户互动网络的虚假新闻检测
1 INTRODUCTION
一般来说,基于社会背景的虚假新闻检测在建模中面临两大挑战。
首先,新闻社会背景下的信息是复杂和异构的。
实体种类繁多,post,re-posts,replies,usrers回应各种类型的连接关系(post-post),发布关系(user-post),关注关系(user-user)
这些实体的异质性特征和联系为新闻验证提供了不同视角的证据,但也挑战了这些信息的有效利用。
其次,社交媒体上流行的谣言存在分布转移问题。训练分布不同于测试分布。例如,假新闻探测器/分类器训练标记数据,包括体育、政治和娱乐。然而,一些黑天鹅事件,如covid-19的发生构成了一个新的测试主题。分布偏差的存在显著降低了虚假新闻检测器的准确性。
蓝边:回复关系
橘边:关注关系
恶意账户将回复可信度低的内容链接,以获得更多的曝光。此外,他们倾向于关注传播者,但很少有用户关注他们。综上所述,微博的立场、传播结构、账户可信度和社交网络使假新闻传播与众不同。
基于社会背景的虚假新闻检测难度提高了对构建数据集和方法的要求。适当的数据集应该包含丰富的社会上下文信息,并反映实际的分布变化,即跨域新闻和培训新闻足够不同。
现有的数据集不能满足这些要求,这促使我们从Twitter构建了包含各种主题的真实新闻和丰富社会背景的新数据集:如帖子、用户和社交网络。 我们首先研究这个新数据集in-topic和out-topic性能差距,用几种现有的基线方法进行基准测试,观察到显著下降。
另外,我们开发了一种叫做的新方法Post-User交互网络(PSIN),以社会语境为基础的虚假新闻检测建模为异构图分类问题,采用分治策略有效建模社会环境。
应用对抗主题识别器迫使模型学习topic-agnostic特点,提高了out-of-topic设置中的模型性能(即训练和测试不同主题中的数据)。
本工作的主要贡献总结如下:
- 我们建立并发布了一个新的假新闻数据集,名为 M C ? F a k e MC-Fake MC?Fake,它包括5个主题,包括27个和155个新闻事件,以及他们的社交背景,包括500万帖子、200万用户和2亿条边缘诱导的社交地图。
- 我们提出了一个新的Post-User交互网络(PSIN),它应用于分治策略来建模异构关系。具体来说,我们将post-post、user-user和post-user基于其本质特征的子图集成了网络变体。此外,我们使用对抗性主题识别器来学习topic-agnostic的特征。
- 我们的数据集构建有两种设置,in-topic split 和 out-of-topic split,对我们提出的模型进行了评估。在两种情况下,我们模型的优越结果证明了提出方法的有效性。
2 RELATED WORK
2.1 Fake News Datasets
- BuzzFeedNews
- LIAR
- FA-KES
- CREDBANK
- Twitter15
- FakeNewsNet
- FakeHealth
- COAID
- FakeCovid
- MM-COVID
- FakeHealth
2.2 Social Context-based Fake News Detection
- News content
- style-based:
- Knowledge-based
- Social contexts
- Post-based methods
- user-based approaches
3 PROBLEM STATEMENT
数据集定义: D = { T , G U , G U P } D=\{\mathbf{T},G^U,G^{UP}\} D={ T,GU,GUP}
新闻事件的集合: T = { T 1 , T 2 , … , T ∣ T ∣ } \mathbf{T}=\{T_1,T_2,\dots,T_{\vert T\vert} \} T={ T1,T2,…,T∣T∣},
T i T_i Ti是关于新闻事件 i i i 的相关post, T i = { p 1 i , p 2 i , … , p M i i , G i P } T_i=\{p_1^i,p_2^i,\ldots,p_{M_i}^i,G_i^P \} Ti={ p1i,p2i,…,pMii,GiP}, p j i p_j^i pji代表是第j个post, G i P G_i^P GiP是传播结构
G i P = { V i P , E i P } G_i^P=\{ V_i^P,E_i^P\} GiP={ ViP,EiP},其中 V i P = { p 1 i , p 2 i , … , p M i i } V_i^P = \{ p_1^i,p_2^i,\ldots,p_{M_i}^i\} ViP={ p1i,p2i,…,pMii}, E i P = { e i ( s t ) P ∣ s , t = 1 , … , M i } E_i^P=\{ e_{i(st)}^P\,\vert s,t=1,\ldots,M_i\} EiP={ ei(st)P∣s,t=1,…,Mi}指向回复post的边(也就是a指向a的评论)
G U = { V U , E U } G^U=\{ V^U,E^U\} GU={ VU,EU}是用户网络
V U = { u 1 , u 2 , … , u N } V^U=\{u_1,u_2,\ldots,u_N\} VU={ u1,u2,…,uN}是整个数据集的用户集合
E U = { e s t U ∣ s , t = 1 , 2 , … , N } E^U=\{e_{st}^U\vert s,t=1,2,\ldots,N\} EU={ estU∣s,t=1,2,…,N}是关注关系,从用户到他们关注的人(从粉丝指向用户)
G U P = { V U ∪ V P , E U P } G^{UP}=\{V^U\cup V^P,E^{UP}\} GUP={ VU∪VP,EUP}是一个二分图,在整个新闻事件 T T T所涉及到的用户 V U V^U VU和post V P V^P VP
E U P = { e s t U P ∣ s = 1 , … , N , t = 1 , … , M } E^{UP}=\{e_{st}^{UP}\vert s=1,\ldots,N,t=1,\ldots,M\} EUP={ estUP∣s=1,…,N,t=1,…,M}代表边从用户指向他们发表的post
基于全局图 G U G^U GU和 G U P G^{UP} GUP,可以对每一个新闻事件 T i T_i Ti依据其相关的post生成两个诱导图 G i U G^U_i GiU和 G i U P G^{UP}_i GiUP
因此再次定 T i = { p 1 i , p 2 i , … , p M i i , G i P , u 1 i , u 2 i , … , u N i i , G i U , G i U P } T_i=\{p_1^i,p_2^i,\ldots,p_{M_i}^i,G_i^P,u_1^i,u_2^i,\ldots,u_{N_i}^i,G^U_i,G^{UP}_i\} Ti={ p1i,p2i,…,pMii,GiP,u1i,u2i,…,uNii,GiU,Gi 标签: q24j4pj连接器