基于社会媒体数据增强的交通态势感知研究及进展-锐单电子商城

摘要

交通态势感知是智能交通系统的重要研究方向。已有研究大多关注如何使用物理传感器感知当下交通态势并预测未来交通状况。然而，由于天气影响、电磁干扰、能源限制等问题，物理传感器的性能容易不稳定或失效，导致数据稀疏或缺失，使其对交通情况的感知滞后和不准确。社交媒体数据为及时感知完善的交通信息提供了新的增强方法。面对交通异常频繁的城市交通管制现状，社会传感和物理传感数据相互补充，可以进一步满足城市交通高效管理的需要。基于此，分析研究了基于社交媒体数据的交通事件检测和交通状况预测，探讨了如何为交通管理部门提供决策支持，合理规划和引导交通，缓解交通拥堵，最后提出了社交媒体数据增强的交通趋势感知。

关键词：感知交通状况;智能交通系统;社会感知;交通事件检测;交通状况预测

0 引言

近年来，随着我国社会经济的进步和繁荣，城市交通得到了极大的发展。与此同时，人们的出行越来越频繁，出行工具和方式也越来越多样化，国内车辆数量也越来越多。我国城市特别是大城市交通拥堵问题普遍存在，趋势越来越严重[1,2,3,4,5]。经济损失巨大，环境污染严重[6]，在紧急情况下，它甚至会造成严重的生命和财产损失。从供需的角度来看，当交通供应小于交通需求时，就会出现交通拥堵。如果能及时感知交通状况，引导旅行者的旅行计划、旅行时间和路线规划，就能更好地分配交通资源，平衡交通供需，减少交通拥堵。

目前，物理传感器主要安装在道路上，如成像传感器、感应电路、磁传感器、声探测器、被动红外等。这些物理传感器的部署为交通管理部门提供了丰富的交通数据。但物理传感器数据成本高，空间覆盖范围有限，性能受天气影响严重，故障频发，数据可靠性难以保证。因此，交通管理部门往往不能仅仅依靠物理传感器来获得交通状况的全貌，更不用说根据其数据来分析交通拥堵背后的原因了。与此同时，由特殊事件（如体育赛事、音乐会、节日等）引起的异常交通拥堵已成为常态，这些事件受到各种因素的影响。从供需角度度来看，影响交通供给的因素包括天气条件和交通事件（如交通事故、道路建设等），影响交通需求的因素包括通勤需求和特殊事件与需求，这些因素不能反映在物理交通数据中。

Yin J 等人[7]提出利用社交媒体数据增强对交通状况的感知，并将交通状况感知分解为“了解现状”和“预测未来情况”两个方面。了解当前情况主要是指了解当前交通拥堵、拥堵规模、原因等。；预测未来情况的前提是了解当前情况，涉及交通速度预测、交通流量预测、交通拥堵预测、交通事件预测等应用任务。Wang F Y[8]相信基于社交媒体数据的交通分析和预测是社交的重要研究内容，社交信号及其传感技术是实现社交工程的主要手段。 2010 年左右，国内学者提出“社会传感网”和“社会传感器”[9,10,11,12]概念，并将每个人作为一个智能传感器，通过他们在社会和自然环境中的独立移动来感知、解释和集成信息，这种感知方式将不再仅仅是对当地世界物理特征的感知，而是对广泛人类社会的全面感知。这种人类被用作传感器（也被称为传感器）“human as sensor”[9-12]或“citizenas sensor” [ 13]）的观点，随着移动设备及互联网技术的发展，几乎零成本、覆盖范围广泛且内容丰富的社会媒体平台成为触手可及的数据来源，已在城市及社会应急管理、舆情安全、民意调研中发挥了巨大作用[14]。

社会媒体数据亦可作为检测交通事件的信息源。除了对交通事件的描述，社会媒体数据中通常还记录了交通事件的可能原因、亲身参与者对当下交通状况的情绪反馈[15]、对交通基础设施规划和交通管理的建议等[16]，对这些信息的挖掘有利于交通管理部门更好地规划交通。此外，人们在社会媒体上讨论各种话题[17]，从社会媒体中可以挖掘出物理传感器无法反映的通勤需求和特殊事件出席需求。因此，使用社会媒体平台上与交通相关的数据进行数据集成、语义分析和理解，可弥补物理传感器数据的不足，两者相互补充，形成对交通态势更完整的感知。

为了更好地融合社会媒体数据和其他来源的数据以增强交通态势感知，提升城市交通管理效果，众多前沿技术已被应用于交通事件检测及预测，如Wang S Z等人[18]使用矩阵协同分解来补全交通拥堵矩阵。该方法融合了路网数据、社会媒体数据、GPS探测数据，从中挖掘道路信息、事件信息和天气情况，使用耦合矩阵和张量分解来补全稀疏的交通拥堵矩阵。Nallaperuma D 等人[19]提出一种基于无监督在线增量机器学习、深度学习和深度强化学习的平台来集成物联网、智能传感器、社会媒体等异构大数据，检测概念漂移（concept drift），区分周期性和非周期性交通事件，并进行影响传播、交通流预测、通勤者情绪分析和优化交通控制决策。Rashid M T等人[20]基于社会媒体检测交通事件，使用鲁棒真相发现（robust truth discovery，RTD）[21]算法来估计事件的真实性和置信度，用车载传感器数据进一步验证置信度低的事件。这些研究证实了在交通态势感知领域纳入社会媒体数据的有效性。

本文围绕基于社会媒体数据增强交通态势感知和预测方面展开分析，并详细介绍其中涉及的关键技术。首先总结了基于社会媒体增强交通态势感知的一般框架，对其中涉及的关键技术进行分析与讨论。其次分别详述基于统计学习的方法和基于机器学习的方法如何利用社会媒体数据增强交通预测。在此基础上，进一步探讨了该工作如何支撑交通管理部门利用这些研究开展更有效的交通管控策略制定与管理规划工作。最后，列举了一些未来的研究方向。

1 基于社会媒体数据的交通事件检测流程及关键技术

基于社会媒体检测交通事件的主要任务是提取社会媒体数据的语义信息，检查道路上是否出现交通拥堵以及交通拥堵的原因（如交通事故、道路施工等）。研究表明，人们倾向于在发生事故或道路封闭时，通过社会媒体发布相关信息[22]。Zhang S等人[23]将官方交通事件记录和推特（Twitter）数据tweets结合起来探索与交通相关的tweets的空间位置与交通事件位置的依赖关系，发现交通事件主题tweets 倾向于在交通事件位置周围聚集成簇。Sinnott R O 等人[24]通过对比官方交通数据和社会媒体数据，发现社会媒体数据确实可以作为收集更多交通数据的来源。Steiger E等人[25]对比社会媒体数据和官方数据，发现官方数据报道的特殊事件、交通事件之间的时空模式和与交通相关的社会媒体数据密切相关。这些研究验证了基于社会媒体数据挖掘交通事件的潜力。

基于社会媒体检测交通事件是从社会媒体中深入挖掘交通信息及交通预测的基础。Shen D Y等人[6]从上报交通拥堵信息的tweets中提取拥堵路段和时间，提出TC_Apriori（traffic congestion apriori）算法来发现路段拥堵共现模式。Zhang Y等人[26]从社会媒体中提取交通事故信息，结合从在线地图中收集的卫星服务数据，使用多视图（multi-view）学习评估地区的交通危险程度。参考文献[18,27,28,29]从社会媒体中提取交通事件来改进交通预测。

社会媒体文本与一般文本相比存在以下特殊性：①文本中包含大量非正式的、不规则的表达、缩写词，存在拼写和语法错误；②文本中包含俚语和讽刺，如当收到石油涨价的消息时，有人发布“卖车去吧！”以表达不满情绪；③文本内容比较简短，缺乏上下文语境。针对这些特殊性，不同的研究者提出了不同的方法，但基本遵循以下框架：数据采集，数据预处理，数据表示，数据过滤，关联分析，事件位置提取，效果评估，事件描述及可视化。下面分别介绍其中使用的关键技术。

1.1 数据采集

从社会媒体上采集数据的方法主要有两种：①使用平台提供的应用程序接口（application programming interface，API）；②部署网络爬虫实时抓取网页。这两种方法需要结合研究需要及服务商提供的可用性和限制来灵活选择。以Twitter为例，它提供REST API 和 stream API 供用户免费获取公开tweets。REST API使用户可以根据关键字、用户ID、时间和地理边界框（由质心和半径指定）来获取tweets。stream API和REST API类似，但它不支持位置和关键词的联合查询。API有一定的限制，如对于每个用户，每15 min只能查询350次。通过网络爬虫收集数据没有这样的限制，但后期需要复杂的预处理以抽取元数据。

社会媒体中包含各种各样的话题，与交通相关的数据占比不高，在获取数据时可以通过关键词过滤大部分与交通不相关的数据。关键词的设置需要尽可能地保守，以免漏掉一些重要数据。郑治豪等人[30]人为选择一些与交通相关的关键词，如“堵”“车祸”“剐蹭”“事故”等。Zhang Z H等人[31]从报告交通事故的新闻中选择出现频率较高的词，将其作为搜索关键词。Fu K Q等人[32]在收集数据的同时更新关键词。首先研究有影响力的、与交通相关的用户发布的tweets，将这些tweets中的文档逆文档频率（term frequency-inverse document frequency， TF-IDF）值较高的 50 个词作为初始关键词。根据这些词搜索 tweets，将搜索到的 tweets 与之前的tweets合并，基于TF-IDF值重新选择关键词，由此不断迭代直至收敛。与此类似，Gu Y M等人[33]提出一种自适应获取tweets的方法，分别计数查询结果中包含该词的、与交通相关的 tweets 数 N+和与交通无关的 tweets 数 N-，将 N+较大的词作为与交通“正相关”的词，将N-较大的词作为与交通“负相关”的词，在查询中删去与交通“负相关”的词。基于单一关键词（如“车辆”）查询，会使得结果有较大噪声，加入词语组合能有效提高查询效率[32-33]。

社会媒体中包含大量社交机器人或垃圾邮件发送者，需要识别并过滤这样的用户。Yao W R等人[29]将tweets位置范围小于10 m的用户看作可疑机器人，使用随机森林机器人分类器 Botometer API[34]选择出社交机器人。获取到的数据通常包含发布内容、用户信息、发布时间、位置标记（若用户开启了基于位置的服务），这些数据被转换为结构化的数据存储在数据库中供分析使用。

1.2 数据预处理

社会媒体文本包含大量非正式、不规则的表达，存在拼写和语法错误，在分析前需要一定的预处理，如大小写转换（对于英文）、纠正书写错误、俚语替换、噪声过滤、分词（对于中文）、停止词过滤、词干化等。原始文本中包含标点符号、标签、URL（uniform resource locator）链接等对信息提取无意义的符号，一般使用正则表达式过滤这些噪声符号。中文需要分词，目前已有多个开源的中文分词工具，如计算技术研究所汉语词汇分析系统（institute of computing technology Chinese lexical analysis system，ICTCLAS）、语言技术平台（language technology platform，LTP）[35]等。在英文中，大小写、同一词根派生出来的词（如“congested”和“congestion”）没有语义区别，因此需要对单词进行大小写转换和词干提取。波特（Porter）词干算法[36]是一种常用的词干提取算法[31,37]。

1.3 数据表示

采集到的数据通常包含发布内容、用户信息、发布时间、位置标记等。对于用户发布的内容，为了使计算机能够计算分析，需要将其表示为数值形式。最简单的表示方法是独热（one-hot）编码，每个词被表示为一个独热向量，特征是语料库中的单词，向量在该词的位置为 1，在其他位置为 0。独热编码具有高维稀疏性且无法表示词语间的语义相似性，词嵌入模型将每个词语表示为一个连续空间的向量，考虑了词语间的语义相似性。有两种常见的词嵌入模型[38]：CBOW（continuous bag of-word）和Skip-Gram，两者互为镜像。上述方法使用向量来表示词语，文档被表示为矩阵。另一类方法将文档表示为向量：首先根据语料库构建词典，每个词对应一个特征，计算该词的某种重要性度量，并将其作为该特征的取值。常用的重要性度量为该词的 TF-IDF 值。上述方法纯粹基于单个词语，没有考虑词法和语序。N-gram模型将连续的N个词语作为特征，以此纳入语序。除此之外，Zhang Z H等人[31]指出只将单个词语作为特征是不够的，因为这只强调了标签与词语之间的相关性，而忽略了词语内部的相关性。例如，一个文本中，在“事故”出现的条件下，“车”的出现会增大与事故相关的概率，而在“维修”出现的条件下，“车”的出现可能会降低事故相关概率。因此一些研究[33,39]将词语组合作为特征，与 N-gram 模型不同，这里的词语组合不是相邻的，而是通过 Apriori 算法[39]或基于MapReduce框架抽取的[33]。

基于特征的表示方法没有考虑文本的上下文关系。主题建模方法（如隐性语义分析（latent semantic analysis，LSA）和隐狄利克雷分布（latent Dirichlet allocation，LDA））将文档映射到主题空间，降低了相似性度量的噪声，在一定程度上弥补了上述缺陷。

除了抽取文本的语义特征外，Khan S M等人[40]还抽取了文本的情感分数、特定单词的出现分数、一些句法特征（如标签、问号、感叹号、大写字母的数量、文本长度）为特征。包含道路名的文本与交通相关的可能性更大，Gu Y M等人[33]使用命名实体识别（named entity recognition，NER）技术识别道路名，将其标记为“道路名”，并作为特征输入分类器中。

很多方法将文本表示为高维向量，选择合理的特征或对向量降维可以提高分类效果和算法效率。D'Andrea E等人[37]采用计算信息增益的方法，仅保留了信息增益大于0的特征。Zhang Z H等人[31]基于 phi 系数[41]选择特征。Khan S M 等人[40]使用LASSO（least absolute shrinkage and selection operator）特征选择方法选择特征，且对TF-IDF向量使用奇异值分解（singular value decomposition，SVD）来降低维度。

1.4 数据过滤

尽管在采集数据时已根据特定关键词搜索，但获得的数据仍十分嘈杂，还需要更精细地过滤。大部分研究采用基于监督学习的方法[33,37,40,42,43,44]：首先人工标记大量数据，并将其作为训练真值，然后训练分类器。常见的分类算法有支持向量机（support vector machine，SVM）、朴素贝叶斯（naive Bayes，NB）、决策树（decision tree，DT）、K最近邻（K-nearest neighbor，KNN）、神经网络（neural network，NN）等。Chen Y Y等人[44]提出的长短时记忆-卷积神经网络（long short term memoryconvolutional neural network，LSTM-CNN）将社会媒体文本分为与交通相关和与交通无关两类。LSTM 有潜力学习微博的上下文相关性，而 CNN可以提取深层特征，将二者结合起来能得到比单独的CNN、LSTM效果更好的模型。

监督学习方法需要大量人工标记的数据，费时费力。Wang D等人[45]提出了一种基于LDA的半监督学习方法tweet-LDA，以减少标记数据的需求量。Zhang S等人[23]使用无监督学习方法选择与交通相关的文本，首先利用 LDA 将文本投影到主题空间中，然后在主题空间中使用层次聚类算法得到聚类簇，从中选出与交通相关的文本。

由于社会媒体数据容量大、变化快，计算时间是一个需要考虑的问题。Khan S M等人[40]使用克莱姆森大学棕榈超级计算集群（Clemson University Palmetto Supercomputing Cluster）来支持并行计算，以最小化训练阶段的计算时间。

1.5 关联分析

为了进一步分析是否出现交通拥堵及挖掘交通拥堵背后的原因，还需要进一步分析选出的与交通相关的数据。郑治豪等人[30]通过关键词匹配法将文本分为路况正常、施工、封路、路况拥堵、车辆相撞、其他。与此类似，Gutiérrez C等人[42]将文本分为交通拥堵、道路施工、货运、道路封闭、冰、雪、其他。关键词匹配法允许一个文本有多个类标签，但没有综合考虑整个文本的语义信息。Cui J等人[43]采用基于 N-gram 的贝叶斯分类器将文本分为交通拥堵、交通事故、交通管制。Jain A K等人[46]对比 NB、SVM、随机森林后，选择随机森林将文本分为拥堵、车辆故障、交通顺畅、阻塞、清除阻塞、其他。Gu Y M等人[33]使用sLDA（supervised latent Dirichlet allocation）将文本分为交通事故、道路施工、不利天气、特殊事件、车辆故障。D'Andrea E等人[37]使用SVM、NB、C4.5决策树算法、KNN、PART 决策树算法[47]将文本分为外部事件交通流、交通拥堵、非交通，其中SVM表现最优。Zhang Z H等人[31]使用深度信念网络（deep belief network， DBN）和LSTM模型将文本分为车辆碰撞、失灵、着火，对比 DBN、LSTM、ANN（artificial neural network）、SVM、sLDA，DBN效果最好。Khan S M等人[40]结合L-LDA（labeled-LDA）和SVM将文本分为事件、拥堵、施工、特殊事件、其他事件。

多来源数据相互补充可以提高事件检测效果， Lu H 等人[48]融合微博和新闻来检测交通事件，使用无监督学习技术LDA、w-LDA（weibo-LDA）分别从新闻、微博中检测话题词。由于新闻表达规范，而微博表达随意，因此将微博词汇和新闻词汇“对齐”以形成对事件的整体描述，结果表明将新闻和微博数据结合能有效提高事件检测的准确率。Alkouz B等人[49]融合了Twitter和Instagram检测和预测道路交通拥堵，提出的方法能够分析多种语言，包括阿拉伯语、阿联酋当地语言和英语。

1.6 事件位置提取

位置是交通事件的重要特征之一，社会媒体的元数据中包含以经纬度表示的位置标记，然而具有位置标记的文本占比非常小且不一定是交通事件的位置，因此大部分情况下需要从文本本身提取位置信息。其主要环节包括文本实体识别[18,30,38]、位置对齐和消歧[21,28,30-31,34,40]。Wang S Z等人[18]人工为一些文本进行命名实体标注，将其作为训练值输入条件随机场（conditional random field，CRF）模型中以识别命名实体；Gutiérrez C 等人[42]测试了Alchemy、OpenCalais、Standford NER、NERD 4种命名实体识别方法，NERD效果最好；Tejaswin P等人[50]使用正则表达式解析器生成候选实体。对于文本中的实体还需要结合背景知识来判断其是否属于一个位置。Khan S M等人[40]将提取的位置名与街道名称字典进行匹配，使用基于编辑距离（Levenshtein distance）的相似度比来确定位置实体。Cui J等人[43]采用线性参考方法（linear referencing method，LRM）[51]进行文本定位。Jain A K等人[46]爬取多个网站获取研究城市的所有可能的地点名称列表，对于每一个文本，扫描列表以查看是否有匹配位置。Gu Y M等人[33]使用两个地理解码器分别处理交叉路口名、高速公路名等地理信息和兴趣点名称，使用模糊匹配算法[52]解析与位置相关的词。Gutiérrez C等人[42]使用Geocoding、GeoNames和namation这3个地理定位引擎来消除地理歧义，如果至少两个地理定位引擎的结果是一致的，那么使用这个结果，否则使用权威较高的Geocoding的结果。

从文本提取事件位置的一个问题在于有些文本只提及事件，缺少事件发生的位置。为此，Cui J等人[43]设计了一个问答系统，当检测到不完整信息时主动询问用户，以完善事件信息。另外，对于单一文本信息不完整问题，可以通过分析多个描述同一事件但由不同用户发布的文本有效解决[42]。

一般而言，很难从社会媒体中直接获得准确的事件位置。Zheng Z H等人[16]提出不需要从社会媒体中获取准确的事件位置，而使用出租车GPS数据来确定交通异常的时间和位置。该框架中社会媒体仅仅作为潜在关键交通事件的初步过滤以及交通事件的原因分析。首先从社会媒体文本上检测事件的大概位置，根据这个位置生成搜索区域，在此区域内根据GPS数据检测异常路径，基于此异常路径定位事件位置。

1.7 效果评估

评估分类算法效果的指标有很多，如准确率、召回率等。但这些只能评估算法在网络空间中检测事件的效果，在物理空间中的效果仍需验证。Lu H等人[48]咨询交通领域的专家以确定与测试数据集对应的交通事件。参考文献[31,33]将检测到的事件与交通事故日志对比来查看检测效果。然而因为官方事故日志本身并没有记录所有交通事故，那些在网络空间中检测到但不在官方事故日志中的交通事件不一定是系统误报的结果。

交通事件会引起交通异常，因此将社会媒体数据报告的交通事件与物理传感器的交通数据（如速度、流量、旅行时间等）对比[33]可以验证该交通事件是否真实发生。如果社会媒体报道的事件是真实的，那么事件位置附近的交通数据将会出现异常，如交通速度应该比正常速度慢，旅行时间应该比正常长。假设检验常被用来验证社会媒体中的交通事件是否真实发生，首先假设实际交通量与正常的交通量相同（即没有发生交通事件），然后基于该假设构建相应的假设检验统计量，当其落在拒绝域中时，认为交通事件的确发生了。假设检验法趋于保守，只有当证据充分时才认为交通事件真实发生。

1.8 事件描述及可视化

对异常事件进行准确描述及可视化有助于帮助公众及交通管理部门及时关注检测到的异常。事件描述及可视化的主要方式是文本报告及图形图像。Fu K Q等人[32]使用LexRank方法[53]从大量与交通相关的文本中选出重要的文本供用户阅读。Pan B等人[54]从社会媒体中挖掘异常发生时频繁出现但在其他情况很少出现的代表性术语来描述异常。Lu H 等人[48]将所有交通事件映射到城市道路上。郑治豪等人[30]分别开发了电脑和安卓端的可视化模块，将事件用不同颜色在地图上标注出来。Cui J 等人[43]开发了一个基于安卓的应用程序，在百度地图二次开发的基础上显示特定位置的交通事件。Jain A K等人[46]开发了一个Web应用程序，显示地图上的拥堵数据趋势分析。

1.9 小结

基于社会媒体数据的交通事件检测，本质上是利用众包模式调动每一位交通参与者提供的数据，让每一位城市公民都能够参与到城市交通的检测、管理与评估中，进一步提升城市交通管理的质量和效率。近年来，基于众包的交通数据采集、交通管理、交通衍生服务等[43,55-56]已经渗透到人们生活的方方面面，极大地提升了人民生活的满意度。

2 基于社会媒体数据的交通预测增强方法

交通预测是智能交通系统的重要组成部分，准确的交通预测可以辅助路线规划，指导车辆调度，缓解交通拥堵[57]。目前已有很多先进的交通预测方法，包括使用概率模型来建模交通数据[58-59]，使用时间序列模型来预测交通状况[60]，使用扩展卡尔曼滤波器来预测车速[61]，使用神经网络和深度学习来预测交通[62-63,64,65,66,

标签： 8fu传感器传感器

锐单商城拥有海量元器件数据手册、 IC替代型号，打造电子元器件IC百科大全！

资讯详情

基于社会媒体数据增强的交通态势感知研究及进展

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

基于社会媒体数据增强的交通态势感知研究及进展

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录