本文于2022年发表Expert Systems With Applications,题目为《Attention based CNN model for fire detection and localization inreal-world images》
火灾是对人类生命和环境造成重大危害的严重自然灾害。本文提出了一个自定义的框架来检测火灾迁移学习和最先进的CNN在现实世界中训练火灾爆发图像。该框架也被使用Grad-CAM该方法实现了图像中火的可视化和定位。该模型还采用了显著帮助网络获得更好性能的注意力机制。通过Grad-CAM可以观察到,注意力的使用可以使模型在图像中更好地定位火焰。在大量的探索模型中,EfficientNetB成为解决这个问题最合适的网络选择。95.从图像样本中检测火灾的有效性有力地支持了40%的测试精度。此外,97.61的高召回率强调,该模型的假阴性可以忽略不计,这表明该网络对火灾探测是可靠的。
火灾是一种毁灭性的自然灾害,对人类破坏的毁灭性自然灾害。室外环境的火灾探测已成为人类生命安全的首要问题和具有挑战性的任务。近年来,火灾探测系统受到广泛关注,有助于保护人员和财产免受火灾威胁。可通过传感器检测系统检测到火灾的某些方面,如光、热、烟。各种类型的火灾探测算法最近引入了不同的技术,以尽量减少各种火灾事故造成的破坏。传统的火灾探测方法使用传感器探测烟雾、火灾大小、初始火焰位置、大气温度等。这些传感器因其成本低、操作简单而非常流行,并得到了广泛的应用。然而,这些系统探测器可能存在一些缺点,如警报触发较晚破坏了预警、空间覆盖和信号传输的目的。许多警报在密闭空间中起作用,因此在开放空间中变得低效,例如户外或公共空间,大型基础设施,如体育场、飞机吊架。此外,几乎所有的传感器都需要靠近烟雾。由于传感器通常设置在天花板上,烟雾到达天花板所需的时间会延迟,从而破坏早期预警的目的。
近几年来,基于相机馈线的火灾探测监测系统在计算机视觉研究领域得到了重要认可,尤其是在卷积神经网络中。然而,这些火灾探测方法仍有一些挑战需要克服。许多研究人员提出了通过手动选择特征来创建建议区的解决方案。通过逐一确定提议区来创建提议区的过程忽略了在整个测试过程中的使用CNN。因此,计算量大,检测速度慢。该问题需要一种有效稳定的算法来检测火灾,具有高精度和自动化的特点,可以防止对人类生命和自然环境的大规模破坏。当然,基于视觉的自动化系统可以被证明是检测此类事件的工具。基于这一理念,本工作提出了基于深度学习的火灾探测框架,具有较高的准确性和显著的召回率。
文章设计框架的主要目标是利用现实世界的图像来检测和定位火灾。迁移学习的应用使实施过程更加有效。重复使用预训练的火灾探测模型具有精度高的优点,从而产生有效探测火灾火焰的潜力。此外,该模型还实现了将模型的焦点吸引到图像相关部分的注意机制。本文实施的基本程序概述如下:
1).考虑到基于传感器的传统火灾探测器的局限性,提出了基于真实图像的有效火灾探测CNN框架。该框架避免了特征工程的冗长过程,能够从数据中自发地学习样本特征。
2).火灾图像数据集不丰富,难以获得。因此,通过收集最近使用的知名公共数据集数据中收集的图像,创建了一个复合数据集。3).在迁移学习策略的鼓励下,许多最先进的CNN架构,如Resnet50, VGG16, GoogLeNetV3,和EfficientNetB0测试效果。
4).对模型进行了广泛的微调,在不同的时代产生了更好的性能。此外,框架的计算复杂性随着模型的准确性和尺寸而稳定,使其成为一个良好的检测系统。
5).框架设计采用全局平均池2D(GAP)该方案提取特征和注意机制,将模型的焦点指向图像的不同区域,以提高效果。
6).建议的工作也用于更好的视觉识别和定位Grad-CAM方法,以便突出显示图像的部分或区域。这有助于识别对这类图像的预测的影响,并提供了关于模型的失效模式的见解。
对于各种研究小组来说,利用计算机视觉技术和深度学习模型自动探测火灾已成为一个开放的挑战,因为它们与其他天然物体(如阳光和照明)的相似性。传统的基于特征的工程/提取方法确实很有前途,但不是处理图像问题的理想选择。因此,目前的深度学习方法在计算机视觉任务中取得了最先进的性能。此外,深度学习还有多种应用,如图像和视频中的对象检测/分类,用于任何活动的实时检测、语音识别和自然语言处理。目前,基于计算视觉的火灾探测研究已提出CNN等深度神经网络的解决方案,并取得了良好的效果。因此,利用CNN很少有研究进一步提高火灾探测性能。本文强调了一些火灾探测系统的解决方案,包括形状、颜色、纹理和运动特征。此外,当可疑烟雾区域被放大时,采用了隐藏的扩展策略,提高了探测的及时性,一些也被使用LSTM对总结出来的特征进行分类。此外,数据集稀缺的问题限制了研究人员分析提出的模型的鲁棒性。因此,本文探索了基于视觉的火灾探测系统在显著更大的数据集上训练和测试计算轻量但有效的解决方案。
模型的主要目的是利用注意力CNN该模型用于火灾探测和利用Grad-CAM可视化定位方法。模型采用TensorFlow和Keras谷歌实现了框架、模型训练和测试Colab在门户网站上进行。GPU特别是在微调过程中,特别是在微调过程中。对于已知的分类问题,使用不同的最先进模型来训练网络。最先进模型的动机具有良好的分类精度和速度效率。描述本工作中使用的框架的流程图如下图所示。
用于训练和测试的火图像样本并不多。对于这个问题,大多数公都太小,无法生成可靠有效的模型。因此,将包括火灾和非火灾在内的图像样本集成为单一的复合大数据集。为工作做的合成数据集包括来自Dataset, 2021; DeepQuestAI, 2021; Saied, 2020; Carlo, 2021; Bansal,2021。总共有3988张火场图像和3989张非火场图像。这些图像来自不同的真实世界风景环境,如街道、建筑、人、室内、大厅和森林,这有助于构建一个强大的模型。该数据集对模型提出了重大挑战,因为它包含了混淆的彩色物体,如阳光场景和照明,使得火灾探测任务更加困难。
上图显示了一些复合数据集用于训练和测试模型的样本图像。为了有效地训练和测试,数据集以8:2的比例分为训练集和测试集。验证数据占训练数据的10%。数据集中的图像统一调整为800×600大小。输入图像NumPy数组的形式转换,并将大小调整为224x减少存储大小的224像素。
受生物视觉感知过程的启发,CNN被开发出来。1998年提出的第一个广为人知的系统结构LeNet,它在手写数字分类方面表现出了良好的性能。在接下来的几年里,许多变体CNN被提出。CNN应用包括对象检测/分类、动作识别、姿势估计、图像分割和场景标记,也用于理解自然语言处理(NLP)语音识别。CNN它被广泛用于处理基于图像的问题,并在大规模数据集中获得有希望的结果。由于其结构消除了手工特征提取阶段的需要,这些网络已经成为深度学习的首选模型。如下图所示。
卷积层是提取输入图像特征的关键层。使用卷积层的初始部分Kernel/Filter卷积操作。对于彩色图像,滤波器具有与输入图像相同的深度和多个通道(RGB)。这些过滤器尺寸不同,并与输入数据一起创建特征图。池化层,又称子采样层,起到最大限度地减少卷积特征空间大小的作用。在这个模型中,一个特殊的池化层被引入到网络的主网段中,即整体平均池化层(GAP)。这一层计算层每个特征图的平均输出,上层为每个图像提取空间特征。全连接层模型的全连接层由两个或两个以上的隐藏层组成,其中输入具有较高的表示。FC学习识别不同形状和位置的完整物体。厚层和L2范数正则化,正则化因子为0.01,使模型具有更好的泛化效果。然后,输出被送到一个训练层,即空间注意层,在那里它学习注意力值,获得分类部分注意力收集的特征向量。模型的分类层试图学习非线性映射。
除最后一层外,所有层之间都设置了一个以s形为激活函数的整流线性单元(Relu)激活函数。该函数提供了将输出映射到0到1的概率分布范围。在输出阶段,对系统结构进行了改革,在神经网络的基础上定义了的顶级分类器,并添加了一个dropout避免过度拟合。此外,注意机制有效地增强了提出的网络,大大提高了探索信息量最大的特点。为了测试模型,使用了最好的训练参数来验证性能。
迁移学习是一个流行的概念,它重用预训练模型来开发针对新问题的神经网络模型。基于图像的各种最先进的预训练模型都是公开的,这些模型都是高效训练的基准数据集。然而,这些模型不能直接应用于任何其他与图像相关的问题,因为它们可能不接受相关任务的训练。因此,这些预训练模型可以用来进一步微调,而不是从零开始。研究了大量最先进的模型,如选择对相关分类问题有效的最佳结构VGG-16、GoogLeNetV3、ResNet50和EfficientNetB0。虽然其他模型构建方法,包括集成方法,已经在各种研究中使用,但这些网络往往具有较高的计算成本,因此这些方法尚未在本研究中使用。为了评来评估鲁棒的性质ResNet50差学习框架,该框架对相关问题表现出略好的性能。残差网络允许通过称为残差模型的模块构建网络来训练深度网络。在使用的CNN中,EfficientNetB0框架被处理战略性地扩展深度神经网络。采用这种预先训练的神经网络是一个理想的选择,因为它具有显著更好的模型效率,也是一个轻量级的模型。在本研究中,在训练阶段,只对最上面的2层和新叠加的分类层进行训练,来自CNN的特征成为注意模型的输入,得到注意力汇集的特征描述,然后分类层对其进行处理,最终进行分类。
注意机制是近年来逐渐流行起来的一种新型模块。在提出的框架中,该技术集中在火灾分类的最重要的特征上,在性能上有显著的改进。在处理数据时,该机制更关注输入的不同部分。因此,所提出的模型集中并增加了对图像相关区域的关注。虽然近年来注意机制经历了各种各样的调整以适应多种任务,但应用的注意有多种类型。因此,本文提出的方法聚焦并设置额外的“注意”在图像的适用部分。许多研究人员发起了一项关于注意机制的研究,该研究在提出的框架中实施,以更好地了解图像中的区别特征。此外,文本使用了一种通道式注意机制来检测火灾等级。
对于模型的训练个体变量,初始超参数、优化方法和损失函数保持一致。使用不同的优化器学习空间注意网络的权值,但AdaGrad优化器对所选问题表现出更好的性能。该网络的学习率为0.01(在某些情况下为0.001),批量大小设置为32。该模型通过在不同时期的训练进行了微调。为了获得这些参数的最佳精度,所有模型的最终结果都在20的epoch进行训练和比较。为了使模型具有更好的泛化性能,对学习算法进行了微小的修改,提高了模型对测试数据的性能。使用的一些正则化技术有:
1). 在密集层之间增加了0.2的衰减,在训练时,在特定的向前或向后传球过程中,不考虑某一组神经元。
2). L2范数也被称为岭回归(最小二乘法),与密集层一起使用。它使目标值和估计值之间的差值的平方和最小化。
各超参数被微调的可行值空间如下表所示。
模型的性能是通过一些统计指标来计算的,如精度、准确性、F-Score和召回率。这些参数的计算结果表明,所设计的模型具有很高的效率和精度。最后,本文采用了2种模型,并给出了相应的结果。
对于分类问题,评估方案包括各种统计指标,如精度、召回率、f评分和准确性。混淆矩阵也被用来评估模型的性能。混淆矩阵显示了分类模块在进行预测时的困惑。问题的预测类显示在混淆矩阵的列中,而实际类则显示在该矩阵的行中。混淆矩阵可以分为4组分类:TP、TN、FP、FN,其他指标使用以下公式计算
提出的架构已经通过4个最先进的架构进行了探索,每个架构都经过了多次训练,以确定最佳的模型。对参数进行微调,直到得到准确的结果。从各种模型的组合中,ResNet50和effecinetnetb0架构的结果足够准确,并进一步考虑以AdaGrad作为优化器,学习率为0.01的最佳验证精度。通过超参数微调得到的每个模型组合训练5次,并考虑最佳结果的平均值。观察发现,当增加注意层时,模型的测试性能略有改善,差异显著,为2%。可以得出结论,EfficientNetB0是一个更好的替代方案,因为网络的总参数要少得多,使它比ResNet50更轻。具有最佳参数的两种体系结构的结果如下表所示。
上图显示了表中所示的所有网络变体的性能度量值的图表。
上图为测试过程中得到的混淆矩阵结果。这些曲线是使用Adagrad优化器训练的EfficientNetB0模型的结果,该模型具有20个epoch,批次大小为32。该模型的训练精度为99.90。设计框架的预测是通过使用一种技术来实现的,该技术从基于卷积神经网络(CNN)模型的测试数据集创建视觉解释,使它们在视觉上更加清晰。使用的方法是“梯度加权类激活映射”(Grad-CAM)。
为了比较性能和检查提出的基于注意力的卷积神经网络的有效性,在提出的数据集上实施了以下方法进行比较。模型参数见下表。
上表显示,与该问题的其他解决方案相比,所提模型的可训练参数数量肯定是在较低的一侧。虽然火网模型的可训练参数较小,但无法对图像进行高效的火灾检测。与精度细节的比较结果如下表所示。
上表使用准备好的复合数据集的模型的总体性能达到95%以上,召回率达到97.61%。(Muhammad et al., 2018)的表现次之,epoch的数量最少。他们的模型是在GoogLeNet架构上训练的,在6个epoch内显示出89.41%的测试准确度。(Khan等人,2019年)的工作是一种经济系统,提出使用深层cnn对正常和雾霾物联网环境中的烟雾进行早期检测。他们的过程应用于一个自制的数据集,并使用了经过30个epoch(16个批处理大小)训练的VGG-16架构和一个SGD优化器。该模型在选定的数据集上显示出轻微的不拟合结果,但有0个误报。Jadon等人(2019)设计的模型设计了一种轻量级神经网络,名为FireNet,在100个时代都显示出良好的性能。In (NAMOZOV and CHO, 2018)提出了一种新颖的深度CNN模型,以实现对火灾和烟雾的高精度探测。VGG-12模型在本文提出的数据集上表现不佳,由于数据量不足,在火灾探测方面表现不佳。(Muhammad et al., 2019)设计了一种可在移动设备上部署的模型,并创建了一种用于探测火灾的轻量级深度神经网络系统。他们的网络计算成本低,因为它没有密集的、完全连接的层。与VGG模型相比,移动网络结构易于实现,训练速度快,因此结果性能优越。由(Valikhujaev, Abdusalomov,& Cho, 2020)提出的框架在他们的工作中使用了一种扩展卷积神经网络。该模型在一个定制的数据集上进行了测试,该数据集包括从互联网上收集并手工标记的火灾和烟雾图像。虽然该工作优于以往的方法,但假阳性仍占10.6%的时间,在准确性和假阳性方面仍有发展空间。为了探测火灾,(Dua, Kumar, Singh Charan,& Sagar Ravi, 2020)提出了一种基于迁移学习(深度CNN技术)的火灾探测系统。为了构建火灾探测系统,它采用了预先训练的深层CNN架构,如VGG和MobileNet。为了模拟真实世界的条件,这些模型在不平衡的数据集上进行了评估。另一方面,根据他们提出的模型,我们的数据集产生了21.9%的假阳性率。选择上述方法进行对比分析的思路是,这些方法是为火灾探测而开发的。此外,所有的网络在火灾探测方面都有其应用和特定的目标。
文章提出了一种基于注意力的CNN模型,用于真实图像的火灾探测。模型中还添加了一种注意机制,从而显著提高了数据的性能。所引入的神经网络在测试数据集上表现出了显著的良好性能,并且具有最小的假阴性。为了探索比基线方法更好的性能,进行了几次试验。从为这个问题探索的几个模型来看,EfficientNetB0是一种具有较少可训练参数的高效替代方案。因此得到的模型比最近提出的大多数解决这个问题的方法产生了更好的结果。未来的工作将致力于扩展现有的工作,并开发一个鲁棒的火灾和烟雾探测算法使用视频。在这一领域的未来研究还可以探索特殊生成网络的应用,如GAN网络。
如果你和我一样是轨道交通、道路交通、城市规划相关领域的,可以加微信:Dr_JinleiZhang,备注“进群”,加入交通大数据交流群!希望我们共同进步!