在公众号「python风控模型」回复关键词:学习资料:
了解需要通过异常检测解决的问题的范围,只需查看统计数据即可。例如,根据美国银行家协会 (ABA) 最新数据,到 2016 年,由于欺诈活动,银行业损失高达 22 亿美元。同样,2016 年,使用 SEPA 全球发行和获得的卡的欺诈交易总价值已经达到 18 亿欧元。同年,有 30 亿个雅虎账户被黑客入侵,这是有史以来最大的违规行为之一。
现在让我们来谈谈什么是异常检测作为一个概念。异常是正常物流事故。因此,使用机器学习进行异常检测 - 可疑是识别数据中的异常模式、事件或观察结果的过程。
除了防止欺诈外,异常检测还高度适用于许多领域:医药、制造和交通系统。更具体地说,在医学中,它用于检测受损或恶意的细胞,可用于识别设备工作中的结构缺陷和故障根源。
状态监测和预测性维护
从制造的那一刻起,任何机器或设备都有可能的使用寿命和一些健康指标。在总结了工作中许多类似设备的参数后,人们可以得出结论,如果一台机器有一天坏了,或者它的健康指标会下降,这足以使它的工作不好。为了防止意外关闭或故障,机器学习专家提供了一种使用异常检测作为工具之一的预测性维护技术。
当工业 4.0 一种保证机器可用性的新方法开始发挥作用。因为大约 82% 的公司经历过计划外停机,并考虑到此类事件的成本——一台机器停机每小时约 260,000 很明显,美元必须以某种方式解决这个问题。另外,大约 64% 的计划外停机时间与设备故障(维护不当、缺乏状态跟踪)有关。
异常检测用于状态监测和预测性维护的用途非常广泛:
-
汽车行业 在这个行业,跟踪焊机、铣床主轴、激光钻机等的情况非常重要。此外,结合汽车工业物联网的机器学习解决方案有助于实时识别裂纹、润滑问题、组装部件的错位等。
-
钢铁行业 在这里,状态监测用于监测冷轧机的状态(对钢材质量尤为重要)。及时检测轧机缺陷有助于采取纠正措施,尽量减少负面影响。
-
石油和天然气 石油和天然气不是最后一个应用预测性维护行业,但结合物联网,用于实时监控海上钻井。一旦远程处理数据,就可以识别设备的潜在临界状态。
黑客攻击和欺诈测试
与互联网或银行业务相关的任何类型的欺诈活动都是异常检测用例中最受欢迎的领域。 2015 多年来,随着芯片卡技术的出现,银行卡对欺诈的保护越来越多,每次要求交易都需要输入 PIN 尽管如此,到 2020 预计年度在线信用卡欺诈将高达 320 亿美元。
从 2016 自年初以来,网络攻击层出不穷,威胁着互联网企业和商业网站。就连雅虎、优步等大公司也遭受过网络攻击,约 30 1亿个雅虎账户被黑客入侵,优步超过 5700 乘客和司机的信息被盗。在全球范围内,Wannacry 病毒感染了 150 国家/地区 350,000 造成多台机器 40 损失1亿美元。
当涉及信用卡欺诈检测或任何网络安全系统漏洞时,机器学习专家可以根据交易细节(如业务、金额、位置、时间等)构建智能机器学习模型,将交易分为合法或欺诈。
电子商务交易欺诈检测算法
在使用机器学习检测异常时,有两种方法:监督或无监督。监督代表处理预标记的数据。例如,如果一个人有一组正常和异常的日志,但这些日志没有被标记为这样,他必须手动给每个日志贴上正常或异常的标签。算法可以区分它们。无监督方法不需要标记——特殊算法会根据其内部机制假设哪些数据是恶意的,通常是基于其内部机制。例如,大多数互联网连接是正常的,只有少数是欺诈性的,因此更罕见的连接类型异常。
使用异常检测来识别金融服务公司的欺诈交易,并提供使用 Mobile Money(Airtel Money、MTN Mobile Money)、银行卡(Visa Card、Master Card)、钱包支付的各种产品、服务和信用(稍后支付)。问题是我们几个月内很少通过公司进行非法交易作为输入。 150,000 交易数据。
每个机器学习项目作为常规过程都包括在内 3 个阶段:
-
数据收集、预处理
-
训练模型
-
模型参考/再训练。
当项目建立时,我们遇到了数据集不平衡的问题,这意味着数据集在两种观测值之间存在显著差异。可以使用 9 各种方法处理不平衡数据,其中最 3 种类:过采样、欠采样和 SMOTE。在实践中尝试它们,我们得出结论,SMOTE 最适合我们追求的任务。
有兴趣了解机器学习建模过程,系统学习Python数据分析与机器学习项目实战
发展历程
一般1000笔交易可能只有00笔.大约1%的信用卡欺诈使模型训练过程非常不平衡。通过使用欠采样(随机删除正常交易,尽量减少与欺诈相比的数量)和过采样(复制欺诈样本,制作多个欺诈样本,平衡数量和正常交易),合成采样或 SMOTE 解决了这个问题(合成数据样本是在现有样本的基础上自动生成的)。最后一种方法似乎是最有效的,因为它提高了我们算法的准确性 5%,结果是 85%。
在数据准备步骤意味着数据平衡之后,下一步是尝试不同的分类方法。监管技术将数据分为以下类别之一:逻辑回归,KNN、SVM 欺诈或正常交易决策树分类器。我们使用无监督学习算法 One-Class SVM、Isolation Forest、Fitting 和 Local Outlier Factor 所有交易在监督中分为两类,无需标记。此外,还采用了具有监督和无监督方法的神经网络方法:LSTM 和 MLP(监督)和自动编码器 (AE)、玻尔兹曼机受限 (RBM) 并生成对抗网络 (GAN)。
结论
机器学习异常检测主要用于解决网络安全漏洞、在线欺诈检测与预防、预测性维护和状态监测等问题,如制造、电子商务、银行、零售、石油、天然气、医药等行业。在许多常规操作过程中,无论是信用卡交易还是消除设备工作中的问题,都易还是消除设备工作中的问题,尤其是在预测可能发生的事故异常时。你对机器学习开发感兴趣吗?请随时联系我们!
学习QQ群:免费领取102693837python机器学习相关学习资料