资讯详情

缺失值可视化Python工具库:missingno

点击上面的小白学视觉"星标"或“置顶” 重磅干货,第一时间送达 推荐一个非常实用的缺失值可视化工具库:missingno

适用场景

无论是打比赛还是在实际工程项目中,都会遇到数据缺失的情况。如果数据集很小,它仍然可以excel或者其他可视化软件大致看数据缺失的原因,所以当数据集较大时,探索规则无疑越来越困难。

missingno它为缺乏数据可视化工具和实用程序提供了灵活易用的小工具集,使您能够快速直观地概述数据集的完整性。

安装及引用

pipinstallmissingno importmissingnoasmsno

missingno一般配合numpy和pandas一起使用:

importnumpyasnp importpandasaspd

也将用于案例quilt,数据包管理器可以让你像管理代码一样管理数据,anaconda没有内置,需要安装。00ee33abce1de9426ceb4e6d8916a64d.png

导入数据

fromquilt.data.ResidentMarioimportmissingno_data collisions=missingno_data.nyc_collision_factors() collisions=collisions.replace("nan",np.nan)  ##绘制缺失值矩阵图 msno.matrix无效矩阵是一种数据密集的显示,它能快速直观地看到数据完整性。 msno.matrix(collisions.sample(250))

空白越多,缺失越严重

右侧的迷你图概述了数据完整性的一般形状,并指出了数据集中最大和最小的无效行数。需要注意的是,这个矩阵图最多可以容纳50个变量,超出这个范围的标签开始重叠或不可读。默认情况下,大型显示器会忽略它们。

如果要处理时间序列数据,可以使用关键字参数指定周期性freq:

null_pattern=(np.random.random(1000).reshape((50,20))>0.5).astype(bool) null_pattern=pd.DataFrame(null_pattern).replace({False:None}) msno.matrix(null_pattern.set_index(pd.period_range(1/1/2011,'2/1/2015',freq='M')),freq='BQ')  ![](https://my-wechat.oss-cn-beijing.aliyuncs.com/image_20200403162803.png)

绘制缺失值条形图

条形图提供与矩阵图相同的信息,但格式更简单。msno.bar(collisions.sample(1000))

绘制缺失值热图

missingno相关热力图可以显示无效的相关性:一个变量的存在或另一个没有强烈影响的存在。值为1:两个变量一个缺失,另一个缺失;值为-1:一个变量缺失,另一个变量不能缺失。值为0:变量缺失值出现或不相互影响。热图非常适合选择变量之间的数据完整性关系,但当涉及到更大的关系时,解释有限,并不特别支持超大数据集。

注:总是满或空的变量没有任何有意义的关联,因此将从可视化中删除。

msno.heatmap(collisions)

树状图缺失值

通过树图,可以更全面地观察缺失变量的相关性,揭示比相关热图更深层次的相关性:msno.dendrogram(collisions)

通过变量的无效相关性(用二进制距离来衡量),将变量分类为树状图。在树的每一步中,根据哪个组合最小化其他组合的距离来拆分变量。变量集越单调,总距离越接近零,平均距离越接近零(y轴)越接近零。簇叶与零距离连接可以完全预测彼此的存在——一个变量可能总是空的,或者它们可能总是空的,等等。

簇叶几乎分为零,但不分为零,彼此预测得很好,但仍然不完美。如果你自己的数据集的解释是,这些列实际上是或应该无效匹配(例如,作为CONTRIBUTING FACTOR VEHICLE 2和VEHICLE TYPE CODE 2应该),那么集群叶的高度告诉你,如果你愿意,在绝对数量上,记录不匹配或提交错误文件需要多长时间,必须填写或删除多少个值。

小白团队制作:零基础精通语义分割↓↓↓  下载1:OpenCV-Contrib中文版教程扩展模块  在「小白学视觉」微信官方账号后台回复:扩展模块中文教程,下载全网第一份OpenCV中文版扩展模块教程涵盖扩展模块安装SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等20多章。   下载2:Python视觉实战项目52讲 在「小白学视觉」微信官方账号后台回复:Python可下载图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情感检测、文本内容提取、面部识别等31个视觉实践项目,帮助快速学校计算机视觉。   下载3:OpenCV实战项目20讲 在「小白学视觉」微信官方账号后台回复:OpenCV20个实战项目可以下载20个基于OpenCV实现20个实战项目OpenCV学习进阶。   交流群  欢迎加入微信官方账号读者群与同行交流。SLAM、三维视觉、传感器、自动驾驶、摄影计算、检测、分割、识别、医学图像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描以下微信号加群,备注:昵称 学校/公司 研究方向,例如:张三 上海交大 视觉SLAM“。请按格式备注,否则不予通过。请按格式注明,否则不予通过。添加成功后,将根据研究方向邀请进入相关微信群。请不要在群里发广告,否则请出群。谢谢你的理解~

标签: 自动化口罩机传感器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台