资讯详情

机器学习完整项目实战附代码(一):探索型数据分析+特征工程+建模+报告

1. 项目背景

??泰坦尼克号沉没是历史上最臭名昭著的沉船之一。1912年4月15日,在她的处女航空,被广泛认为不沉的泰坦尼克号在与冰山相撞后沉没。不幸的是,船上的每个人都没有足够的救生艇,导致224名乘客和船员中有1502人死亡。虽然生存中有一些运气因素,但似乎有些群体比其他群体更有可能生存。在这里,建立一个预测模型来回答这个问题:什么样的人更有可能生存?使用乘客数据(即姓名、年龄、性别、社会经济阶层等)。

1.1 项目目标:

??这是一个:给定一组包含目标(在本例中幸存)survived)的数据,我们希望训练一个可以学习将特征(也称为解释变量)映射到目标的模型。

  • : 我们可以知道数据的特征和目标,我们的目标是训练可以学习两者之间映射关系的模型。
  • : survived是离散变量。

??在训练中,我们希望模型能够学习特征和分数之间的关系,所以我们给出了特征和答案。然后,为了测试模型的学习效果,我们评估了一个从未见过答案的测试集

: 链接:https://pan.baidu.com/s/1tk9Qmni1rPghyNFKBaOO5w 提取码:9pgb

1.2 工作流程

  1. 数据清理和格式化
  2. 探索性数据分析
  3. 特征工程:数据预处理、特征选择、[特征减少]
  4. 比较几种基于性能指标的机器学习模型
  5. 最佳模型超参数调整
  6. 在测试集中评估最佳模型
  7. 解释模型结果
  8. 得出结论和报告

1.3 导入库

项目所需的工具

  • 使用标准数据科学和机器学习库:numpy,pandas和sckit-learn
  • 使用matplotlib和seaborn进行可视化
  • 输入缺失值和缩放值:sklearn.impute,sklearn.preprocessing
  • 机器学习模型:
  • 将数据分为训练集和测试集:from sklearn.model_selection import train_test_split
  • 超参数调整:from sklearn.model_selection import RandomizedSearchCV, GridSearchCV
  • 复制对象:copy
  • 解释模型:lime
#用于数据操作pandas和numpy import numpy as np import pandas as pd #设置DataFram显示数量 pd.set_option('display.max_column',60)#最多显示60列 #可视化工具包 import matplotlib.pyplot as plt import seaborn as sea # 如遇中文显示问题,可添加以下代码 from pylab import mpl mpl.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体 mpl.rcParams['axes.unicode_minus'] = False  # 解决保存图像为负号的问题 # 复制对象 import copy 

2. 数据清理和格式化

2.1 加载和检查数据

# 把数据读入 pandas DataFrame data_raw=pd.read_excel(r'./Data/Titanic Dataset/titanic3.xls') data_clean= copy.deepcopy(data_raw) #查看数据 data_clean.head() 

在这里插入图片描述

#查看数据大小 data_clean.shape 

加载数据后,我们需要解决的问题: 1)

标签: a1型变送器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台