一,什么是Pandas??
Pandas 它是一种处理表格数据的工具,非常容易使用,所以我们通常是Python这个领域用它和它爸爸numpy处理数据的数据类型必须是dataFrame" 类型。
二、基础知识
一,Python与Pandas的区别 总得来说,Pandas更简便。Python用5行代码,用1行。Python的100倍,numpy的10倍。
二, 如何删除指定的字符 dataFrame.replace(你要改变的东西,你要改变的东西) (不要加空格,否则你会认为这也是一个数字)
(第一列叫index——索引的意思)
三, dataFrame.shape()
输出是元组,(rows ,columns)。若要取rows:dataFrame.shape如果是的话columns:dataFrame.shape[1]。
二. 取出一列
1.dataFrame.'column name'直接取(NumPy不能在里面使用)
2.dataFrame['column name'](Numpy可用于内)
3.当你想取出多个列时,使用它们dataFrame.[['Type 1','Type 2']]。
三. dataFrame.columns
假如你想找出第n到m行,你可以写dataFrame[dataFrame.columns[n:m]]
四. df.loc
df.loc[0:10,'n':'m前面是索引为0的行到索引为10的行,后面是从n列到m列。这里不能用数字,只能用列名(不知道pandas的开发人哪根经弄错了位置~)。
五. 用df.loc改名
如果你想改名,可以用dataFrame.loc[0,'Name'] = 'm.=替换后的结果。copy(),但是copy()会占用一些内存,不建议使用太多。
六、作弊函数
dataFrame.describe()-自己试试(不推荐)
dataFrame.columnname.max()-列的最大值
dataFrame.columnname.mean()-列的平均值
dataFrame.columnname.min()-列的最小值
dataFrame.columnname.25%()-一列四分之一
dataFrame.columnname.50%()-一列中位数
dataFrame.columnname.75%()-一列四分之三位数
dataFrame.columnname.maxsort()-一列最大值的行号
dataFrame.columnname.minsort()-一列最小值的行号
dataFrame.columnname.argsort()-一列从小到大依次排序
dataFrame.columnname.value_counts()-列有几个元素