python:数据统计及数据可视化的基础操作
一、前言
本篇博客主要讲解数据统计及数据可视化的常用方法
二、数据集
-
数据来源:
在慕课网下载的数据:
-
-
三、数据统计分析
1、读取数据并查看基本信息
import numpy as np import pandas as pd import seaborn
data=pd.read_csv('C:/Users/abc/Desktop/dataset/test.csv',encoding="ANSI")
pd.options.display.max_columns=None
pd.options.display.max_rows=None
data.head()
结果:
print(data.shape)
print(data.size)
print(data.dtypes)
print(data.info())
结果如下:
-
对数值型数据做一些统计:
describe()方法
-
data.describe()
2、分类数据的统计
(1)统计字段不同取值的数目
data['字段名'].value_counts()
(2)统计字段不同取值的占比
data["字段名"].value_counts(normalize=True)
3、数值型数据的统计
(1)cut函数
df_tenure_boxes,
df_tenure_boxes_labels = pd.cut(data['tenure'],
bins=[-111, 0, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 8500],
right=False, retbins=True, include_lowest=True)
数据量统计结果:
数据占比统计结果:
(2)
对数值型的数据进行描述:
4、其他数据统计
-
查看数据的指定列
-
-
四、数据可视化
1、柱状图
df_tenure_boxes,
df_tenure_boxes_labels = pd.cut(data['tenure'],
bins=[-111, 0, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 8500],
right=False, retbins=True, include_lowest=True)
df_tenure_boxes.value_counts()
结果:
df_tenure_boxes_labels
结果:
df_tenure_boxes.value_counts().sort_index().values
结果:
import matplotlib.pyplot as plt
plt.figure(figsize=(20, 10))
plt.bar(range(22),
df_tenure_boxes.value_counts().sort_index().values,
tick_label=df_tenure_boxes.value_counts(normalize=True).sort_index().index)
plt.show()
结果:
2、密度分布直方图
sns.distplot(data['tenure']) plt.show()
结果: