热门搜索： Android Java C# Asp

源码示例-分类

Android源码

python：数据统计及数据可视化的基础操作

一、前言

本篇博客主要讲解数据统计及数据可视化的常用方法

二、数据集

数据来源：
在慕课网下载的数据：

三、数据统计分析

1、读取数据并查看基本信息

导入数据科学包：

# 导入数据科学工具包 import numpy as np import pandas as pd import seaborn

读取数据：

#读取数据 
 data=pd.read_csv('C:/Users/abc/Desktop/dataset/test.csv',encoding="ANSI")  
#取消最大显示行数和列数限制
 pd.options.display.max_columns=None  
 pd.options.display.max_rows=None  
#读取数据表的前5行  
 data.head()

在这里插入图片描述

结果：

在这里插入图片描述

查看数据的基本信息

#查看数据尺寸  
print(data.shape)  
#查看数据数量 
 print(data.size) 
 #查看字段类型 
 print(data.dtypes) 
 #查看数据信息  
print(data.info())

在这里插入图片描述

结果如下：

在这里插入图片描述

对数值型数据做一些统计：
describe()方法

#数据描述：只统计数值型数据 data.describe()

在这里插入图片描述

2、分类数据的统计

(1)统计字段不同取值的数目

data['字段名'].value_counts()

在这里插入图片描述

(2)统计字段不同取值的占比

data["字段名"].value_counts(normalize=True)

在这里插入图片描述

3、数值型数据的统计

(1)cut函数

基本使用

在这里插入图片描述

right参数
是否包含右侧数据，默认包含右侧区间
bin参数
对数值型数据进行分箱处理
分箱：把一个大区间的数据分成多个小区间的数据，然后可以统计每个小区间的数据量、数据量的占比情况等指标

df_tenure_boxes, 
df_tenure_boxes_labels = pd.cut(data['tenure'],  
bins=[-111, 0, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 8500], 
 right=False, retbins=True, include_lowest=True)

数据量统计结果：

在这里插入图片描述

数据占比统计结果：

在这里插入图片描述

(2）

对数值型的数据进行描述：

在这里插入图片描述

4、其他数据统计

查看数据的指定列

四、数据可视化

1、柱状图

对数值型数据进行分箱处理

df_tenure_boxes, 
df_tenure_boxes_labels = pd.cut(data['tenure'], 
 bins=[-111, 0, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 8500], 
right=False, retbins=True, include_lowest=True)

统计不同区间的数据各自的数据量

df_tenure_boxes.value_counts()

结果：

在这里插入图片描述

分箱数据的label值，即每个区间的端点值

df_tenure_boxes_labels

结果：

在这里插入图片描述

统计每个区间的数据记录数

df_tenure_boxes.value_counts().sort_index().values

结果：

在这里插入图片描述

绘制柱状图

#绘制柱状图  
import matplotlib.pyplot as plt  
#设置画布的大小  
plt.figure(figsize=(20, 10))  
#柱状图： 
bar plt.bar(range(22), 
 df_tenure_boxes.value_counts().sort_index().values,  
tick_label=df_tenure_boxes.value_counts(normalize=True).sort_index().index) 
 plt.show()

结果：

在这里插入图片描述

2、密度分布直方图

sns.distplot(data['tenure']) plt.show()

结果：

在这里插入图片描述

友情链接

CSDN网

51CTO网

菜鸟教程

网站简介 CSDN使命：成就一亿技术人 CSDN愿景：成为技术人交流和成长的家园 CSDN（中国开发者网络）是全球知名中文开发者网站。秉承成就一亿技术人的使命，为IT技术人成长及科技企业发展，提供开发者生态的全方位服务。CSDN在社区基础上，通过知识云、人才云、开发云三大服务，赋能开发者、研发团队及科技企业在IT知识学习、人才招聘、研发效能与协同管理等方面的高速成长与发展。人人都是开发者，家家都是技术公司，CSDN全力前行，共建中国十万亿技术大生态！

51CTO是一个有18年历史的知名技术社区。通过技术社区、技术博客和新媒体矩阵等综合产品服务体系，凝聚了2000万IT技术人员、50万位技术博主和近千家公司的CTO.

网站包括了HTML、CSS、Javascript、PHP、C、Python等各种基础编程教程。同时本站中也提供了大量的在线实例，通过实例，您可以更好地学习如何建站。本站致力于推广各种编程语言技术，所有资源是完全免费的，

关于我们 - 网站声明