在数据挖掘和分析中对于数据进行总体认识,是了解数据内容和情况的根本所在。在数据没有装入内容前,可以通过execl或者sql语言等工具查看数据情况,但是装入内存中,这些工具就无能为力了。 而在Python语言中使用Pandas模块可以查看装入内容的数据框中数据的总体概况。
数据实例介绍
使用的数据为五粮液从2021年1月1日到2024年4月12日的交易行情,列数为序号、日期、开盘、收盘、最高、最低价格、成交量、成交额、振幅、涨跌幅、换手率等12个字段,793条记录。如下表:
读入数据
使用前面章节的知识点,读入文件中的execl表格数据,文件类型为csv格式。
import pandas as pd
import os
mypath=r"D:\_____newyear_willdo\py\gp"
df=pd.read_csv(os.path.join(mypath+'\\'+'Wly_Data.csv'),encoding='utf-8') ## 数据导出为csv文件
df
数据读入后存入df变量中,通过df命令,可以直接数据内容。
从显示的数据内容可以知道,数据读入内存,系统自动为每行增加了索引,索引值从0到792,格式和execl文件中内容基本相似,中间显示不开的自动使用。。。。。。分割,下面还详细显示了该数据框为793行和12列。
head(N)与 tail(N)初步认识数据
head(N)与 tail(N)是显示数据框的前面的N行或者后面的N行,缺省值是5行。
df.head(3)
输出:
Unnamed: 0日期开盘收盘最高最低成交量成交额振幅涨跌幅涨跌额换手率002021-01-04292.00298.05300.00291.992342786.977115e+092.742.126.200.62112021-01-05297.20319.98319.98294.503146069.802666e+098.557.3621.930.83222021-01-06320.15328.30335.66317.793134301.021162e+105.582.608.320.83
df.tail(2)
输出:
Unnamed: 0日期开盘收盘最高最低成交量成交额振幅涨跌幅涨跌额换手率7917912024-04-11142.6142.34142.66140.61599432.264028e+091.44-0.54-0.780.417927922024-04-12142.0140.49143.45140.11340731.895838e+092.35-1.30-1.850.35
info()进一步整体把握数据情况
info()方法查看数据表中各列的数据类型,是否有空值,数据表的总体概貌等。
df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 793 entries, 0 to 792
Data columns (total 12 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Unnamed: 0 793 non-null int64
1 日期 793 non-null object
2 开盘 793 non-null float64
3 收盘 793 non-null float64
4 最高 793 non-null float64
5 最低 793 non-null float64
6 成交量 793 non-null int64
7 成交额 793 non-null float64
8 振幅 793 non-null float64
9 涨跌幅 793 non-null float64
10 涨跌额 793 non-null float64
11 换手率 793 non-null float64
dtypes: float64(9), int64(2), object(1)
memory usage: 74.5+ KB
从上面的显示可以看出:数据索引的范围和取值、列的个数和列名称,每个列的数据类型,每个类的数据个数和是否存在空值等。
shape方法
shape()方法会以元组的形式返回行、列数。注意 shape 方法获取行数和列数时计算行索引和列索引。
df.shape
(793, 12)
此处显示该表有793行和12列。即该数据框存在793个观察值和12个属性。
describe()方法
describe()方法可以获取所有数值类型字段的分布值情况。
df.describe()
结果显示了总行数、平均值、最大最小、一分位、二分位、三分位值以及方差。可以对数据的大小和范围有一个总体的观察。这个命令可以对于数据值型数据有一个总体的概括分析,包括每个属性的有多少观察值,平均值是多少、标准差多少、最大值、最小值以及四分位 的值是多少,即对于数据范围有一个全面的认识。为后面的数据分析,特征工程提供基础。
如果感觉有价值,请点赞、收藏、转发。