一. 读取
1.常用
#读取数据
ratings = pandas.read_csv(fpath)#查看前几行数据--前10行
ratings.head(10)#查看数据的形状 返回(行数,列数)
ratings.shape#查看列名列表
ratings.columns#查看索引
ratings.index#查看每列的数据类型
ratings.dtypes
2.读取txt 自己指定分隔符、列名
fpath = './a.txt'pcv = pd.read_csv(
fpath ,
sep='\t',#每一行里面的 多个数据 \t 分隔的
head=None,
names=['a','b'] #自己定义列名
)
二. DataFrame
1. Series
Series是一种类似于一维数组的对象,它由一组数据(不同数据类型)以及一组与之相关的数据标签(即索引)组成.
仅有数据列表即可产生最简单的Series
sl = pd. Series([l,'a',5.2,7])#左侧是索引 右侧是数据
sl
#输出
0 1
1 a
2 5.2
3 7#获取索引
sl. index
#输出
RangeIndex(start=0,stop=4,step=1)# 获取数据
sl.values
#输出
array([1,’a’,5.2,7], dtype=object)创建一个具有标签索引的Series
s2 = pd. Series([l,’a’.5.2.7],index=['a','b','c','d'])使用Python字典创建Series
sdata={ '0hio':35000, 'Texas':72000,'0regon':16000,'Utah':5000}
s3pd.Series(sdata)
s3
#输出0hio 35000
Texas 72000
0regon 16000
Utah 5000
dtype: int64根据标签索引查询数据
类似Python的字典dict
s2
#输出
a 1
b a
c 5.2
d 7s2['a']
#输出
1type(s2['c'])
#输出
floats2[['b' ,'a']]
#输出
b a
a 1type(s2[['b' ,'a']])
#输出
pandas.core.series.Series
1.DataFrame
DataFrame是一个表格型的数据结构
每列可以是不同的值类型(数值、字符串、布尔值等)
既有行索引index,也有列索引columns
可以被看做由Series组成的字典
根据多个字典序列创建dataframe
data={'state':['0hio','0hio','Ohio','Nevada','Nevada'],'year':[2000,2001,2002,2001.2002],'pop':[1.5,1.7,3.6,2.4,2.9]}
df = pd. DataFrame(data)
输出
从DataFrame中查询出Series
如果只查询一列、一列,返回的是pd.Series
如果查询多行、多列,返回的是pd.DataFrame
df#查询一列,结果是一个pd.Series
df['year']
#输出
0 2000
1 2001
2 2002
3 2001
4 2002
Name: year, dtype: int64type (df['year'])
#输出
pandas.core.series.Series查询多列,结果是一个pd.DataFramedf[['year', 'pop']]
#输出格式year pop
0 2000 1.5
1 2000 1.5
2 2000 1.5
3 2000 1.5
4 2000 1.5type(df[['year','pop']])
#输出
pandas.core.frame.DataFrame查询一行,结果是一个pd.Seriesdf. loc[1]
#输出
state 0hio
year 2001
pop 1.7
Name: 1,dtype: objecttype(df. loc[1])
#输出
pandas.core.series.Series
查询多行,结果是一个pd.DataFrame
https://www.bilibili.com/video/BV1uxkdYQEk2?p=4&vd_source=89092b89b9fd66fc76eb0e85bdd95dad