Pandas使用手册大全

Pandas 是一个强大的 Python 数据分析库，广泛应用于数据科学、数据分析和数据处理领域。本文将详细介绍 Pandas 的基本使用方法，并通过具体例子展示其强大功能。

安装 Pandas

在使用 Pandas 之前，首先需要安装它。可以使用以下命令通过 pip 安装：

pip install pandas

基本概念

Pandas 提供了两个主要的数据结构：Series 和 DataFrame。

Series：一维数组，类似于 Python 的列表。
DataFrame：二维表格，类似于电子表格或 SQL 表。

创建数据结构

创建 Series

可以通过列表、字典或标量值来创建 Series。

import pandas as pd# 通过列表创建 Series
s = pd.Series([1, 2, 3, 4, 5])
print(s)# 通过字典创建 Series
s = pd.Series({'a': 1, 'b': 2, 'c': 3})
print(s)# 通过标量值创建 Series
s = pd.Series(5, index=[0, 1, 2, 3])
print(s)

创建 DataFrame

可以通过字典、列表或 Numpy 数组来创建 DataFrame。

import numpy as np# 通过字典创建 DataFrame
df = pd.DataFrame({'A': [1, 2, 3],'B': [4, 5, 6],'C': [7, 8, 9]
})
print(df)# 通过 Numpy 数组创建 DataFrame
df = pd.DataFrame(np.random.randn(5, 3), columns=['A', 'B', 'C'])
print(df)

数据操作

查看数据

# 查看前几行数据
print(df.head())# 查看后几行数据
print(df.tail())# 查看数据摘要
print(df.describe())

选择数据

可以使用标签或位置来选择数据。

# 使用列标签选择数据
print(df['A'])# 使用行标签选择数据
print(df.loc[0])# 使用位置选择数据
print(df.iloc[0, 1])

数据筛选

可以使用条件表达式来筛选数据。

# 筛选大于 2 的数据
print(df[df['A'] > 2])

数据修改

可以修改现有数据或添加新数据。

# 修改数据
df.at[0, 'A'] = 10
print(df)# 添加新列
df['D'] = df['A'] + df['B']
print(df)

数据清洗

处理缺失值

缺失值是数据分析中常见的问题，Pandas 提供了多种方法来处理缺失值。

# 创建包含缺失值的 DataFrame
df = pd.DataFrame({'A': [1, 2, np.nan],'B': [4, np.nan, 6],'C': [7, 8, 9]
})# 删除包含缺失值的行
print(df.dropna())# 填充缺失值
print(df.fillna(0))

数据去重

# 创建包含重复值的 DataFrame
df = pd.DataFrame({'A': [1, 1, 2, 2],'B': [3, 3, 4, 4]
})# 删除重复值
print(df.drop_duplicates())

数据聚合

Pandas 提供了强大的数据聚合功能，可以轻松地对数据进行分组和聚合。

# 创建 DataFrame
df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar'],'B': [1, 2, 3, 4],'C': [5, 6, 7, 8]
})# 按列 A 分组并计算列 B 的均值
print(df.groupby('A')['B'].mean())

高级功能

数据透视表

数据透视表是数据分析中常用的工具，Pandas 提供了类似 Excel 数据透视表的功能。

# 创建 DataFrame
df = pd.DataFrame({'A': ['foo', 'foo', 'bar', 'bar'],'B': ['one', 'two', 'one', 'two'],'C': [1, 2, 3, 4]
})# 创建数据透视表
pivot_table = pd.pivot_table(df, values='C', index='A', columns='B', aggfunc=np.sum)
print(pivot_table)

时间序列分析

Pandas 还提供了强大的时间序列分析功能。

# 创建时间序列
date_range = pd.date_range(start='2023-01-01', end='2023-01-10')
ts = pd.Series(np.random.randn(len(date_range)), index=date_range)
print(ts)# 重采样
print(ts.resample('D').mean())