欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 科技 > 名人名企 > Pandas使用手册大全

Pandas使用手册大全

2025/4/19 16:32:06 来源:https://blog.csdn.net/TheJustice_/article/details/140398146  浏览:    关键词:Pandas使用手册大全

Pandas 是一个强大的 Python 数据分析库,广泛应用于数据科学、数据分析和数据处理领域。本文将详细介绍 Pandas 的基本使用方法,并通过具体例子展示其强大功能。

安装 Pandas

在使用 Pandas 之前,首先需要安装它。可以使用以下命令通过 pip 安装:

pip install pandas

基本概念

Pandas 提供了两个主要的数据结构:SeriesDataFrame

  • Series:一维数组,类似于 Python 的列表。
  • DataFrame:二维表格,类似于电子表格或 SQL 表。

创建数据结构

创建 Series

可以通过列表、字典或标量值来创建 Series。

import pandas as pd# 通过列表创建 Series
s = pd.Series([1, 2, 3, 4, 5])
print(s)# 通过字典创建 Series
s = pd.Series({'a': 1, 'b': 2, 'c': 3})
print(s)# 通过标量值创建 Series
s = pd.Series(5, index=[0, 1, 2, 3])
print(s)

创建 DataFrame

可以通过字典、列表或 Numpy 数组来创建 DataFrame。

import numpy as np# 通过字典创建 DataFrame
df = pd.DataFrame({'A': [1, 2, 3],'B': [4, 5, 6],'C': [7, 8, 9]
})
print(df)# 通过 Numpy 数组创建 DataFrame
df = pd.DataFrame(np.random.randn(5, 3), columns=['A', 'B', 'C'])
print(df)

数据操作

查看数据

# 查看前几行数据
print(df.head())# 查看后几行数据
print(df.tail())# 查看数据摘要
print(df.describe())

选择数据

可以使用标签或位置来选择数据。

# 使用列标签选择数据
print(df['A'])# 使用行标签选择数据
print(df.loc[0])# 使用位置选择数据
print(df.iloc[0, 1])

数据筛选

可以使用条件表达式来筛选数据。

# 筛选大于 2 的数据
print(df[df['A'] > 2])

数据修改

可以修改现有数据或添加新数据。

# 修改数据
df.at[0, 'A'] = 10
print(df)# 添加新列
df['D'] = df['A'] + df['B']
print(df)

数据清洗

处理缺失值

缺失值是数据分析中常见的问题,Pandas 提供了多种方法来处理缺失值。

# 创建包含缺失值的 DataFrame
df = pd.DataFrame({'A': [1, 2, np.nan],'B': [4, np.nan, 6],'C': [7, 8, 9]
})# 删除包含缺失值的行
print(df.dropna())# 填充缺失值
print(df.fillna(0))

数据去重

# 创建包含重复值的 DataFrame
df = pd.DataFrame({'A': [1, 1, 2, 2],'B': [3, 3, 4, 4]
})# 删除重复值
print(df.drop_duplicates())

数据聚合

Pandas 提供了强大的数据聚合功能,可以轻松地对数据进行分组和聚合。

# 创建 DataFrame
df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar'],'B': [1, 2, 3, 4],'C': [5, 6, 7, 8]
})# 按列 A 分组并计算列 B 的均值
print(df.groupby('A')['B'].mean())

高级功能

数据透视表

数据透视表是数据分析中常用的工具,Pandas 提供了类似 Excel 数据透视表的功能。

# 创建 DataFrame
df = pd.DataFrame({'A': ['foo', 'foo', 'bar', 'bar'],'B': ['one', 'two', 'one', 'two'],'C': [1, 2, 3, 4]
})# 创建数据透视表
pivot_table = pd.pivot_table(df, values='C', index='A', columns='B', aggfunc=np.sum)
print(pivot_table)

时间序列分析

Pandas 还提供了强大的时间序列分析功能。

# 创建时间序列
date_range = pd.date_range(start='2023-01-01', end='2023-01-10')
ts = pd.Series(np.random.randn(len(date_range)), index=date_range)
print(ts)# 重采样
print(ts.resample('D').mean())

总结

Pandas 是一个功能强大的数据分析库,通过本文介绍的基本用法和具体例子,相信你已经初步掌握了 Pandas 的使用方法。实际应用中,Pandas 提供了更多高级功能,可以进一步探索和学习,以便更高效地处理和分析数据。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词