欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 科技 > 能源 > Pandas 使用

Pandas 使用

2024/10/24 19:24:32 来源:https://blog.csdn.net/weixin_44815507/article/details/141439374  浏览:    关键词:Pandas 使用
1. Pandas简介

Pandas是一个开源的Python库,用于数据分析和数据处理。

  • DataFrame:二维表格数据结构,类似于Excel表格。
  • Series:一维数组数据结构。
2. 安装Pandas
pip install pandas
3. 使用Pandas读取CSV文件
import pandas as pd# 读取CSV文件
df = pd.read_csv('data.csv')# 打印数据
print(df)
4. 使用Pandas进行数据操作
# 选择列
df['column_name']# 选择行
df.loc[index]# 选择多个行
df.loc[index1:index2]# 选择多个列
df[['column1', 'column2']]# 排序
df.sort_values(by='column_name', ascending=False)# 统计
df.describe()# 合并
df1.append(df2)
5. 使用Pandas进行数据可视化
import matplotlib.pyplot as plt# 直方图
df['column_name'].hist()
plt.show()# 散点图
df.plot.scatter(x='column1', y='column2')
plt.show()
6. Pandas处理字典数据
import pandas as pd# 字典数据
data = [{'name': 'Alice', 'age': 25}, {'name': 'Bob', 'age': 30}]# 转换为DataFrame
df = pd.DataFrame(data)# 打印数据
print(df)
7.数据清洗
  • 缺失值处理
# 删除缺失值
df.dropna(axis=0,  # 0表示行,1表示列how='any',  # any表示任意一个值缺失,all表示所有值缺失subset=['column1', 'column2']  # 指定需要处理的列
)# 填充缺失值
df.fillna(value,  # 填充值axis=0,  # 0表示行,1表示列
)
# 将指定值替换为其他值
df.replace(to_replace,  # 需要替换的值value,  # 替换的值inplace=True,  # 是否替换原数据
)
  • 重复值处理
# 删除重复值
df.drop_duplicates()
8.查看数据
# 查看前几行
df.head(n)# 查看后几行
df.tail(n)# 查看数据类型
df.dtypes# 查看数据形状
df.shape# 显示数据的信息,包括列名、数据类型、缺失值等;
df.info()# 显示数据统计信息,包括均值、标准差、最小值、最大值等;
df.describe()
9.相关性分析
# 计算相关性系数
df.corr()# 绘制相关性热力图
import seaborn as sns
sns.heatmap(df.corr(), annot=True)
plt.show()
10.保存数据
# 保存为CSV文件
df.to_csv('data.csv', index=False)# 保存为Excel文件
df.to_excel('data.xlsx', index=False)

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com