Pandas 使用

2025/4/3 12:03:31 来源：https://blog.csdn.net/weixin_44815507/article/details/141439374 浏览: 次关键词：Pandas 使用

1. Pandas简介

Pandas是一个开源的Python库，用于数据分析和数据处理。

DataFrame：二维表格数据结构，类似于Excel表格。
Series：一维数组数据结构。

2. 安装Pandas

pip install pandas

3. 使用Pandas读取CSV文件

import pandas as pd# 读取CSV文件
df = pd.read_csv('data.csv')# 打印数据
print(df)

4. 使用Pandas进行数据操作

# 选择列
df['column_name']# 选择行
df.loc[index]# 选择多个行
df.loc[index1:index2]# 选择多个列
df[['column1', 'column2']]# 排序
df.sort_values(by='column_name', ascending=False)# 统计
df.describe()# 合并
df1.append(df2)

5. 使用Pandas进行数据可视化

import matplotlib.pyplot as plt# 直方图
df['column_name'].hist()
plt.show()# 散点图
df.plot.scatter(x='column1', y='column2')
plt.show()

6. Pandas处理字典数据

import pandas as pd# 字典数据
data = [{'name': 'Alice', 'age': 25}, {'name': 'Bob', 'age': 30}]# 转换为DataFrame
df = pd.DataFrame(data)# 打印数据
print(df)

7.数据清洗

缺失值处理

# 删除缺失值
df.dropna(axis=0,  # 0表示行，1表示列how='any',  # any表示任意一个值缺失，all表示所有值缺失subset=['column1', 'column2']  # 指定需要处理的列
)# 填充缺失值
df.fillna(value,  # 填充值axis=0,  # 0表示行，1表示列
)
# 将指定值替换为其他值
df.replace(to_replace,  # 需要替换的值value,  # 替换的值inplace=True,  # 是否替换原数据
)

重复值处理

# 删除重复值
df.drop_duplicates()

8.查看数据

# 查看前几行
df.head(n)# 查看后几行
df.tail(n)# 查看数据类型
df.dtypes# 查看数据形状
df.shape# 显示数据的信息，包括列名、数据类型、缺失值等；
df.info()# 显示数据统计信息，包括均值、标准差、最小值、最大值等；
df.describe()

9.相关性分析

# 计算相关性系数
df.corr()# 绘制相关性热力图
import seaborn as sns
sns.heatmap(df.corr(), annot=True)
plt.show()

10.保存数据

# 保存为CSV文件
df.to_csv('data.csv', index=False)# 保存为Excel文件
df.to_excel('data.xlsx', index=False)

Pandas 使用

1. Pandas简介

2. 安装Pandas

3. 使用Pandas读取CSV文件

4. 使用Pandas进行数据操作

5. 使用Pandas进行数据可视化

6. Pandas处理字典数据

7.数据清洗

8.查看数据

9.相关性分析

10.保存数据

相关资讯

热文排行

最新新闻

推荐新闻

热搜词