处理缺失值
可以使用dropna()
方法删除包含空值的行或列,或者使用fillna()
方法填充空值。例如,可以用均值、中位数或众数来填充空值,代码示例如下:
import pandas as pd
df = pd.read_csv('property-data.csv')
df.fillna(df.mean(), inplace=True) # 使用均值填充
处理重复数据
可以使用duplicated()
方法来识别重复的行,然后使用drop_duplicates()
方法删除这些重复的行。例如:
import pandas as pddf = pd.DataFrame(data)
duplicates = df[df.duplicated()]
df_unique = df.drop_duplicates()
数据类型转换
有时候需要将数据集中的某一列转换为特定的数据类型,可以使用astype()
方法。例如:
df['A'] = df['A'].astype(int)
数据可视化
虽然Pandas本身不直接提供数据可视化功能,但它可以与其他可视化库(如Matplotlib、Seaborn等)无缝集成。例如,使用Matplotlib创建直方图:
import matplotlib.pyplot as plt
plt.hist(df['value'], bins=30, edgecolor='black')
plt.title('Histogram of Value')
plt.xlabel('Value')
plt.ylabel('Frequency')
plt.show()