Python使用总结之DataFrame数据去重

2025/7/2 9:09:28 来源：https://blog.csdn.net/lzf9651/article/details/140280014 浏览: 次关键词：Python使用总结之DataFrame数据去重

Python使用总结之DataFrame数据去重详解

在数据分析和处理中,数据去重是一个常见而重要的操作。本文将详细介绍如何使用Python的pandas库对DataFrame进行数据去重。

1. 引入必要的库

首先,我们需要导入pandas库:

import pandas as pd

2. 创建示例DataFrame

为了演示去重操作,让我们创建一个包含重复数据的DataFrame:

data = {'Name': ['Alice', 'Bob', 'Charlie', 'Alice', 'David', 'Bob'],'Age': [25, 30, 35, 25, 40, 30],'City': ['New York', 'London', 'Paris', 'New York', 'Tokyo', 'London']
}
df = pd.DataFrame(data)
print(df)

输出:

     Name  Age      City
0   Alice   25  New York
1     Bob   30    London
2  Charlie  35     Paris
3   Alice   25  New York
4   David   40     Tokyo
5     Bob   30    London

3. 使用drop_duplicates()方法去重

pandas提供了drop_duplicates()方法来删除重复行。

3.1 删除完全重复的行

df_unique = df.drop_duplicates()
print(df_unique)

输出:

     Name  Age      City
0   Alice   25  New York
1     Bob   30    London
2  Charlie  35     Paris
4   David   40     Tokyo

3.2 基于特定列去重

如果只想根据某些特定列去重,可以使用subset参数:

df_unique_name = df.drop_duplicates(subset=['Name'])
print(df_unique_name)

输出:

     Name  Age      City
0   Alice   25  New York
1     Bob   30    London
2  Charlie  35     Paris
4   David   40     Tokyo

3.3 保留最后一次出现的重复项

默认情况下,drop_duplicates()保留第一次出现的重复项。如果想保留最后一次出现的重复项,可以使用keep='last'参数:

df_unique_last = df.drop_duplicates(keep='last')
print(df_unique_last)

输出:

     Name  Age      City
2  Charlie  35     Paris
3   Alice   25  New York
4   David   40     Tokyo
5     Bob   30    London

4. 查看重复数据

有时,我们可能想查看哪些行是重复的:

duplicates = df[df.duplicated()]
print(duplicates)

输出:

   Name  Age      City
3  Alice   25  New York
5    Bob   30    London

5. 高级用法: 自定义去重逻辑

在某些情况下,我们可能需要更复杂的去重逻辑。例如,我们可能想保留每个名字中年龄最大的记录:

df_oldest = df.sort_values('Age').drop_duplicates('Name', keep='last')
print(df_oldest)

输出:

     Name  Age      City
2  Charlie  35     Paris
4   David   40     Tokyo
1     Bob   30    London
0   Alice   25  New York

6. 性能考虑

对于大型DataFrame,去重操作可能会很耗时。在这种情况下,可以考虑先对数据进行排序,然后使用drop_duplicates()方法,这样可能会更快:

df_sorted = df.sort_values(by=['Name', 'Age']).drop_duplicates(subset=['Name'], keep='last')

结论

数据去重是数据预处理中的一个关键步骤。pandas的drop_duplicates()方法提供了一种简单而灵活的方式来处理重复数据。通过合理使用其参数,我们可以根据具体需求实现各种去重策略。在处理大型数据集时,还需要考虑性能问题,选择合适的去重方法。

Python使用总结之DataFrame数据去重