欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 汽车 > 维修 > 零基础讲解pandas

零基础讲解pandas

2025/4/3 10:01:38 来源:https://blog.csdn.net/2301_76971522/article/details/146919424  浏览:    关键词:零基础讲解pandas

一、Pandas 是什么?

Pandas 是 Python 中一个强大的数据分析库,专门用于处理表格数据​(类似 Excel 表格)。它的名字来源于 "Panel Data"(面板数据)。主要功能包括:

  • 数据读取/写入(支持 CSV、Excel、SQL 等格式)
  • 数据清洗(处理缺失值、重复值等)
  • 数据筛选、排序、聚合
  • 数据统计和分析

二、安装和导入

  1. 安装 Pandas​(如果尚未安装):
    在命令行中输入:

    pip install pandas
  2. 导入库
    在 Python 代码中,通常这样导入:

    import pandas as pd  # 习惯简写为 pd

三、核心数据结构:Series 和 DataFrame

Pandas 有两个核心数据结构:

1. Series(一维数据)

类似一维数组或列表,但每个元素有一个索引(默认从0开始)。

# 创建一个 Series
data = pd.Series([10, 20, 30, 40])
print(data)

输出:

0    10
1    20
2    30
3    40
dtype: int64
2. DataFrame(二维表格)

类似 Excel 表格或 SQL 表,由行和列组成。

# 创建一个 DataFrame
data = {"姓名": ["张三", "李四", "王五"],"年龄": [25, 30, 28],"城市": ["北京", "上海", "广州"]
}
df = pd.DataFrame(data)
print(df)

输出:

   姓名  年龄  城市
0  张三  25  北京
1  李四  30  上海
2  王五  28  广州

四、数据读取和写入

1. 读取 CSV 文件
df = pd.read_csv("data.csv")  # 替换为你的文件路径
2. 读取 Excel 文件
df = pd.read_excel("data.xlsx")
3. 写入 CSV 文件
df.to_csv("new_data.csv", index=False)  # index=False 表示不保存行索引

五、查看数据

df.head(3)   # 查看前3行
df.tail(2)   # 查看后2行
df.info()    # 查看数据基本信息(列名、数据类型、非空值数量)
df.describe()  # 统计数值列的均值、标准差、最大值等

六、数据选择

1. 选择列
df["姓名"]      # 选择单列
df[["姓名", "年龄"]]  # 选择多列
2. 选择行
df.iloc[0]     # 通过位置选择第1行
df.loc[0]      # 通过索引标签选择行(默认索引是数字,与 iloc 效果相同)
df[df["年龄"] > 25]  # 筛选年龄大于25的行
3. 选择特定位置
df.iloc[0, 1]  # 第1行第2列的值(索引从0开始)

七、数据处理

1. 处理缺失值
df.dropna()    # 删除包含缺失值的行
df.fillna(0)   # 用0填充缺失值
2. 数据排序
df.sort_values("年龄", ascending=False)  # 按年龄降序排序
3. 新增列
df["工资"] = [8000, 12000, 9500]  # 添加新列
4. 删除列
df.drop("城市", axis=1, inplace=True)  # axis=1 表示列,inplace=True 直接修改原数据

八、数据聚合

# 按城市分组,计算平均年龄
df.groupby("城市")["年龄"].mean()# 更多聚合操作:sum(), max(), min(), count()

九、综合示例

假设有一个 CSV 文件 sales.csv,内容如下:

日期,产品,销量
2023-01-01,A,100
2023-01-01,B,150
2023-01-02,A,200
2023-01-02,B,120

分析代码:

import pandas as pd# 读取数据
df = pd.read_csv("sales.csv")# 计算每个产品的总销量
total_sales = df.groupby("产品")["销量"].sum()
print(total_sales)# 筛选销量大于120的记录
high_sales = df[df["销量"] > 120]
print(high_sales)

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词