机器学习常用包pandas篇(一)pandas·数据读取

2025/2/22 16:40:20 来源：https://blog.csdn.net/2301_79144343/article/details/145461501 浏览: 次关键词：机器学习常用包pandas篇(一)pandas·数据读取

前言

1. 文本文件

2. 二进制文件

3. 数据库交互

4. 其他格式

5. 性能优化与注意事项5

推荐场景

Pandas 提供了丰富的输入/输出接口，支持多种数据格式的读写操作。内容来源为Pandas I/O 官方文档章节输入/输出 — pandas 2.2.3 文档 --- Input/output — pandas 2.2.3 documentation

以下是核心功能的分类整理。

CSV/TSV
- 读取:
```
pd.read_csv(filepath, sep=',', header='infer', index_col=None, dtype=None, parse_dates=False)
```
  - 关键参数: sep（分隔符）、header（标题行）、index_col（索引列）、na_values（缺失值标识）、encoding（编码）。
- 写入:
```
df.to_csv(path, index=True, sep=',', header=True)
```

JSON

读取:
```
pd.read_json(path, orient='columns', lines=False)
```
- 支持格式: 列式 (columns)、记录式 (records)、分块式 (split)。

写入:

df.to_json(path, orient='columns', lines=False)

HTML
- 读取表格:
```
pd.read_html(io, match='.+', flavor='lxml')
```
  - 从 HTML 页面提取所有表格（返回 DataFrame 列表）。
Markdown/LaTeX
- 导出:
```
df.to_markdown(), df.to_latex()
```

Excel

读取:

pd.read_excel(io, sheet_name=0, header=0, index_col=None)

写入:

df.to_excel(excel_writer, sheet_name='Sheet1', index=True)

HDF5
- 读取/写入: pd.HDFStore 类
  - 高效存储大型数据集，支持压缩和查询。
  - 示例:
```
with pd.HDFStore('data.h5') as store:  store.put('dataset', df)  df = store.get('dataset') 
```
Parquet/Feather
- 读取:
```
pd.read_parquet(path), pd.read_feather(path)
```
- 写入:
```
df.to_parquet(path), df.to_feather(path)
```
- 高性能列式存储，适合大数据集（需安装 pyarrow 或 fastparquet）。

Stata/SAS/SPSS

读取:

 pd.read_stata(), pd.read_sas(), pd.read_spss()

SQL
- 读取:
```
pd.read_sql(query, con)
```
- 写入:
```
df.to_sql(name, con, if_exists='fail', index=False)
```
  - 依赖 SQLAlchemy 连接数据库（如 MySQL、PostgreSQL）。

剪贴板
- 读取/写入:
```
pd.read_clipboard(), df.to_clipboard()
```
Pickle
- 序列化:
```
df.to_pickle(path), pd.read_pickle(path)
```
  - 保存 DataFrame 的完整状态（含索引和数据类型）。
Web API
- 读取 JSON API:
```
pd.read_json(url)
```
- 读取 XML:
```
pd.read_xml(url)
```