【Python入门】文件读取全攻略：5种常用格式(csv/excel/word/ppt/pdf)一键搞定

大家好，我是唐叔！今天给大家带来一篇Python文件读取的终极指南。无论是数据分析、办公自动化还是爬虫开发，文件读取都是Python程序员必须掌握的核心技能。本文将详细介绍Python处理5大常用文件格式的方法，包含完整可运行的代码示例，建议收藏备用！

文章目录

- 一、为什么要学习Python文件读取？
- 二、CSV文件读取 - 数据分析第一步
- - 2.1 为什么需要读取CSV文件？
  - 2.2 最佳实践方案
- 三、Excel文件读取 - 商业数据处理
- - 3.1 为什么需要读取Excel？
  - 3.2 最佳实践方案
- 四、Word文档处理 - 告别复制粘贴
- - 4.1 为什么需要读取Word？
  - 4.2 最佳实践方案
- 五、PPT读取 - 演示文稿的自动化处理
- - 5.1 为什么需要读取PPT？
  - 5.2 最佳实践方案
- 六、PDF文本提取
- - 6.1 PDF处理的痛点
  - 6.2 最佳实践方案
- 七、终极方案 - 文件类型自动判断
- 八、常见问题解答
- - Q1：读取文件时出现编码错误怎么办？
  - Q2：处理大文件内存不足怎么解决？
  - Q3：如何提高PDF解析速度？
- 九、学习资源推荐

一、为什么要学习Python文件读取？

在开始具体技术讲解前，我们先看看为什么这个技能如此重要：

职场需求：据2023年Stack Overflow调查，87%的Python开发者需要处理各种文件格式
效率提升：自动化文件处理可节省90%以上的重复操作时间
面试高频：Python岗位面试中，文件操作是必考知识点

二、CSV文件读取 - 数据分析第一步

2.1 为什么需要读取CSV文件？

CSV（Comma-Separated Values）是数据科学领域最常用的轻量级数据存储格式，具有以下优势：

体积小，读写速度快
跨平台兼容性好
支持多种数据类型

2.2 最佳实践方案

方案一：使用标准库csv（适合小文件）

import csvwith open('data.csv', mode='r', encoding='utf-8-sig') as f:  # 注意编码处理reader = csv.DictReader(f)  # 使用DictReader获取字段名for row in reader:print(row['姓名'], row['成绩'])  # 通过字段名访问数据

方案二：使用pandas（推荐大数据量）

import pandas as pd# 处理大文件时可分块读取
chunk_size = 10000
for chunk in pd.read_csv('big_data.csv', chunksize=chunk_size):process(chunk)  # 自定义处理函数# 常用参数：
# header=None   # 无表头
# skiprows=1    # 跳过首行
# usecols=[0,2] # 只读取指定列

三、Excel文件读取 - 商业数据处理

3.1 为什么需要读取Excel？

虽然CSV很香，但现实世界中80%的商业数据仍然躺在Excel里。格式丰富、支持多工作表是它的杀手锏。

Excel 使用场景：

财务报表处理
客户数据管理
项目进度跟踪

3.2 最佳实践方案

# 使用openpyxl（适合.xlsx格式）
from openpyxl import load_workbookwb = load_workbook('report.xlsx')
sheet = wb.active
for row in sheet.iter_rows(values_only=True):print(row)# 使用pandas多表读取
with pd.ExcelFile('report.xlsx') as xls:df1 = pd.read_excel(xls, 'Sheet1')df2 = pd.read_excel(xls, 'Sheet2')

性能优化技巧

对于.xlsx大文件，推荐使用openpyxl的read_only模式
仅加载需要的sheet：pd.read_excel('file.xlsx', sheet_name='Sheet1')
禁用图表加载提升速度：load_workbook(..., data_only=True)

四、Word文档处理 - 告别复制粘贴

4.1 为什么需要读取Word？

当你要批量处理上百份合同、简历或者论文时，手动操作简直就是自虐！这个时候就应该考虑下Python操作Word了。

Word 使用场景：

合同关键信息提取
简历自动筛选
文档批量格式化

4.2 最佳实践方案

from docx import Documentdoc = Document('report.docx')# 读取段落
for para in doc.paragraphs:print(para.text)# 读取表格
for table in doc.tables:for row in table.rows:for cell in row.cells:print(cell.text)

高级应用

使用正则表达式提取特定内容
结合python-docx-template实现模板替换
批量生成报告时注意内存管理

五、PPT读取 - 演示文稿的自动化处理

5.1 为什么需要读取PPT？

想象一下每周都要从几十份周报PPT中提取关键数据，手动操作简直让人崩溃！

PPT 使用场景：

自动生成报告摘要
批量替换PPT内容
企业汇报材料分析

5.2 最佳实践方案

from pptx import Presentationprs = Presentation('presentation.pptx')for slide in prs.slides:for shape in slide.shapes:if hasattr(shape, "text"):print(shape.text)# 处理图表数据（如果有）for chart in slide.charts:data = chart.chart_data# 进一步处理图表数据...

六、PDF文本提取

6.1 PDF处理的痛点

PDF设计初衷是为了展示而非数据处理，这使它成为最难处理的格式之一。但别怕，Python依然有办法！

PDF 使用场景：

发票信息提取
论文内容分析
扫描件OCR识别

6.2 最佳实践方案

# 方案1：PyPDF2（适合文本型PDF）
from PyPDF2 import PdfReaderreader = PdfReader("document.pdf")
for page in reader.pages:print(page.extract_text())# 方案2：pdfplumber（更强大的文本提取）
import pdfplumberwith pdfplumber.open("document.pdf") as pdf:first_page = pdf.pages[0]print(first_page.extract_text())# 还能提取表格！table = first_page.extract_table()# 方案3：处理扫描件（需要OCR）
import pytesseract
from PIL import Image# 需要先将PDF转为图片（可用pdf2image库）
image = Image.open('scanned_page.jpg')
text = pytesseract.image_to_string(image, lang='chi_sim')
print(text)

解决方案对比

工具库	优点	缺点	适用场景
PyPDF2	纯Python实现	对复杂PDF支持有限	简单文本提取
pdfplumber	表格提取能力强	速度较慢	含表格的PDF
pdfminer.six	解析精度高	API复杂	学术论文解析
pytesseract	支持扫描件OCR	需要安装Tesseract	图片型PDF

七、终极方案 - 文件类型自动判断

唐叔教你一个万能方法，不用记那么多库！

import magic
import pandas as pddef read_any_file(file_path):mime = magic.Magic(mime=True)file_type = mime.from_file(file_path)if 'csv' in file_type:return pd.read_csv(file_path)elif 'excel' in file_type:return pd.read_excel(file_path)elif 'word' in file_type:# 调用word处理逻辑pass# 其他类型判断...else:with open(file_path, 'r') as f:return f.read()# 使用示例
data = read_any_file('unknown_file')

八、常见问题解答

Q1：读取文件时出现编码错误怎么办？

尝试常见编码：utf-8、gbk、gb2312、gb18030

使用chardet自动检测编码：

import chardet
with open('file', 'rb') as f:encoding = chardet.detect(f.read())['encoding']

Q2：处理大文件内存不足怎么解决？

使用分块读取（chunksize）
考虑使用Dask等分布式计算框架
转换为更高效的存储格式（如parquet）

Q3：如何提高PDF解析速度？

预处理PDF：pdf2pdfa -i input.pdf output.pdf
多进程处理：from multiprocessing import Pool
使用GPU加速的OCR工具

九、学习资源推荐

官方文档：
- pandas IO工具
- python-docx文档
推荐书籍：
- 《Python自动化秘籍》
- 《Python数据处理实战》
视频教程：
- B站"Python办公自动化"系列
- Coursera"Data Processing Using Python"

唐叔总结：文件读取看似简单，实则暗藏玄机。掌握这些技巧后，你的Python数据处理能力将提升一个Level！如果觉得有帮助，请点赞+收藏支持，更多Python干货正在路上！

【Python入门】文件读取全攻略：5种常用格式(csv/excel/word/ppt/pdf)一键搞定 | 附完整代码示例