文章目录
- 【README】
- 【9】读写文件
- 【9.1】文件与文件路径
- 【9.1.1】windows操作系统上的倒(反)斜杠与linux及macOS上的正斜杠
- 【9.1.2】使用/运算符 连接路径
- 【9.1.3】当前工作目录
- 【9.1.4】主目录
- 【9.1.5】绝对路径与相对路径
- 【9.1.6】用 os.makedirs() 创建新文件夹
- 【9.1.7】处理绝对路径与相对路径
- 【9.1.8】取得文件路径的各个部分
- 【9.1.9】查看文件大小和文件夹内容
- 【9.1.10】使用通配符模式修改文件列表
- 【9.1.11】检查路径的有效性
- 【9.2】文件读写过程
- 【9.2.1】用open()函数打开文件
- 【9.2.2】读取文件内容
- 【9.2.3】写入文件
- 【9.3】用shelve模块保存变量(保存python程序中的数据)
- 【9.4】用pprint.pformat()函数保存变量
- 【9.4.1】shelve与pprint.pformat区别
- 【9.5】小结
【README】
本文总结自《python编程快速上手-让繁琐工作自动化》第9章,非常棒的一本书,墙裂推荐;
【9】读写文件
【9.1】文件与文件路径
【9.1.1】windows操作系统上的倒(反)斜杠与linux及macOS上的正斜杠
1)路径分隔符:
- windows系统: 路径书写使用倒斜杠\ 作为文件夹之间的分隔符;
- linux及macOS系统:路径书写使用正斜杠/ 作为文件夹之间的分隔符;
2)使用pathlib模块的Path()函数来处理非常简单:
- 传入单个文件或文件夹名称给Path,它会返回一个文件路径的字符串
from pathlib import Path # 导入标准库 pathlib 中的 Path 类 print('\n\n=== pathlib模块的Path()函数打印路径分隔符')
print(Path('a', 'b', 'c')) # a\b\c
print(type(Path('a', 'b', 'c'))) # <class 'pathlib.WindowsPath'>
【补充】 导入pathlib的惯例是运行 from pathlib import Path,如果不这样做,我们就必须通过 pathlib.Path 来使用Path()函数;
- 当使用正斜杠表示文件或文件夹路径时,pathlib能够确保该路径运行在所有操作系统上;
3)把文件名称连接到文件夹名称末尾
# 把文件名称连接到文件夹名称末尾
print('\n\n===把文件名称连接到文件夹名称末尾')
myFiles = ['a.txt', 'b.txt']
for fileName in myFiles:print(Path(r'D:\studynote\05-python_discover\file', fileName))# D:\studynote\05-python_discover\file\a.txt
# D:\studynote\05-python_discover\file\b.txt
【9.1.2】使用/运算符 连接路径
1)使用/ 运算符连接路径时: 需要注意的是, 前两个值中有一个必须是 Path对象;
# 9.1.2 使用/运算符连接路径
print(Path('a') / 'b' / 'c') # a\b\c
【9.1.3】当前工作目录
# 9.1.3 当前工作目录 使用Path.cwd()函数获取
print('\n\n===当前工作目录:', Path.cwd())
# D:\studynote\00-ai-llm\workbench\PythonBasicStudy\chapter09_rw_file
【9.1.4】主目录
# 9.1.4 Path.home() 主目录
print(Path.home()) # C:\Users\xxx
【9.1.5】绝对路径与相对路径
1)有两种方法可以指定文件路径:
- 绝对路径: 总是从根文件夹开始;
- 相对路径:相对于程序的当前工作目录;
2)文件夹的特殊标识:
- 点号(.)表示文件夹时:表示当前这个文件夹;(如 a.txt 与 .\a.txt 是同一个文件)
- 两个点号(…) 表示文件夹时:表示父文件夹;
【9.1.6】用 os.makedirs() 创建新文件夹
# 使用os.makedirs 创建新文件夹(同时创建多个嵌套子文件夹)
print('\n\n=== 使用os.makedirs 创建新文件夹(同时创建多个嵌套子文件夹)')
import os
os.makedirs(str(Path.cwd()) + '/d2/d22/d222')
# mkdir()只能创建一个目录
Path(Path.cwd() / 'e2').mkdir()
1)若重复执行,则报错如下:
FileExistsError: [WinError 183] 当文件已存在时,无法创建该文件。: 'D:\\studynote\\00-ai-llm\\workbench\\PythonBasicStudy\\chapter09_rw_file/d2/d22/d222'# 或者FileExistsError: [WinError 183] 当文件已存在时,无法创建该文件。: 'D:\\studynote\\00-ai-llm\\workbench\\PythonBasicStudy\\chapter09_rw_file\\e2'
2)如何安全执行 os.makedirs() 与 Path().mkdir ,若path对象表示的文件或文件夹存在,则不创建; (重点-文件夹或文件,有则跳过无则不创建)
def diy_makedirs_if_not_exist(path):if not path.exists():os.makedirs(path)def diy_mkdir_if_not_exist(path):if not path.exists():path.mkdir()# 创建嵌套子文件夹
diy_makedirs_if_not_exist(Path.cwd() / '/d4/d44/d444')
# 创建单个文件夹
diy_mkdir_if_not_exist(Path.cwd() / '/e4')
【9.1.7】处理绝对路径与相对路径
1)判断是否绝对路径:调用 Path.is_absolute() 方法;
print(Path.cwd().is_absolute()) # True# 从相对路径获取绝对路径
print('\n\n===从相对路径获取绝对路径(把 Path.cwd()放在相对路径Path对象的前面)')
print(Path('d1/d2/d3')) # d1\d2\d3
print(Path.cwd() / Path('d1/d2/d3'))
# D:\studynote\00-ai-llm\workbench\PythonBasicStudy\chapter09_rw_file\d1\d2\d3
2)os.path 模块提供了一些有用的函数:
- os.path.abspath(path): 返回参数的绝对路径的字符串; 这是把相对路径转为绝对路径的简单方法;
- os.path.isabs(path) : 若参数path是一个绝对路径,则返回True; 若是相对路径,则返回False;
- os.path.relpath(path, start) 返回从开始路径start到path的相对路径的字符串; 若没有提供start开始路径,则把当前工作目录作为开始路径;
# os.path() 提供的一些函数
print('\n\n===os.path() 提供的一些函数')
absolutePath = Path.cwd() / Path('d1/d2/d3')
relativePath = Path('d1/d2/d3')# 返回参数的绝对路径的字符串
print(os.path.abspath(absolutePath))
# 若参数path是一个绝对路径,则返回True; 若是相对路径,则返回False
print(os.path.isabs(absolutePath))
# 返回从开始路径start到path的相对路径的字符串; 若没有提供start开始路径,则把当前工作目录作为开始路径
print(os.path.relpath(absolutePath))# D:\studynote\00-ai-llm\workbench\PythonBasicStudy\chapter09_rw_file\d1\d2\d3
# True
# d1\d2\d3
【9.1.8】取得文件路径的各个部分
1)文件路径的各个部分包括以下内容:
- 锚点:文件系统根文件夹;如 /
- 驱动器:windows系统,驱动器表示物理硬盘驱动器或其他存储设备;如C盘
- 父文件夹:当前文件的上一级文件夹; 如 spam.txt的父文件夹是 AI
- 文件名: 由主干名-stem(或基本名称)和后缀名suffix(或扩展名)构成; 如spam.txt
【注意】windows操作系统中的Path对象具体drive属性, 而maxOS和Linux操作系统的Path对象没有, 其中drive属性不包含第一个倒斜杠\;
print('\n\n=== 取得文件路径的各个部分')
filePath01 = Path(Path.cwd() / Path('a1/a1_temp.txt'))
print('file01.anchor = ' + filePath01.anchor)
print('file01.parent = ' + str(filePath01.parent))
print('file01.name = ' + filePath01.name)
print('file01.stem = ' + filePath01.stem) # stem表示主干名,即基本文件名(不包括后缀)
print('file01.suffix = ' + filePath01.suffix)
print('file01.drive = ' + filePath01.drive)# file01.anchor = D:\
# file01.parent = D:\studynote\00-ai-llm\workbench\PythonBasicStudy\chapter09_rw_file\a1
# file01.name = a1_temp.txt
# file01.stem = a1_temp
# file01.suffix = .txt
# file01.drive = D:
2)使用os.path的函数
print('\n\n=== 使用os.path的函数')
filePath01 = Path(Path.cwd() / Path('a1/a1_temp.txt'))
print(os.path.dirname(filePath01)) # os.path..dirname() 返回Path对象最后一个斜杠之前的所有内容
print(os.path.basename(filePath01)) # os.path.basename() 返回Path对象最后一个斜杠之后的所有内容
print(os.path.split(filePath01))
print(str(filePath01).split(os.sep)) # 通过字符串分割# D:\studynote\00-ai-llm\workbench\PythonBasicStudy\chapter09_rw_file\a1
# a1_temp.txt
# ('D:\\studynote\\00-ai-llm\\workbench\\PythonBasicStudy\\chapter09_rw_file\\a1', 'a1_temp.txt')
# ['D:', 'studynote', '00-ai-llm', 'workbench', 'PythonBasicStudy', 'chapter09_rw_file', 'a1', 'a1_temp.txt']
【9.1.9】查看文件大小和文件夹内容
# 查看文件大小和文件夹内容
print('\n\n===查看文件大小和文件夹内容')
filePath01 = Path(Path.cwd() / Path('a1/a1_temp.txt'))
print(os.path.getsize(filePath01)) # 34
print(os.listdir(Path.cwd())) # ['a01.txt', 'a02.txt', 'a1', 'd1', 'd2', 'd3', 'e2', 'temp01_binary.data.bak', 'temp01_binary.data.dat', 'temp01_binary.data.dir', 'temp02.py', 'test01', 'test09_rw_file.py', '__pycache__']
【补充】 os.listdir(Path) 返回包含path参数中的每个文件或文件夹;
1)练习题:计算某个文件夹下文件总大小
print('\n\n===计算某个文件夹下文件总大小')
totalSize = 0
for fileName in os.listdir(Path.cwd()):tempPath = os.path.join(Path.cwd(), fileName)print(str(tempPath) + '的文件大小=' + str(os.path.getsize(tempPath)))totalSize += os.path.getsize(tempPath)
print('文件总大小 = ' + str(totalSize))# ===计算某个文件夹下文件总大小
# D:\studynote\00-ai-llm\workbench\PythonBasicStudy\chapter09_rw_file\a01.txt的文件大小=128
# D:\studynote\00-ai-llm\workbench\PythonBasicStudy\chapter09_rw_file\a02.txt的文件大小=3
# D:\studynote\00-ai-llm\workbench\PythonBasicStudy\chapter09_rw_file\a1的文件大小=0
# D:\studynote\00-ai-llm\workbench\PythonBasicStudy\chapter09_rw_file\d1的文件大小=0
# D:\studynote\00-ai-llm\workbench\PythonBasicStudy\chapter09_rw_file\d2的文件大小=0
# D:\studynote\00-ai-llm\workbench\PythonBasicStudy\chapter09_rw_file\d3的文件大小=0
# D:\studynote\00-ai-llm\workbench\PythonBasicStudy\chapter09_rw_file\e2的文件大小=0
# D:\studynote\00-ai-llm\workbench\PythonBasicStudy\chapter09_rw_file\temp01_binary.data.bak的文件大小=19
# D:\studynote\00-ai-llm\workbench\PythonBasicStudy\chapter09_rw_file\temp01_binary.data.dat的文件大小=39
# D:\studynote\00-ai-llm\workbench\PythonBasicStudy\chapter09_rw_file\temp01_binary.data.dir的文件大小=19
# D:\studynote\00-ai-llm\workbench\PythonBasicStudy\chapter09_rw_file\temp02.py的文件大小=86
# D:\studynote\00-ai-llm\workbench\PythonBasicStudy\chapter09_rw_file\test01的文件大小=0
# D:\studynote\00-ai-llm\workbench\PythonBasicStudy\chapter09_rw_file\test09_rw_file.py的文件大小=8270
# D:\studynote\00-ai-llm\workbench\PythonBasicStudy\chapter09_rw_file\__pycache__的文件大小=0
# 文件总大小 = 8564
【9.1.10】使用通配符模式修改文件列表
1)Path对象具有glob() 方法,用于根据通配符glob模式,列出文件夹的内容;
- 通配符glob模式: 类似于正则表达式的简化形式;
- glob()方法返回一个生成器对象,把生成器对象传给list()函数
print('\n\n===使用通配符模式修改文件列表')
dirPath = Path.cwd()
list01 = list(dirPath.glob('*.txt'))
print(list01)
# [WindowsPath('D:/studynote/00-ai-llm/workbench/PythonBasicStudy/chapter09_rw_file/a01.txt'),
# WindowsPath('D:/studynote/00-ai-llm/workbench/PythonBasicStudy/chapter09_rw_file/a02.txt')]
【9.1.11】检查路径的有效性
1)当我们调用文件处理函数时,若传入的path路径不存在,则程序会抛异常;
2)为避免抛出文件操作异常,Path对象提供了判断路径是否存在,Path对象指向的是文件还是文件夹;
print('\n\n===检查路径有效性')
filePath01 = Path(Path.cwd() / Path('a1/a1_temp.txt'))
print(filePath01.exists()) # True
print(filePath01.is_file()) # True
print(filePath01.is_dir()) # False
【9.2】文件读写过程
1) pathlib模块读写函数;
- read_text() :读取文本文件的全部内容;
- write_text(…) :利用传递的字符串创建一个新的文本文件(或覆盖现有文件)
print('\n\n===文件读写过程')
filePath01 = Path(Path.cwd() / Path('a1/a2_temp.txt'))
filePath01.write_text('hello, my name is a2_temp.txt. now=' + str(datetime.datetime.now()))
print(filePath01.read_text()) # hello, my name is a2_temp.txt.
【9.2.1】用open()函数打开文件
1)open()函数:返回值是一个File对象;
print('\n\n=== 使用open函数打开文件对象')
tempFile01 = open(Path(Path.cwd() / Path('a1/a2_temp.txt')))
tempFile02 = open(Path(Path.cwd() / Path('a1/a2_temp.txt')), 'r')
【补充】open()函数默认使用r-读模式, 也可以显式传入r或w-写模式;
【9.2.2】读取文件内容
1)调用 file对象的read()方法:读取文件内容;
2)调用file对象的readlines()方法: 从文件获取字符串列表,而列表中的每个字符串都是文本中的每一行;
print('\n\n=== 使用open函数打开文件对象')
tempFile01 = open(Path(Path.cwd() / Path('a1/a2_temp.txt')))
tempFile02 = open(Path(Path.cwd() / Path('a1/a2_temp.txt')), 'r')
# File.read() 把文件内容读取为一个字符串
print(tempFile01.read())
print(tempFile02.read())
# hello, my name is a2_temp.txt. now=2025-03-25 22:26:52.686045
# hello, my name is a2_temp.txt. now=2025-03-25 22:26:52.686045# 读取文件的行
print('\n\n===读取文件的行')
tempFile03 = open(Path(Path.cwd() / Path('a01.txt')), 'r')
print(tempFile03.readlines())
# ['hello zhangsan.\n', ' my name is a01.txt 2025-03-25 22:26:45.921792\n', 'hello zhangsan.\n', ' my name is a01.txt 2025-03-25 22:26:45.922780']
【9.2.3】写入文件
1) 写入文件 ,有2种模式: 写模式-w, 追加模式-a;
- 写模式:覆盖原有文件;
- 追加模式:在已有文件的末尾添加文本;
2)补充:
- 如果传给open()函数的文件名不存在,则写模式和追加模式都会创建一个新的空文件;
- 在读取或写入文件后,调用close()方法, 才能再次打开该文件;
print('\n\n===写入文件后读取文件,写模式-w')
tempFile03 = open(Path(Path.cwd() / Path('a01.txt')), 'w')
tempFile03.write('hello zhangsan.\n my name is a01.txt ' + str(datetime.datetime.now()))
tempFile03.close()
# 读取写入后的文件
tempFile03 = open(Path(Path.cwd() / Path('a01.txt')), 'r')
print(tempFile03.readlines())
# ['hello zhangsan.\n', ' my name is a01.txt 2025-04-04 09:49:07.844177']print('\n\n===写入文件后读取文件,追加模式-a')
tempFile03 = open(Path(Path.cwd() / Path('a01.txt')), 'a')
tempFile03.write('\nhello zhangsan.\n my name is a01.txt ' + str(datetime.datetime.now()))
tempFile03.close()
# 读取写入后的文件
tempFile03 = open(Path(Path.cwd() / Path('a01.txt')), 'r')
print(tempFile03.readlines())
# ['hello zhangsan.\n', ' my name is a01.txt 2025-04-04 09:49:07.844177\n', 'hello zhangsan.\n', ' my name is a01.txt 2025-04-04 09:49:07.846173']
【9.3】用shelve模块保存变量(保存python程序中的数据)
1)利用 shelve模块,可以把python程序中的变量保存到二进制的shelf文件中;下次运行时程序可以加载它们,如保存对象到shelf文件,然后通过程序再次加载这些变量到运行时环境;(类似于java的序列化与反序列化)
import shelve
print('\n\n=== 把变量保存到二进制的shelf文件')
shelfFile = shelve.open(str(Path.cwd() / Path('temp01_binary.data')))
colors = ['red', 'green', 'yellow']
shelfFile['colors'] = colors
shelfFile.close()print('\n\n=== 从二进制shelf文件读取保存的变量')
shelfFile = shelve.open(str(Path.cwd() / Path('temp01_binary.data')))
print(type(shelfFile))
print(shelfFile['colors'])
shelfFile.close()# <class 'shelve.DbfilenameShelf'>
# ['red', 'green', 'yellow']# 如字典一样, shelf文件有keys() values方法
print('\n\n=== 如字典一样, shelf文件有keys() values方法')
shelfFile = shelve.open(str(Path.cwd() / Path('temp01_binary.data')))
print(shelfFile.keys())
print(shelfFile.values())
shelfFile.close()
# KeysView(<shelve.DbfilenameShelf object at 0x000001EB98E80920>)
# ValuesView(<shelve.DbfilenameShelf object at 0x000001EB98E80920>)
【9.4】用pprint.pformat()函数保存变量
1)pformat:顾名思义,格式化;
2)pprint.pformat():作用类似于java中fastjson的toJSONString()函数,把python对象格式化为字符串;
import pprint
print('\n\n===使用pprint.pformat() 保存变量到文本文件')
customers = [{'name': 'zhangsan', 'addr': 'cd03'}, {'name': 'lisi', 'addr': 'cd04'}]
pprint.pprint(customers)
# [{'addr': 'cd03', 'name': 'zhangsan'}, {'addr': 'cd04', 'name': 'lisi'}]
fileObj = open(Path.cwd() / Path('temp02.py'), 'w')
fileObj.write('customers = ' + pprint.pformat(customers) + '\n')
fileObj.close()# 读取保存的文本文件中的变量
print('\n\n===读取保存的文本文件中的变量')
import temp02
print(temp02.customers)
# [{'addr': 'cd03', 'name': 'zhangsan'}, {'addr': 'cd04', 'name': 'lisi'}]
【9.4.1】shelve与pprint.pformat区别
对于大多数应用,利用shelve模块来保存数据是将变量保存到文件的最佳方式(数据是二进制的字节数组,无法可视化);
只有基本数据类型,才可以使用pprint.pformat把变量作为简单文本写入一个文件,如整型,浮点型,字符串,列表,字典;
【9.5】小结
1)pathlib和os.path模块包含许多用于操作文件路径的函数;
2)程序可以直接操作文本文件的内容;
- open()函数打开文件,使用read()方法读取文件内容为一个大的字符串;或使用readlines()读取为字符串列表;
- open()函数可以将文件以写模式或添加模式打开,分别用于创建新的文本文件或在原有文件中追加内容;