Python精选200Tips：121-125

2024/10/24 22:20:35 来源：https://blog.csdn.net/qq_32882309/article/details/142138187 浏览: 次关键词：Python精选200Tips：121-125

Spend your time on self-improvement

121 Requests - 简化的 HTTP 请求处理
- - - 发送 GET 请求
    - 发送 POST 请求
    - 发送 PUT 请求
    - 发送 DELETE 请求
    - 会话管理
    - 处理超时
    - 文件上传
122 Beautiful Soup - 网页解析和抓取
- - - 解析 HTML 和 XML 文档
    - 查找单个标签
    - 查找多个标签
    - 使用 CSS 选择器查找标签
    - 提取文本
    - 修改文档内容
    - 删除标签
    - 处理 XML 文档
123 Scrapy - 强大的网络爬虫框架
- - - 示例：爬取名言网站，提取名言、作者和标签
    - - (1) 创建 Scrapy 项目
      - (2) 定义 Item
      - (2) 创建 Pipeline
      - (3) 创建爬虫
      - (4) 配置 Settings
      - (5) 运行爬虫
      - (6) 结果
124 jsonschema - JSON 数据验证工具
- - - 数据验证
    - 错误处理
125 Selenium - 自动化 Web 浏览器的工具
- - - 示例：打开网页并提取数据

运行系统：macOS Sonoma 14.6.1
Python编译器：PyCharm 2024.1.4 (Community Edition)
Python版本：3.12

往期链接：

1-5	6-10	11-20	21-30	31-40	41-50

51-60：函数	61-70：类	71-80：编程范式及设计模式

81-90：Python编码规范	91-100：Python自带常用模块-1

101-105：Python自带模块-2	106-110：Python自带模块-3

111-115：Python常用第三方包-频繁使用	116-120：Python常用第三方包-深度学习

本文只介绍每个包主要做什么及一些比较经典的示例。对于包的进一步学习，推荐参考对应包的官方文档。

121 Requests - 简化的 HTTP 请求处理

Requests版本2.32.3，官方文档

Requests 模块是一个用于发送 HTTP 请求的 Python 库，它非常易于使用，可以处理各种类型的网络请求。以下是 Requests 模块的主要功能说明以及相应的示例。

发送 GET 请求

用于获取资源。

import requestsresponse = requests.get('https://jsonplaceholder.typicode.com/posts')
print("Status Code:", response.status_code)
print("Response Body:", response.json())

发送 POST 请求

用于提交数据到服务器。

import requestsdata = {'title': 'foo','body': 'bar','userId': 1
}
response = requests.post('https://jsonplaceholder.typicode.com/posts', json=data)
print("Status Code:", response.status_code)
print("Response Body:", response.json())

发送 PUT 请求

用于更新资源。

import requestsdata = {'id': 1,'title': 'updated title','body': 'updated body','userId': 1
}
response = requests.put('https://jsonplaceholder.typicode.com/posts/1', json=data)
print("Status Code:", response.status_code)
print("Response Body:", response.json())

发送 DELETE 请求

用于删除资源。

import requestsresponse = requests.delete('https://jsonplaceholder.typicode.com/posts/1')
print("Status Code:", response.status_code)

会话管理

可以使用会话对象来保持某些参数（如 cookies）在请求之间共享。

import requestssession = requests.Session()
session.auth = ('user', 'pass')response = session.get('https://httpbin.org/basic-auth/user/pass')
print(response.status_code)
print(response.json())

处理超时

可以设置请求的超时时间。

import requeststry:response = requests.get('https://jsonplaceholder.typicode.com/posts', timeout=1)print("Response Body:", response.json())
except requests.exceptions.Timeout:print("The request timed out.")

文件上传

支持文件上传功能。

import requestsfiles = {'file': open('test.txt', 'rb')}
response = requests.post('https://httpbin.org/post', files=files)
print("Upload Response:", response.json())

122 Beautiful Soup - 网页解析和抓取

Beautiful Soup版本4.12.3，官方文档， lxml版本5.3.0， html5lib版本1.1
Beautiful Soup 是一个用于从 HTML 和 XML 文件中提取数据的 Python 库。它提供了 Pythonic 的接口来处理网页抓取和解析，方便用户提取和操作数据。以下是 Beautiful Soup 模块的功能点说明以及对应的示例。

解析 HTML 和 XML 文档

from bs4 import BeautifulSouphtml_doc = """
<html>
<head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were 
<a href=