使用requests和BeautifulSoup的Python爬虫示例

2025/2/23 8:00:27 来源：https://blog.csdn.net/2401_85240630/article/details/144339656 浏览: 次关键词：使用requests和BeautifulSoup的Python爬虫示例

标题“使用requests和BeautifulSoup的Python爬虫示例”清晰地指出了这个Python脚本的主要功能和所使用的库。以下是一个基于这个标题的Python爬虫代码示例，它展示了如何使用requests库发送HTTP请求，并使用BeautifulSoup库解析HTML内容来抓取网页上的特定信息。

import requests
from bs4 import BeautifulSoup# 目标网页的URL
url = 'https://example.com/some-page'  # 请将此URL替换为实际要抓取的网页URL# 发送HTTP GET请求
response = requests.get(url)# 检查请求是否成功
if response.status_code == 200:# 解析HTML内容soup = BeautifulSoup(response.content, 'html.parser')# 示例：抓取网页中的所有文章标题（假设文章标题在<h2>标签内）article_titles = []for h2 in soup.find_all('h2'):title = h2.get_text(strip=True)  # 获取标题文本并去除前后空白article_titles.append(title)# 打印抓取到的文章标题for idx, title in enumerate(article_titles, start=1):print(f'{idx}. {title}')
else:print(f'请求失败，状态码：{response.status_code}')

在这个示例中：

我们导入了requests和BeautifulSoup库。
设置了一个目标网页的URL（请替换为实际URL）。
使用requests.get(url)发送GET请求到目标网页。
检查响应的状态码，如果为200则表示请求成功。
使用BeautifulSoup解析响应的HTML内容。
查找所有的<h2>标签，并提取其中的文本作为文章标题。
将所有抓取到的标题存储在一个列表中，并打印出来。

请注意，这个示例仅用于演示如何使用requests和BeautifulSoup进行网页抓取。在实际应用中，你可能需要根据目标网页的具体结构进行相应的调整，并遵守相关的法律法规和网站的robots.txt文件。此外，对于动态加载的内容或需要登录才能访问的页面，你可能还需要使用其他技术或工具（如Selenium、机械人流程自动化等）。

使用requests和BeautifulSoup的Python爬虫示例

相关资讯

热文排行

最新新闻

推荐新闻

热搜词