标题“使用requests和BeautifulSoup的Python爬虫示例”清晰地指出了这个Python脚本的主要功能和所使用的库。以下是一个基于这个标题的Python爬虫代码示例,它展示了如何使用requests
库发送HTTP请求,并使用BeautifulSoup
库解析HTML内容来抓取网页上的特定信息。
import requests
from bs4 import BeautifulSoup# 目标网页的URL
url = 'https://example.com/some-page' # 请将此URL替换为实际要抓取的网页URL# 发送HTTP GET请求
response = requests.get(url)# 检查请求是否成功
if response.status_code == 200:# 解析HTML内容soup = BeautifulSoup(response.content, 'html.parser')# 示例:抓取网页中的所有文章标题(假设文章标题在<h2>标签内)article_titles = []for h2 in soup.find_all('h2'):title = h2.get_text(strip=True) # 获取标题文本并去除前后空白article_titles.append(title)# 打印抓取到的文章标题for idx, title in enumerate(article_titles, start=1):print(f'{idx}. {title}')
else:print(f'请求失败,状态码:{response.status_code}')
在这个示例中:
- 我们导入了
requests
和BeautifulSoup
库。 - 设置了一个目标网页的URL(请替换为实际URL)。
- 使用
requests.get(url)
发送GET请求到目标网页。 - 检查响应的状态码,如果为200则表示请求成功。
- 使用
BeautifulSoup
解析响应的HTML内容。 - 查找所有的
<h2>
标签,并提取其中的文本作为文章标题。 - 将所有抓取到的标题存储在一个列表中,并打印出来。
请注意,这个示例仅用于演示如何使用requests
和BeautifulSoup
进行网页抓取。在实际应用中,你可能需要根据目标网页的具体结构进行相应的调整,并遵守相关的法律法规和网站的robots.txt文件。此外,对于动态加载的内容或需要登录才能访问的页面,你可能还需要使用其他技术或工具(如Selenium、机械人流程自动化等)。