用selenium爬取动态网页

2025/4/19 11:48:44 来源：https://blog.csdn.net/roc_ever/article/details/140491486 浏览: 次关键词：用selenium爬取动态网页

Selenium 是一个用于自动化 Web 浏览器的工具，适用于爬取动态网页。下面是一个使用 Python 和 Selenium 爬取动态网页的示例。假设我们要爬取一个加载动态内容的网页，并提取其中的一些数据。

环境准备
首先，确保你已经安装了以下工具：

Python：确保安装了 Python 3.x。
Selenium：使用以下命令安装 Selenium。

pip install selenium

浏览器驱动：Selenium 需要浏览器驱动来与浏览器进行交互。以 Chrome 为例，你需要下载 ChromeDriver 并将其添加到系统路径中。
示例代码
下面是一个使用 Selenium 爬取动态网页的示例代码：

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC# 配置 WebDriver（这里以 Chrome 为例）
options = webdriver.ChromeOptions()
options.add_argument("--headless")  # 无头模式
driver = webdriver.Chrome(executable_path='/path/to/chromedriver', options=options)# 目标网页
url = 'https://example.com/dynamic-content'try:# 打开目标网页driver.get(url)# 等待网页中的动态内容加载完毕（以某个元素的出现为标志）element_present = EC.presence_of_element_located((By.ID, 'element-id'))WebDriverWait(driver, 10).until(element_present)# 查找并提取所需的数据（这里以提取某个元素的文本为例）element = driver.find_element(By.ID, 'element-id')data = element.textprint(f'Extracted data: {data}')# 如果需要处理更多动态加载的内容，可以重复上述操作# 例如，点击某个按钮加载更多内容：# load_more_button = driver.find_element(By.ID, 'load-more-button')# load_more_button.click()# WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.ID, 'new-element-id')))# new_element = driver.find_element(By.ID, 'new-element-id')# new_data = new_element.text# print(f'Extracted new data: {new_data}')finally:# 关闭 WebDriverdriver.quit()

用selenium爬取动态网页

相关资讯

热文排行

最新新闻

推荐新闻

热搜词