静态资源介绍 selenium

2024/10/24 20:13:28 来源：https://blog.csdn.net/u014158430/article/details/140017756 浏览: 次关键词：静态资源介绍 selenium

静态资源介绍

静态资源指的是在服务器端生成后，不会在客户端进行动态改变的资源。这些资源在请求时，服务器直接返回内容，客户端只需渲染即可。常见的静态资源包括：

HTML 文件：包含网页的结构和内容。
CSS 文件：定义网页的样式和布局。
JavaScript 文件：提供网页的客户端脚本功能。
图片、音频、视频：多媒体内容。
字体文件：用于网页的自定义字体。

静态资源的优点包括：

性能高：服务器不需要在每次请求时生成内容。
易于缓存：客户端和CDN可以高效缓存静态资源，提高加载速度。
简单性：不涉及复杂的服务器端逻辑。

使用 Selenium 对静态资源进行爬取和整理

Selenium 是一个用于自动化浏览器操作的工具，它可以模拟用户行为，如点击、输入、滚动等。尽管 Selenium 通常用于处理动态内容，但它也能用于爬取和整理静态资源。以下是一个示例方案，展示如何使用 Selenium 爬取网页的静态资源，并对其进行解析和整理。

安装依赖

首先，需要安装 Selenium 和一个 WebDriver（以 Chrome 为例）：

pip install selenium

下载 ChromeDriver，并将其添加到系统 PATH。

爬取静态资源的示例代码

以下代码示例展示了如何使用 Selenium 爬取网页上的静态资源（如图片和 CSS 文件），并将其整理存储：

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
import os
import requests
from urllib.parse import urljoin, urlparse# 配置 WebDriver
chrome_service = Service(executable_path='/path/to/chromedriver')  # 将此路径替换为你的 ChromeDriver 路径
driver = webdriver.Chrome(service=chrome_service)# 目标网址
url = 'https://example.com'# 打开目标网址
driver.get(url)# 创建目录以保存资源
output_dir = 'static_resources'
if not os.path.exists(output_dir):os.makedirs(output_dir)# 获取所有的图片
images = driver.find_elements(By.TAG_NAME, 'img')
for img in images:src = img.get_attribute('src')if src:# 解析图片 URLimg_url = urljoin(url, src)img_data = requests.get(img_url).content# 保存图片img_name = os.path.join(output_dir, os.path.basename(urlparse(img_url).path))with open(img_name, 'wb') as f:f.write(img_data)print(f'Image saved: {img_name}')# 获取所有的 CSS 文件
links = driver.find_elements(By.TAG_NAME, 'link')
for link in links:if link.get_attribute('rel') == 'stylesheet':href = link.get_attribute('href')if href:# 解析 CSS URLcss_url = urljoin(url, href)css_data = requests.get(css_url).content# 保存 CSS 文件css_name = os.path.join(output_dir, os.path.basename(urlparse(css_url).path))with open(css_name, 'wb') as f:f.write(css_data)print(f'CSS file saved: {css_name}')# 关闭浏览器
driver.quit()