欢迎来到尧图网

客户服务关于我们

您的位置：首页 > 汽车 > 维修 > 简单的Python爬虫实例

简单的Python爬虫实例

2025/4/29 10:53:40 来源：https://blog.csdn.net/qq_25699299/article/details/143286733 浏览: 次关键词：简单的Python爬虫实例

下面是一个简单的Python爬虫实例，用于抓取一个网页的标题。我们将使用requests库来发送HTTP请求，使用BeautifulSoup库来解析HTML。

首先，你需要安装这两个库。如果你还没有安装，可以使用以下命令：

pip install requests
pip install beautifulsoup4

接下来是一个简单的爬虫代码示例：

import requests
from bs4 import BeautifulSoup
# 目标网页URL
url = 'http://example.com'
# 发送HTTP GET请求
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:# 解析HTML内容soup = BeautifulSoup(response.text, 'html.parser')# 查找并打印网页的标题title = soup.find('title').textprint(f'网页标题是: {title}')
else:print(f'请求失败，状态码: {response.status_code}')

代码解释

‌导入库‌：

import requests

from bs4 import BeautifulSoup

‌定义目标网页的URL‌：

url = 'http://example.com'

‌发送HTTP GET请求‌：

response = requests.get(url)

‌检查请求是否成功‌：

if response.status_code == 200:

这里我们检查返回的状态码是否为200，表示请求成功。

‌解析HTML内容‌：

soup = BeautifulSoup(response.text, 'html.parser')

使用BeautifulSoup解析获取的HTML内容。

‌查找并打印网页的标题‌：

title = soup.find('title').text

print(f'网页标题是: {title}')

查找HTML中的<title>标签，并打印其文本内容。

‌处理请求失败的情况‌：

else:

print(f'请求失败，状态码: {response.status_code}')

注意事项

‌爬取频率‌：请不要频繁地爬取同一个网站，以免给网站服务器带来负担。遵守网站的robots.txt规则（通常位于http://example.com/robots.txt），了解允许爬取的内容和频率。

‌法律与道德‌：确保你的爬虫行为符合法律法规和网站的条款与条件。不要爬取敏感信息或侵犯他人隐私。

‌错误处理‌：在实际应用中，添加更多的错误处理机制，例如处理网络异常、超时等。

希望这个简单的示例能帮助你入门Python爬虫开发！

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

相关资讯

热文排行

最新新闻

推荐新闻

热搜词