欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 房产 > 家装 > python爬虫--pyquery解析库整理

python爬虫--pyquery解析库整理

2024/10/26 7:39:34 来源:https://blog.csdn.net/2302_79590880/article/details/141307397  浏览:    关键词:python爬虫--pyquery解析库整理

前言

欢迎来到我的博客

个人主页:北岭敲键盘的荒漠猫-CSDN博客

本文整理python的爬虫解析库pyquery的语法

简洁快速的整理,建议有前端基础的人看

pyquery解析原理

pyquery的原理就是拿到网站的前端源码后,我们根据我们需求信息所在的标签进行筛选。

选出指定类的标签,或者指定id,指定标签内部的标签。

然后再从这些标签中进行提取我们的信息。

pyquery安装

输入命令

pip install pyquery

初始化

1.内置请求,现请求现处理

from pyquery import PyQuery as pq
doc=pq(url="http://xiaodi8.com/",encoding="utf-8")
print(doc("a"))

这里直接用内置的请求方式请求了网站,然后从中挑选出了a标签。

2.从文本中解析源代码

from pyquery import PyQuery as pq
doc=pq(filename="111.txt", encoding="utf-8")
print(doc("a"))

3.利用requests定制请求,再进行解析

from pyquery import PyQuery as pq
import requests
res=requests.get("http://xiaodi8.com/")
res.encoding="utf-8"
doc=pq(res.text)
print(doc("a"))

 

内容解析

之前说过,这个库的原理就是筛选相应内容所在的标签。

那么我们会对筛选标签的准确程度有很高的要求。

所以pyquery直接上了前端jquery的选择器相应的形式。

如果你有前端开发的经验,可以直接上手。

查阅文档:

jQuery 选择器_w3cschool

jquery在线手册|jQuery API中文手册|jQuery速查表|jQuery参考手册|jQuery API|jQuery在线文档|jQuery最新手册

基础用法跟css选择器几乎相同。

.aaa代表选择属于me类的标签

#bbb代表id为bbb的标签

*代表所有标签

from pyquery import PyQuery as pq
import requests
res=requests.get("http://xiaodi8.com/")
res.encoding="utf-8"
doc=pq(res.text)
print(doc("a"))

这串代码中的

doc=pq(res.text)
print(doc("a"))

实例化对象后,直接传入相关的选择规则即可。这里案例是选择出a标签

这里简单一提:具体详细的选择器可以查看文档或者看看我之前整理的css的基础选择器大体了解一下。

css选择器整理-CSDN博客

css复合选择器-CSDN博客 

模糊匹配

有时候可能我们会遇到特别的情况,比如某些标签都有一个id属性。

这些id属性都有某个单词混在里面。

我们需要模糊匹配,就可以用下面模版。

doc('li[id*="hello"]')  #id中含有hello的li标签
doc('li[id^="hello"]')  #id中以hello开头的li标签
doc('li[id$="hello"]')  #id中以hello结尾的li标签

取得数据内容

我们经过上一步内容的解析之后,我们可以看到我们得到的是相关的标签,而不是我们要的内容。

我们要的内容有两种情况,有时我们要的是这个标签中的某个属性,或者有时我们要的实际上就是标签中间的字。这时候就需要我们根据不同的需求来改编代码。

获取目标标签的属性

a标签是超链接,那么超链接通常是带有href指向指定网址的属性。我们尝试获取这些属性。

使用下面代码样式。

#导入库
from pyquery import PyQuery as pq
import requests
#请求网址
res=requests.get("http://xiaodi8.com/")
res.encoding="utf-8"
#实例化对象
doc=pq(res.text)
#筛选出a标签
lista=doc("a")
#把a标签的href属性一次迭代给a并输出
for a in lista.items():print(a.attr("href"))#最后这个代码也可以用这个形式#print(a.attr.href)

获取目标内容

一个标签中间有时是写在里面一些文字内容的。

我们想要提取出来可以用下面模板。

#导入库
from pyquery import PyQuery as pq
import requests
#请求网址
res=requests.get("http://xiaodi8.com/")
res.encoding="utf-8"
#实例化对象
doc=pq(res.text)
#筛选出a标签
lista=doc("a")
#把a标签的href属性一次迭代给a并输出
for a in lista.items():print(a.text())#最后这个代码也可以用这个形式#print(a.html())

案例演示

这里爬取萧瑟迪博客左侧网站导航栏的各个名称案例演示

观察网站样式

本次目标是获取这些导航栏的内容还有对应的网址。

我们观察代码结构

发现这些代码都是在ul标签中的li标签中的a标签。

而在li标签中,都有navbar。

那么思路就是抓取源码,之后筛选id属性有navbar的标签,打印出他指向的网址和标签的内容即可

代码样式

#导入库
from pyquery import PyQuery as pq
import requests
#请求网址
res=requests.get("http://xiaodi8.com/")
res.encoding="utf-8"
#实例化对象
doc=pq(res.text)
#筛选出a标签
lista=doc("ul li[id*='navbar'] a")
#把a标签的href属性一次迭代给a并输出
for a in lista.items():print(a.text(),end="  ")print(a.attr("href"))

比较简单。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com