初识爬虫1

初识爬虫1

2025/2/23 14:02:43 来源：https://blog.csdn.net/2301_77869606/article/details/142098845 浏览: 次关键词：初识爬虫1

学习路线：爬虫基础知识-requests模块-数据提取-selenium-反爬与反反爬-MongoDB数据库-scrapy-appium。

对应视频链接(百度网盘)：正在整理中

爬虫基础知识：

1.爬虫的概念

总结：模拟浏览器，发送请求，获取响应。
2.爬虫的作用
        数据采集
        软件测试
        抢票
        网站上的投票
        网络安全
3.爬虫的分类
        数量
        是否获取数据
        url与数据的关系

4.爬虫的流程
        url
        发请求，获取响应
        解析

5.http复习
        http以及https的概念和区别
        HTTPSH比HTTP更安全，但是性能更低
6.常见的请求头与响应头
请求头
host                                         域名
Connection                                     长连接
Upgrade-Insecure-Requests 升级为HTTPS请求
***User-Agent                                 用户代理，提供系统信息和浏览器信息
***Referer 页面跳转处，防盗链(图片/视频)
***Cookie 状态保持
响应头 Set-Cookie
7.状态码
所有的状态码都不可信，一切以是否从抓包得到的响应中获取到数据为准
network中抓包得到的源码才是判断依据，elements中的源码是渲染之后的源码

8.浏览器请求的过程
发送所有请求，进行渲染
爬虫
只发送指定请求，不会渲染

骨骼文件：html静态文件
肌肉文件：js/ajax请求
皮肤：css/font/图片

源代码控制台所有源代码响应

Network：点刷新，可以看到响应

相关资讯

热文排行

最新新闻

推荐新闻

热搜词