Python爬虫：urllib_ajax的get请求豆瓣电影前十页(08)

2026/4/2 14:49:05 来源：https://blog.csdn.net/Ricky_youngone/article/details/143104600 浏览: 次关键词：Python爬虫：urllib_ajax的get请求豆瓣电影前十页(08)

# https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&
# start=0&limit=20
import urllib.parse
import urllib.request# 下载豆瓣电影前10页的数据
# （1）请求对象的定制
# （2）获取响应的数据
# （3）下载数据def create_request(page):base_url = 'https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&'data = {'start':(page - 1) * 20,'limit':20}data = urllib.parse.urlencode(data)url = base_url + dataheaders = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36'}request = urllib.request.Request(url=url, headers=headers)return requestdef get_content(request):response = urllib.request.urlopen(request)content = response.read().decode('utf-8')return contentdef down_load(page, content):with open('douban_' + str(page) + '.json', 'w', encoding='utf-8') as fp:fp.write(content)#程序的入口
if __name__=='__main__':start_page = int(input('请输入起始的页码'))end_page = int(input('请输入结束的页码'))for page in range(start_page, end_page + 1):
#       每一页都有自己的请求对象的定制request = create_request(page)
#       获取响应的数据content = get_content(request)
#       下载down_load(page, content)

这个就是一个综合型的应用了，这个需要扎实的基本功和对于函数调用的理解，然后根据函数的编写去做一个页面的爬取，我们要先分析好网址域名和后面的参数的组成规律，然后再去爬取，在这里的前提先了解，怎么找到这个网址，到浏览器里面检查的network，往豆瓣网站往下拉，去寻找一个含有list的文件，在里面找请求的url，找到如下

网址已做拆分

豆瓣网站的第一页

# https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&
# start=0&limit=20

豆瓣网址的第二页

# https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&
# start=20&limit=20

豆瓣网址的第三页

# https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&
# start=40&limit=20

我们发现页面和start是有规律可循的

规律就是（page - 1）* 20

然后编写代码就好

拆分成三个大部分。