欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 新闻 > 社会 > Python爬取城市天气信息,并存储到csv文件中

Python爬取城市天气信息,并存储到csv文件中

2025/1/4 18:52:55 来源:https://blog.csdn.net/qq_38739906/article/details/144766685  浏览:    关键词:Python爬取城市天气信息,并存储到csv文件中

1.爬取的网址为:天气网 (weather.com.cn)

2.需要建立Weather.txt文件,并在里面加入如下形式的字段:

101120701=济宁
101010100=北京

3.代码运行后,在命令行输入Weather.txt文件中添加过的城市,如:济宁。

4.生成的内容存储到csv文件中,形式如下所示:

5.具体代码如下:

# -*- coding:utf-8 -*-
"""
作者:青鸟飞啊555
日期:2024年12月26日
"""
import requests
import csv
import random
import time
import socket
import http.client
from bs4 import BeautifulSoup
import os# 获取桌面路径
desktop_path = os.path.join(os.path.expanduser("~"), "Desktop")# 创建一个保存天气信息的文件夹
save_folder = os.path.join(desktop_path, "Weather")
os.makedirs(save_folder, exist_ok=True)  # 如果文件夹不存在则创建#  获取每个城市对应天气的url
def get_url(city_name):url = 'https://www.weather.com.cn/weather/'with open(save_folder+'\\'+'Weather.txt', 'r', encoding='UTF-8') as fs:lines = fs.readlines()for line in lines:if (city_name in line):code = line.split('=')[0].strip()# print(code)return url + code + '.shtml'raise ValueError('invalid city name')#  对网页获取get请求,得到的是response对象
def get_content(url, data=None):#  模拟浏览器访问header = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Accept-Encoding': 'gzip, deflate, sdch','Accept-Language': 'zh-CN,zh;q=0.8','Connection': 'keep-alive','User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.235'}#  超时,取随机数是因为防止被网站认定为网络爬虫timeout = random.choice(range(80, 180))while True:try:#  获取请求数据rep = requests.get(url, headers=header, timeout=timeout)rep.encoding = 'utf-8'breakexcept socket.timeout as e:print('3:', e)time.sleep(random.choice(range(8, 15)))except socket.error as e:print('4:', e)time.sleep(random.choice(range(20, 60)))except http.client.BadStatusLine as e:print('5:', e)time.sleep(random.choice(range(30, 80)))except http.client.BadStatusLine as e:print('6:', e)time.sleep(random.choice(range(5, 15)))return rep.text# 获取html中我们所需要的字段:
def get_data(html_text, city_name):#  final元组存放七天的数据final = []t = []t.append(city_name)final.append(t)bs = BeautifulSoup(html_text, "html.parser")  # 创建BeautifulSoup对象,解析器为:html.parserbody1 = bs.body  # 获取body部分#  print(body1)data = body1.find('div', {'id': '7d'})  # 找到id为7d的divprint(data)ul = data.find('ul')  # 获取ul部分li = ul.find_all('li')  # 获取所有的lifor day in li:  # 对每个li标签中的内容进行遍历# temp代存每日的数据temp = []#  添加日期data = day.find('h1').string  # 找到日期temp.append(data)  # 添加到temp中inf = day.find_all('p')  # 找到li中的所有p标签#  添加天气状况temp.append(inf[0].string)  # 第一个p标签中的内容(天气状况)加到temp中#  添加最高气温if inf[1].find('span') is None:temperature_highest = None  # 天气当中可能没有最高气温(傍晚)else:temperature_highest = inf[1].find('span').string  # 找到最高气温temperature_highest = temperature_highest.replace('℃', '')temp.append(temperature_highest)  # 将最高温添加进去# 添加最低气温temperature_lowest = inf[1].find('i').string  # 找到最低温temperature_lowest = temperature_lowest.replace('℃', '')  # 最低温度后面有个℃,去掉这个符号temp.append(temperature_lowest)  # 将最低温添加上去final.append(temp)  # 将temp 加到final中return final# 将抓取出来的数据写入文件
def write_data(city_name, data, file_name):with open(file_name, 'a', errors='ignore', newline='') as f:f_csv = csv.writer(f)f_csv.writerows(data)print('%s 天气已添加成功' % city_name)if __name__ == '__main__':cities = input('请输入城市名称(一个或多个,以空格隔开): ').split(' ')for city in cities:url = get_url(city)  # 获取城市天气的urlhtml = get_content(url)  # 获取网页htmlresult = get_data(html, city)  # 爬去城市的信息write_data(city, result, save_folder + '\\' + 'weather.csv')  # 将爬取得信息填入表格文件

注:参考python3 爬虫—爬取天气预报多个城市七天信息(三)_抓取七天数据所在的li标签-CSDN博客

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com