python爬取中国天气网信息并保存为csv格式文件

发现自己文章被一个sb抄了，那还不如我自己来发一遍，那个傻子连csv是什么格式都不知道还word

https://www.jianshu.com/p/a24e7a1a81d6

python版本：python3.7
编译器：pycharm
所爬取的网址：http://www.weather.com.cn/weather/101020100.shtml （中国天气网上海）
所用方法：lxml的css选择器

最后运行结果示例如图：

image.png

爬取思路

检查网站的robots.txt文件
查看网页源代码找到所要爬取的内容
写表达式爬取想要的内容
写入csv文件

检查网站的robots.txt文件

robots.txt文件定义了对爬虫的限制，可以直接手动在想要爬的网址后输入robots.txt查看
例：http://www.weather.com.cn/robots.txt
也可以通过代码实现，这样在爬取其他网页时也可以复用，爬多网页时比较方便。
检查url传递的robots.txt限制

if rp.can_fetch(user_agent, url):
    throttle.wait(url)#延迟函数
    html = download(url, headers, proxy=proxy, num_retries=num_retries)

查看网页源代码找到所要爬取的内容并爬取

右键网页点击查看网页源代码就可以看到网页的源代码。
找出想爬取信息对应的代码。

image

可以看出此网站的天气有wea、tem、win三个属性，均写在p标签里，没有定义父标签，可单独直接抓取。

td = tree.cssselect('p.wea,p.tem,p.win')
for wea in td:   
     #strip方法用于移除字符串头尾指定的字符
    print(wea.text_content().strip('\n'))

写入csv文件

import csv
from urllib.parse import urlparse
import lxml.html
from link_crawler import link_crawler
import json

#使用回调类而非回调函数以保持csv中write属性的状态
class ScrapeCallback:
    def __init__(self):
        #不写newline=''的话会出现空行
        self.writer = csv.writer(open('weather.csv', 'w',newline=''))
        #天气 最高温/最低温 风力
        self.fields = ('天气','最高/低温','风力')
        self.writer.writerow(self.fields)

    def __call__(self, url, html):
         tree = lxml.html.fromstring(html)
         td=tree.cssselect('p.wea')
         n=0
         for wea in td:
             row=[]
             row.append(tree.cssselect('p.wea')[n].text_content().strip('\n'))
             row.append(tree.cssselect('p.tem')[n].text_content().strip('\n'))
             row.append(tree.cssselect('p.win')[n].text_content().strip('\n'))
             n=n+1
             self.writer.writerow(row)

我的CSDN博客链接：https://blog.csdn.net/qq_38929220/article/details/83902818
微信公众号文章链接：
https://mp.weixin.qq.com/s?__biz=MzIyMjgwNDQ5Mw==&mid=2247483680&idx=1&sn=fd573f905ab5dc5c4b5664a964a75e7e&chksm=e826ae42df512754c66d2ae4645014d4ae084de21c3daf1b7d553a313009fb48c04516d08f0f&token=176466253&lang=zh_CN#rd

全部源码：

import re
from urllib.parse import urlparse,urljoin,urlsplit
import urllib.request
import time
from datetime import datetime
import urllib.robotparser
import queue

def link_crawler(seed_url, link_regex=None, delay=5, max_depth=-1, max_urls=-1, headers=None, user_agent='wswp', proxy=None, num_retries=1, scrape_callback=None):
    """
    在link_regex匹配的链接之后从给定的种子URL抓取
    """
    # 仍需要抓取的URL队列
    crawl_queue = [seed_url]
    # 已经看到深度的URL
    seen = {seed_url: 0}
    # 追踪有多少URL被下载过
    num_urls = 0
    rp = get_robots(seed_url)
    throttle = Throttle(delay)
    headers = headers or {}
    if user_agent:
        headers['User-agent'] = user_agent    
    while crawl_queue:
        url = crawl_queue.pop()
        depth = seen[url]
        # 检查url传递的robots.txt限制
        if rp.can_fetch(user_agent, url):
            throttle.wait(url)
            html = download(url, headers, proxy=proxy, num_retries=num_retries)
            links = []
            if scrape_callback:
                links.extend(scrape_callback(url, html) or [])

            #未达到最大深度，仍可以进一步爬取
            if depth != max_depth:
                if link_regex:
                    # 筛选符合正则表达式的链接
                    links.extend(link for link in get_links(html) if re.match(link_regex, link))

                for link in links:
                    link = normalize(seed_url, link)
                    # 检查是否已抓取此链接
                    if link not in seen:
                        seen[link] = depth + 1
                        # 检查链接是否在同一个域内
                        if same_domain(seed_url, link):
                            # 成功! 将此新链接添加到队列
                            crawl_queue.append(link)

            # 检查是否已达到下载的最大值
            num_urls += 1
            if num_urls == max_urls:
                break
        else:
            print ('Blocked by robots.txt:', url)#节流

class Throttle:
    """
    通过在对同一域之间请求休眠来限制下载
    """
    def __init__(self, delay):
        #每个域的下载之间的延迟量
        self.delay = delay        # 上次访问域时的时间戳
        self.domains = {}
        
    def wait(self, url):
        """
       如果最近访问过这个域，则会延迟
        """
        domain = urlsplit(url).netloc
        last_accessed = self.domains.get(domain)
        if self.delay > 0 and last_accessed is not None:
            sleep_secs = self.delay - (datetime.now() - last_accessed).seconds            if sleep_secs > 0:
                time.sleep(sleep_secs)
        self.domains[domain] = datetime.now()#下载网址

def download(url, headers, proxy, num_retries, data=None):
    print ('Downloading:', url)
    request = urllib.request.Request(url, data, headers)
    opener = urllib.request.build_opener()
    if proxy:
        proxy_params = {urlparse.urlparse(url).scheme: proxy}
        opener.add_handler(urllib.request.ProxyHandler(proxy_params))
    try:
        response = opener.open(request)
        html = response.read()
        code = response.code    
    except urllib2.URLError as e:
        print( 'Download error:', e.reason)
        html = ''
        if hasattr(e, 'code'):
            code = e.code            
            if num_retries > 0 and 500 <= code < 600:
                # 重试 5XX HTTP errors（服务器错误）
                html = download(url, headers, proxy, num_retries-1, data)
        else:
            code = None
    #python3需转化html编码格式
    html = html.decode('utf-8')
    return html

def normalize(seed_url, link):
    """
    通过删除哈希和添加域来规范化此URL
    """
    link, _ = urlparse.urldefrag(link) # 删除哈希以避免重复
    return urlparse.urljoin(seed_url, link)

def same_domain(url1, url2):
    """
   如果两个URL都属于同一个域，则返回True
    """
    return urlparse.urlparse(url1).netloc == urlparse.urlparse(url2).netloc

def get_robots(url):
    """
    初始化此域的机器人解析器
    """
    rp = urllib.robotparser.RobotFileParser()
    rp.set_url(urljoin(url, '/robots.txt'))
    rp.read()
    return rp        

def get_links(html):
    """
   从html返回链接列表 
    """
    #一个正则表达式，用于从网页中提取所有链接
    webpage_regex = re.compile('<a[^>]+href=["\'](.*?)["\']', re.IGNORECASE)
    # 来自网页的所有链接的列表
    return webpage_regex.findall(html)

'''
if __name__ == '__main__'的意思是：当.py文件被直接运行时，
if __name__ == '__main__'之下的代码块将被运行；当.py文件以模块形式被
导入时，if __name__ == '__main__'之下的代码块不被运行。
'''
if __name__ == '__main__':
    link_crawler('http://www.weather.com.cn/weather/101020100.shtml', '/(index|view)', delay=0, num_retries=1, user_agent='BadCrawler')
    link_crawler('http://www.weather.com.cn/weather/101020100.shtml', '/(index|view)', delay=0, num_retries=1, max_depth=1, user_agent='GoodCrawler')

import csv
import re
from urllib.parse import urlparse
import lxml.html
from link_crawler import link_crawler
import json

#使用回调类而非回调函数以保持csv中write属性的状态
class ScrapeCallback:
    def __init__(self):
        self.writer = csv.writer(open('weather.csv', 'w',newline=''))
        #天气 最高温/最低温 风力
        self.fields = ('天气','最高/低温','风力')
        self.writer.writerow(self.fields)

    def __call__(self, url, html):
        #if re.search('/view/', url):
            tree = lxml.html.fromstring(html)
            td=tree.cssselect('p.wea')
            n=0
            for wea in td:
                row=[]
                row.append(tree.cssselect('p.wea')[n].text_content().strip('\n'))
                row.append(tree.cssselect('p.tem')[n].text_content().strip('\n'))
                row.append(tree.cssselect('p.win')[n].text_content().strip('\n'))
                n=n+1
                self.writer.writerow(row)

if __name__ == '__main__':
    link_crawler('http://www.weather.com.cn/weather/101020100.shtml', '/(index|view)', scrape_callback=ScrapeCallback())

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,684评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,143评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,214评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,788评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,796评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,665评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,027评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,679评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,346评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,664评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,766评论 1赞 331
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,412评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,015评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,974评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,073评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,501评论 2赞 343

python爬取中国天气网信息并保存为csv格式文件

爬取思路

检查网站的robots.txt文件

查看网页源代码找到所要爬取的内容并爬取

写入csv文件

推荐阅读更多精彩内容