【Python入门】31.常用内置模块之 XML & 抓取Yahoo天气预报信息

摘要:XML的介绍;如何用SAX解析XML文本;XML文本生成;通过解析Yahoo的XML格式文本获取其天气预报信息。


*写在前面:为了更好的学习python,博主记录下自己的学习路程。本学习笔记基于廖雪峰的Python教程,如有侵权,请告知删除。欢迎与博主一起学习Pythonヽ( ̄▽ ̄)ノ *


目录

常用内置模块
XML
SAX解析XML
XML生成
【练习】获取Yahoo天气预报信息

常用内置模块

XML

XML可扩展标记语言(eXtensible Markup Language)。它是传输和存储数据常用的工具,在信息存储和描述领域十分流行。

操作XML的常用方法有:DOM和SAX。DOM占用内存大,解析慢,但可以遍历任意节点;SAX,占用内存小,解析快,但需要自己处理事件。

正常情况下,优先考虑SAX,因为DOM实在太占内存。——廖雪峰

下面介绍如何用SAX解析XML。

SAX解析XML

SAX(simple API for XML) 用事件驱动模型,也就是在解析XML的过程中触发每个事件,同时调用用户定义的回调函数来处理XML文件。SAX有两大部分:解析器和事件处理器。

解析器:负责读取XML文件,然后向事件处理器发送事件。
事件处理器:负责对每个事件做出回应,处理传递的数据。

在Python中,使用SAX解析XML十分简单。一般而言,定义好start_elementend_elementchar_data三个事件即可。

比如当解析器读取到一个XML的节点:

<a href="/">python</a>

会产生三个事件:

start_element,在读取开始标签<a href="/">时调用;
char_data,在读取数据内容python时调用;
end_element,在读取结束标签</a>时调用:

在对应的事件中,定义好我们想要的处理方式,然后通过ParserCreate()生成解析器,使用parser.Parse解析文本即可。看具体代码(以下代码除注释转自廖雪峰官网)

from xml.parsers.expat import ParserCreate                    # 引入解析器模块

class DefaultSaxHandler(object):                              # 定义一个事件处理器的类
    def start_element(self, name, attrs):                     # 定义开始标签事件
        print('sax:start_element: %s, attrs: %s' % (name, str(attrs)))

    def end_element(self, name):                              # 定义结束标签事件
        print('sax:end_element: %s' % name)

    def char_data(self, text):                                # 定义数据内容处理事件
        print('sax:char_data: %s' % text)
                                                              # xml文本
xml = r'''<?xml version="1.0"?>                              
<ol>
    <li><a href="/python">Python</a></li>
    <li><a href="/ruby">Ruby</a></li>
</ol>
'''

handler = DefaultSaxHandler()                                 # 创建一个事件处理器的实例
parser = ParserCreate()                                       # 创建一个解析器
parser.StartElementHandler = handler.start_element            # 给予开始标签的处理方式
parser.EndElementHandler = handler.end_element                # 给予结束标签的处理方式
parser.CharacterDataHandler = handler.char_data               # 给予数据内容的处理方式
parser.Parse(xml)                                             # 解析xml文本

运行结果:

sax:start_element: ol, attrs: {} 
sax:char_data:  

sax:char_data:      
sax:start_element: li, attrs: {} 
sax:start_element: a, attrs: {'href': '/python'} 
sax:char_data: Python 
sax:end_element: a 
sax:end_element: li 
sax:char_data:  

sax:char_data:      
sax:start_element: li, attrs: {} 
sax:start_element: a, attrs: {'href': '/ruby'} 
sax:char_data: Ruby 
sax:end_element: a 
sax:end_element: li 
sax:char_data:  

sax:end_element: ol 

这样就成功解析一个XML文本啦( ̄▽ ̄)/

XML生成

除了解析XML,我们还想要生成XML要怎么做?

用最简单的方法,append拼接。

L = []
L.append(r'<?xml version="1.0"?>')
L.append(r'<root>')
L.append(('some & data').encode)
L.append(r'</root>')
return ''.join(L)

如果要生成复杂的XML呢?建议你不要用XML,改成JSON。——廖雪峰

【练习】获取Yahoo天气预报信息

(练习源自廖雪峰官网)

请利用SAX编写程序解析Yahoo的XML格式的天气预报,获取天气预报:

https://query.yahooapis.com/v1/public/yql?q=select%20*%20from%20weather.forecast%20where%20woeid%20%3D%202151330&format=xml
参数woeid是城市代码,要查询某个城市代码,可以在weather.yahoo.com搜索城市,浏览器地址栏的URL就包含城市代码。)

# -*- coding:utf-8 -*-

from xml.parsers.expat import ParserCreate            # 引入xml解析模块
from urllib import request                            # 引入URL请求模块

class WeatherSaxHandler(object):                      # 定义一个天气事件处理器

    weather = {'city':1, 'forecast':[]}               # 初始化城市city和预报信息forecast

    def start_element(self, name, attrs):             # 定义开始标签处理事件

        if name == 'yweather:location':               # 获取location信息
            self.weather['city'] = attrs['city']

        elif name =='yweather:forecast':              # 获取forecast信息
            self.weather['forecast'].append({
                'date':attrs['date'], 
                'high':attrs['high'], 
                'low':attrs['low']
            })

def parseXml(xml_str):                                # 定义xml解析器

    handler = WeatherSaxHandler()
    parser = ParserCreate()
    parser.StartElementHandler = handler.start_element
    parser.Parse(xml_str)                             # 解析xml文本

    print('City: ' + handler.weather['city'])         # 打印city信息
    print('Weather: ')
    for x in handler.weather['forecast']:             # 打印天气信息
        print(x)
        
    return handler.weather
    

# 测试:
URL = 'https://query.yahooapis.com/v1/public/yql?q=select%20*%20from%20weather.forecast%20where%20woeid%20%3D%202151330&format=xml'

with request.urlopen(URL, timeout=4) as f:
    data = f.read()

result = parseXml(data.decode('utf-8'))
assert result['city'] == 'Beijing'

运行结果:

City: Beijing 
Weather:  
{'date': '30 Aug 2018', 'high': '80', 'low': '69'} 
{'date': '31 Aug 2018', 'high': '84', 'low': '66'} 
{'date': '01 Sep 2018', 'high': '83', 'low': '69'} 
{'date': '02 Sep 2018', 'high': '80', 'low': '69'} 
{'date': '03 Sep 2018', 'high': '89', 'low': '67'} 
{'date': '04 Sep 2018', 'high': '88', 'low': '71'} 
{'date': '05 Sep 2018', 'high': '87', 'low': '69'} 
{'date': '06 Sep 2018', 'high': '83', 'low': '67'} 
{'date': '07 Sep 2018', 'high': '81', 'low': '64'} 
{'date': '08 Sep 2018', 'high': '80', 'low': '64'} 

如果我们知道Yahoo天气预报的城市代码,修改器URL的值,就能通过这个来获取Yahoo天气预报信息了( ̄▽ ̄)/


以上就是本节的全部内容,感谢你的阅读。

下一节内容:常用内置模块之 HTMLparser

有任何问题与想法,欢迎评论与吐槽。

和博主一起学习Python吧( ̄▽ ̄)~*

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,607评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,047评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,496评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,405评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,400评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,479评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,883评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,535评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,743评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,544评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,612评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,309评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,881评论 3 306
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,891评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,136评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,783评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,316评论 2 342

推荐阅读更多精彩内容