昨天抽取并解析了一大批从微信钩子收取到的小程序消息,它们都是用很复杂的XML表示的。平常不是很接触XML,本文就随便说说XML的两种解析方式。
DOM解析方式
DOM即文档对象模型(document object model)。根据W3C的描述,DOM是一套用于HTML和XML文档的标准接口,它定义了文档的逻辑结构,以及访问或操作文档的方式。
DOM Parser会将文档解析为包含元素、属性和文本的树形结构(类似抽象语法树,但带有细节)。举个例子,对于如下的XML文档:
<?xml version="1.0" encoding="utf-8"?>
<wikimedia>
<projects>
<project name="Wikipedia" launch="2001-01-05">
<editions>
<edition language="English">en.wikipedia.org</edition>
<edition language="German">de.wikipedia.org</edition>
<edition language="French">fr.wikipedia.org</edition>
<edition language="Spanish">es.wikipedia.org</edition>
</editions>
</project>
<project name="Wiktionary" launch="2002-12-12">
<editions>
<edition language="English">en.wiktionary.org</edition>
<edition language="French">fr.wiktionary.org</edition>
</editions>
</project>
</projects>
</wikimedia>
DOM解析后形成的树形结构如下图所示(为了节省空间,把文本域都省略了)。
用DOM解析方式处理XML文档时,要求文档必须全部加载进内存,才能形成完整的树形结构,所以文档越大,消耗的内存也就越多。如果文档大小比可用内存还大,那么DOM解析方式就无能为力了。但它允许用户可以在任何时候定位和读写文档中的任意一部分数据,也可以任意创建和删除元素,称为“随机访问”特性(当然与平时所说的线性数组的随机访问特性不太像一回事)。
SAX解析方式
SAX是Simple API for XML的缩写。与DOM不同,它是一套以流式、事件驱动的方式解析XML文档的标准接口,并且是完全开放的。不过SAX不像DOM一样有W3C制定的标准,现在一般认为Java的SAX实现(org.xml.sax)是事实上的标准。
SAX Parser总是逐行顺序扫描文档,当遇到文档的开始/结束、元素的开始/结束、处理指令、文本、注释等等情况时,会回调相应的事件处理方法。以org.xml.sax.ContentHandler处理器为例,上一节的维基百科XML文本会按如下流程解析:
文档开始 -> startDocument()
wikimedia元素开始 -> startElement()
projects元素开始 -> startElement()
project元素开始 -> startElement() [属性 -> name="Wikipedia" launch="2001-01-05"]
editions元素开始 -> startElement()
edition元素开始 -> startElement() [属性 -> language="English"]
文本en.wikipedia.org -> characters()
edition元素结束 -> endElement()
......
editions元素结束 -> endElement()
project元素结束 -> endElement()
......
wikimedia元素结束 -> endElement()
文档结束 -> endDocument()
由此可见,SAX解析与DOM解析最大的不同在于,SAX解析不需要将文档整体载入内存,而是读入一些、解析一些。当遇到元素结束时,就可以释放掉该元素范围内的所有数据,内存占用会显著降低,基本只与元素的嵌套深度有关系,解析速度也要优于DOM方式。所以就算文档大小比可用内存还大,用SAX解析也不用担心。
但是SAX只能顺序解析文档,完全不能随机访问。并且它对文档的全貌是无感知的,所以也就不支持修改。如果对这两点有硬性需求,就只能老老实实用DOM解析了。
dom4j
dom4j是Java环境下一个相当强大的XML框架(我这次用的就是它)。虽然名字叫dom4j,但它同时支持DOM和SAX两种解析方式,并且提供了更高级、易用的特性,如迭代器、XPath支持、XSLT等。dom4j的介绍和文档都可以在它的官网https://dom4j.github.io/找到,这里就不再废话了。
XML尚能饭否?
XML和JSON哪个更好?也许很多人都会下意识地回答JSON,但这个问题实际上无法一概而论。因为XML是一种语言,而JSON是一种数据格式,只不过XML也可以用来表达数据而已。JSON虽然轻量易用,但XML也拥有JSON不具有的高级特性。看官可以参考知乎上的这个问题获得更多信息(请忽略问题本身的倾向性)。
今天缺觉,民那晚安。