XML的DOM和SAX解析方式

昨天抽取并解析了一大批从微信钩子收取到的小程序消息,它们都是用很复杂的XML表示的。平常不是很接触XML,本文就随便说说XML的两种解析方式。

DOM解析方式

DOM即文档对象模型(document object model)。根据W3C的描述,DOM是一套用于HTML和XML文档的标准接口,它定义了文档的逻辑结构,以及访问或操作文档的方式。

DOM Parser会将文档解析为包含元素、属性和文本的树形结构(类似抽象语法树,但带有细节)。举个例子,对于如下的XML文档:

<?xml version="1.0" encoding="utf-8"?>
<wikimedia>
  <projects>
    <project name="Wikipedia" launch="2001-01-05">
      <editions>
        <edition language="English">en.wikipedia.org</edition>
        <edition language="German">de.wikipedia.org</edition>
        <edition language="French">fr.wikipedia.org</edition>
        <edition language="Spanish">es.wikipedia.org</edition>
      </editions>
    </project>
    <project name="Wiktionary" launch="2002-12-12">
      <editions>
        <edition language="English">en.wiktionary.org</edition>
        <edition language="French">fr.wiktionary.org</edition>
      </editions>
    </project>
  </projects>
</wikimedia>

DOM解析后形成的树形结构如下图所示(为了节省空间,把文本域都省略了)。

用DOM解析方式处理XML文档时,要求文档必须全部加载进内存,才能形成完整的树形结构,所以文档越大,消耗的内存也就越多。如果文档大小比可用内存还大,那么DOM解析方式就无能为力了。但它允许用户可以在任何时候定位和读写文档中的任意一部分数据,也可以任意创建和删除元素,称为“随机访问”特性(当然与平时所说的线性数组的随机访问特性不太像一回事)。

SAX解析方式

SAX是Simple API for XML的缩写。与DOM不同,它是一套以流式、事件驱动的方式解析XML文档的标准接口,并且是完全开放的。不过SAX不像DOM一样有W3C制定的标准,现在一般认为Java的SAX实现(org.xml.sax)是事实上的标准。

SAX Parser总是逐行顺序扫描文档,当遇到文档的开始/结束、元素的开始/结束、处理指令、文本、注释等等情况时,会回调相应的事件处理方法。以org.xml.sax.ContentHandler处理器为例,上一节的维基百科XML文本会按如下流程解析:

文档开始 -> startDocument()
wikimedia元素开始 -> startElement()
projects元素开始 -> startElement()
project元素开始 -> startElement() [属性 -> name="Wikipedia" launch="2001-01-05"]
editions元素开始 -> startElement()
edition元素开始 -> startElement() [属性 -> language="English"] 
文本en.wikipedia.org -> characters()
edition元素结束 -> endElement()
......
editions元素结束 -> endElement()
project元素结束 -> endElement()
......
wikimedia元素结束 -> endElement()
文档结束 -> endDocument()

由此可见,SAX解析与DOM解析最大的不同在于,SAX解析不需要将文档整体载入内存,而是读入一些、解析一些。当遇到元素结束时,就可以释放掉该元素范围内的所有数据,内存占用会显著降低,基本只与元素的嵌套深度有关系,解析速度也要优于DOM方式。所以就算文档大小比可用内存还大,用SAX解析也不用担心。

但是SAX只能顺序解析文档,完全不能随机访问。并且它对文档的全貌是无感知的,所以也就不支持修改。如果对这两点有硬性需求,就只能老老实实用DOM解析了。

dom4j

dom4j是Java环境下一个相当强大的XML框架(我这次用的就是它)。虽然名字叫dom4j,但它同时支持DOM和SAX两种解析方式,并且提供了更高级、易用的特性,如迭代器、XPath支持、XSLT等。dom4j的介绍和文档都可以在它的官网https://dom4j.github.io/找到,这里就不再废话了。

XML尚能饭否?

XML和JSON哪个更好?也许很多人都会下意识地回答JSON,但这个问题实际上无法一概而论。因为XML是一种语言,而JSON是一种数据格式,只不过XML也可以用来表达数据而已。JSON虽然轻量易用,但XML也拥有JSON不具有的高级特性。看官可以参考知乎上的这个问题获得更多信息(请忽略问题本身的倾向性)。

今天缺觉,民那晚安。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,772评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,458评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,610评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,640评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,657评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,590评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,962评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,631评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,870评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,611评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,704评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,386评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,969评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,944评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,179评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,742评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,440评论 2 342

推荐阅读更多精彩内容