XML大文件解析(文件大小:21G)

最近解析了一个超大的xml,之间遇到很多坑,有写Java程序、spark程序,最后用Python处理的:
Java、spark、python处理XML速度对比:Python>spark>java
因为是XML,所以不能破坏标签的完整性,所以spark可以提交yarn后也只是用一个executors在跑,只不过用了多个cores,速度还是非常慢的(Java和spark用一个早晨没有跑完),期间还遇到了OOM问题,因为spark单个executors的内存大小在配置文件中是有限制的,所以会出现OOM,java大家知道的,首先要读取整个文件到内存中,前提是内存够,再加上中间处理结果的存放,使用内存远大于文件大小21G
数据样例:(数据较简单,原理一样)

<add overwrite="true" commitWithin="10000">
<doc><field name="id" ><![CDATA[286c9edd3f2721730a8cecdbfec94ee4X]]></field>
<field name="an-country" ><![CDATA[GR]]></field>
<field name="an" ><![CDATA[88100105]]></field>
<field name="an-kind" ><![CDATA[A]]></field>
<field name="pn-country" ><![CDATA[GR]]></field>
<field name="pn" ><![CDATA[880100105]]></field>
<field name="pn-kind" ><![CDATA[A]]></field>
<field name="ctfw-country" ><![CDATA[DE]]></field>
<field name="ctfw-num" ><![CDATA[DE2736069]]></field>
<field name="ctfw-kind" ><![CDATA[A1]]></field>
<field name="srepphase" ><![CDATA[SEA]]></field>
<field name="srepphase" ><![CDATA[SEA]]></field>
</doc>
<doc><field name="id" ><![CDATA[caf2088f80da92f58c413d23d9cc8124X]]></field>
<field name="an-country" ><![CDATA[GR]]></field>
<field name="an" ><![CDATA[88100091]]></field>
<field name="an-kind" ><![CDATA[A]]></field>
<field name="pn-country" ><![CDATA[GR]]></field>
<field name="pn" ><![CDATA[880100091]]></field>
<field name="pn-kind" ><![CDATA[A]]></field>
<field name="ctfw-country" ><![CDATA[FR]]></field>
<field name="ctfw-country" ><![CDATA[GB]]></field>
<field name="ctfw-country" ><![CDATA[US]]></field>
<field name="ctfw-country" ><![CDATA[EP]]></field>
<field name="ctfw-country" ><![CDATA[EP]]></field>
<field name="ctfw-num" ><![CDATA[FR2585362]]></field>
<field name="ctfw-num" ><![CDATA[GB2141152]]></field>
<field name="ctfw-num" ><![CDATA[US4292035]]></field>
<field name="ctfw-num" ><![CDATA[EP0026529]]></field>
<field name="ctfw-num" ><![CDATA[EP0146289]]></field>
<field name="ctfw-kind" ><![CDATA[A1]]></field>
<field name="ctfw-kind" ><![CDATA[A]]></field>
<field name="ctfw-kind" ><![CDATA[A]]></field>
<field name="ctfw-kind" ><![CDATA[A1]]></field>
<field name="ctfw-kind" ><![CDATA[A2]]></field>
<field name="srepphase" ><![CDATA[SEA]]></field>
<field name="srepphase" ><![CDATA[SEA]]></field>
<field name="srepphase" ><![CDATA[SEA]]></field>
<field name="srepphase" ><![CDATA[SEA]]></field>
<field name="srepphase" ><![CDATA[SEA]]></field>
<field name="srepphase" ><![CDATA[SEA]]></field>
</doc>
</add>

spark代码:
spark代码也是将整个文件加载到内存中,耗内存,解析速度慢

object ParseQuoteData1 {
def main(args: Array[String]): Unit = {
//构建sparksession
/val spark = SparkSession.builder
.master("local[1]")
.appName("Parse_xml").getOrCreate()
val sc = spark.sparkContext
/
/val conf = new SparkConf().setAppName("quote_parse").setMaster("local[1]")
conf.set("spark.rdd.compress", "true")
val sc = new SparkContext(conf)
/
val someXML = XML.loadFile(args(0))
val pubRef_len = (someXML \ "add" \ "doc" ).length
val file = args(1)
val writer = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(file)))
// val array = new ArrayString
for(a <- 0 to pubRef_len - 1){
val quotedata = (someXML \ "add" \ "doc" )(a)
val fields = quotedata \ "field"
val fields_nature = quotedata \ "field" \"@name"
val quotList = new util.ArrayListString
for(b <- 0 to fields.length -1){
val k = fields_nature(b).text
val v = fields(b).text
val line = k + ":" + v
quotList.add(line)
}
val res = quotList.toString.replace("[", "").replace("]", "")
println(res)
writer.write(res + "\n")
}
writer.close()
}
}

Python代码:
python解析的原理非常符合处理大文件,即使超过50G也可以正常处理,而且速度很快,
解析原理:标签迭代,每次取出需要解析的一个标签,放到内存中解析,内存耗费非常小

-- coding:utf-8 --

from lxml import etree
import time
def fast_iter(context,*args, **kwargs):
"""
读取xml数据,并释放空间
context: etree.iterparse生成的迭代器
"""
# 打开文件
with open('data/result.txt', 'a') as f:
"""
event:事件
elem:元素
"""
# 处理xml数据
for event, elem in context:
list = []
for e in elem:
# 获取标签属性值,获取标签值
s1 = e.get("name") + ":" + e.text
# print(e.get("name") + ":" + e.text)
list = list + [s1]
# 替换list的【】,变为一个 ,分隔的字符串
res = str(list).replace("[", "").replace("]", "").replace("'", "")
f.write(res) # 写入
f.write('\n')
# 重置元素,清空元素内部数据
elem.clear()
# 选取当前节点的所有先辈(父、祖父等)节点,以及当前节点本身
for ftag in elem.xpath('doc'):
# 如果当前节点还有前一个兄弟,则删除父节点的第一个子节点。getprevious():返回当前节点的前一个兄弟或None。
while ftag.getprevious() is not None:
# 删除父节点的第一个子节点,getparent():返回当前节点的父元素或根元素或None。
del ftag.getparent()[0]
# 释放内存
del context
def process_element(elem):
"""
处理element
:params elem: Element
"""
# 储存基因列表
gene_list = []
for i in elem.xpath('add'):
# 获取基因名字
gene = i.text
# 添加到列表
gene_list.append(gene)
print('gene', gene_list)
if name == 'main':
print('start', time.strftime('%Y-%m-%d %H:%M:%S', time.localtime()))
start = time.time()
# 需要处理的文件路径
infile = r'data/patent_info_cited__GR_cited_Thread.xml'
# 通过迭代读取xml,带命名空间的要加上命名空间
# context = etree.iterparse(infile, events=('end',), encoding='UTF-8', tag='{http://uniprot.org/uniprot}doc')
context = etree.iterparse(infile, events=('end',), encoding='UTF-8', tag='doc')
# 快速读取xml数据
fast_iter(context,process_element)
print('stop', time.strftime('%Y-%m-%d %H:%M:%S', time.localtime()))
print('time', time.time() - start)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,980评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,178评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,868评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,498评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,492评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,521评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,910评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,569评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,793评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,559评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,639评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,342评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,931评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,904评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,144评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,833评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,350评论 2 342