我们要实现的目标是将各个来源的数据处理成同一种格式的数据
#把对每个来源的数据处理制作成模板,在之后对相同、相似格式的数据进行处理时可以直接套用模板或在已有模板的基础上修改,大大提高了处理效率
#我们将模板存储为xml文件
#每一个xml模板中有五个模块,第一个模块descript中存储了制作者对模板信息的描述;第二模块header存储了这个模板处理的文件表头字段;第三模块exampleDatas存储了模板处理的原始数据示例;第四模块operaters中存储了对数据记录行的几项操作;第五模块map中,每条attribute描述原始数据的一个字段要经过哪些数据处理方法后转换为何目标数据类型存为某一目标字段,在map中,还可以添加条件语句来处理一些特殊情况。
这两天的工作主要是研究了这个处理流程内部的逻辑结构,还是挺神奇的...
5.12补充:跟之前做这个项目的师姐聊了一下,有个地方指出错误,导出文件的时候并没有存为.xls文件,而是存为了一个序列化文件
#pickle.dump(tmp,open(filePath,'wb'))
说是使用了一个Py3里面自带的包,百度结果:
python的pickle模块实现了基本的数据序列和反序列化。通过pickle模块的序列化操作我们能够将程序中运行的对象信息保存到文件中去,永久存储;通过pickle模块的反序列化操作,我们能够从文件中创建上一次程序保存的对象。
基本接口:
pickle.dump(obj, file, [,protocol])注解:将对象obj保存到文件file中去。protocol为序列化使用的协议版本,0:ASCII协议,所序列化的对象使用可打印的ASCII码表示;1:老式的二进制协议;
pickle.load(file)注解:从file中读取一个字符串,并将它重构为原来的python对象。file:类文件对象,有read()和readline()接口。