最近在用Scrapy写爬虫,执行爬虫的时候发现可以使用json和jsonlines这两者文件格式进行数据的保存
那么这两种文件格式有什么区别呢?
1.首先使用scrapy crawl itcast -o teachers.json执行爬虫程序。
得到结果如下:
很明显这是一个大的列表,里面每一个teacher的基本信息都是放在一个json数据格式中,也成字典格式。
且每份json数据之间用逗号隔开了
2.首先使用scrapy crawl itcast -o teachers.jsonlines执行爬虫程序。
得到结果如下:
可以很明显的看到,这里把每一个老师信息对象也是以json数据保存,当在一个字典中。但是每个字典占用一行,不存在联系关系。
3. 总结
json文件格式的数据之间存在关联,切放在同一个列表当中,之间用逗号隔开,可以通过列表的下标进行获取。
而jsonlines文件格式的数据之间,是相互独立的,每一行即为一个json格式数据。