场景分析
该网站会实时显示最新的地震信息。
作为一名开发人员,对数据是相当过敏的,于是就萌生了爬取网站数据的念头。
思路分析
说到爬虫,很多人都会想起python,其实爬虫并不局限于python语言,php也可以实现,只是使用的方式不太相同,但原理也是一样的。
这里大概设计了一下爬取数据的流程
分析数据html结构->使用xpath匹配读取->取得每一行数据->记录到数据库
进入网站首页,我们打开开发者工具来查看该网站的html结构
通过分析我们可以得知该每一行数据都放在div.news-content的table的tr中,我们使用XPath Helper工具来进行行数据的定位
从上图中我们可以看到已经将行中的数据匹配到。
实现框架
Scrapy是一个python框架,它提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。
借助scrapy,我们可以轻松爬取到网站的数据,并对数据进行分析和保存。
分析数据
我们在'items.py'文件中编写数据模型,该数据模型为一个保存每一行地震信息的对象 #CeicdataItem
class CeicdataItem(scrapy.Item):
#定义数据结构
level = scrapy.Field() #地震级别
time = scrapy.Field() #发震时间
lat = scrapy.Field() #纬度
lon = scrapy.Field() #经度
deep = scrapy.Field() #深度
position = scrapy.Field() #参考位置
did = scrapy.Field() #数据ID
接着我们创建一个spiders,并取名字为action,文件名为action.py
以下是parse方法的主要代码
def parse(self , response):
#爬取每一行地震内容
rawData = response.xpath("//div[@class='news-content']/table//tr[position()>1]")
#rawData保存的正是每一行的匹配对象
dataItem = CeicdataItem()
#遍历该对象,并进行列文本匹配即可以提取到数据
for raw in rawData:
info = raw.xpath(".//td//text()").extract()
dataItem['level'] = info[0]
dataItem['time'] = info[1]
dataItem['lat'] = info[2]
dataItem['lon'] = info[3]
dataItem['deep'] = info[4]
dataItem['position'] = info[5]
#包装成一个生成器抛给pipelines
yield dataItem
pass
该程序负责分析html并解释到数据模型中的工作
后续工作
我们已经将数据解析到模型中,接着我们需要将模型中的数据保存到数据库当中以便日后查询和分析。
def process_item(self, item, spider):
db = pymysql.connect("127.0.0.1","root","123","ceic",charset='utf8')
#将数据对象转换成字符串并查询数据库中是否存在该对象
#这样做的目的为了防止重复的数据录入
code = base64.b64encode(pickle.dumps(item))
cursor = db.cursor()
checkSql = 'SELECT id as length FROM `current_data` WHERE `code`=%s'
cursor.execute(checkSql,(code))
checkData = cursor.fetchone()
#如果数据库中不存在该记录则写入到数据库
if(checkData == None):
sql = 'INSERT INTO `current_data`(level,happenTime,lat,lon,deep,position,code) VALUES(%s,%s,%s,%s,%s,%s,%s)'
try:
cursor.execute(sql,(item['level'],item['time'],item['lat'],item['lon'],item['deep'],item['position'],code))
db.commit()
except BaseException:
print(traceback.format_exc())
db.rollback()
else:
print("数据["+str(checkData[0])+"]已存在!")
pass
db.close()
return item
该程序负责将数据模型的数据保存到数据库。
最后我们查询数据库,数据已经保存到数据表中
总结
到这里,整个爬虫流程就结束啦,我们可以看到,使用scrapy框架就可以轻松的爬取到网页数据并对数据进行分析和保存。
我们可以建立一个crontab定时器,然后定时执行该爬虫程序,这样我们就可以自动的爬取到地震网的信息,保存到数据库中,并可以用于查询程序的使用。