说到爬虫很多人可能首先想到Python,其实Excel也可以有爬虫技能,而且人人都能学会用
在Excel中QueryTable是最古老的从网页获取数据的操作方法,起码是在Excel 2000版本时就已支持这个功能,当然现在的Excel 2019及365版本也还是支持的,只不过是从Excel 2016开始这个功能就默认被隐藏起来了。
对于Excel 2013以下版本,QueryTable的操作路径是:“数据”→“导入外部数据”→“新建Web查询”
对于Excel2016以上版本,要调出QueryTable,最简单的办法就是依次按下键盘上的 Alt → D → D → W
下面我们用Excel来采集全国空气质量排名数据,
地址如下:http://www.86pm25.com/paiming.htm
①.单击【数据】选项卡,在【获取外部数据】选项组中,选择【自Web】或者依次按下键盘上的 Alt → D → D → W,Exce会弹出【新建Web查询】对话框,如图一所示:
②.在【地址】栏中输入网址,单击右上角的【选项】,系统会弹出【Web查询选项】对话框,然后在【格式】组中选择“完全HTML格式”(可以在Excel里点击链接直接打开相应的网页),然后单击确定。图二、图三所示:
③.单击右上角的【转到】按钮,系统会跳转到需要采集数据的页面,然后,你选定页面上的表格,单击【导入】按钮即可把数据导入到工作表中,图四所示:
④.选择数据的放置位置,然后单击确定即可,而且当网页的数据有变化时,你可以点击“刷新”以便获取到网页中最新的数据,导出的数据如下所示:
最后 QueryTable,主要是使用它去获取网页中的表格数据,对于非表格数据则不建议使用了,因为格式凌乱,一般都不是我们需要的效果。
所以如果你要获取的数据正好是表格数据,而且你用QueryTable也能识别到这个表格,就可以按本文讲到的步骤去使用即可。
那如果不是表格,或者Excel无法识别出的表格,又怎么获取呢?对于这些情况,一般就用VBA去处理了。
听到VBA,大部分人都会忘而却步了~
幸好Excel 2016集成了Power Query功能,为我们提供了更强大的Web查询功能,可以帮助我们更方便地、更灵活地获取网络数据!
欢迎关注公众号