例子:B站新番榜单
还记得我们在前面小节中总结的使用步骤吗?核心点是选对selector
步骤
1 打开插件
2 创建sitemap
3 选择合适的选择器(selector)
4 爬取数据
5 下载CSV数据
详解
1 打开软件
- window10系统, linux系统: 点击
Ctrl+Shift+I
或点击f12
, - mac机
Cmd+Opt+I
- 鼠标右键=>检查
2 创建sitemap
- Sitemap name工程名
- Start url可从浏览器中直接复制过来
-
点击创建
3 选择合适的选择器(selector)
- 创建完成后点击 add new selector
- 选择selector
1:填写selector的名称
2:因为要抓取的是文本数据 所以选择Text选择器
3: 点击select然后选中 4,5的文本,然后你发现下面的文本也被自动选中了 点击 6 Done selecting! 我们就选中了我们所需要的数据区域
7: 选中Muliple 因为我们需要是多条数据,如果不选仅仅只有一行数据
8: 选中我们的父级selector,_root 是sitemap建立后初始化的根selector,我们创建的选择器都是在_root下的子选择器
9: 保存
4 抓取数据
- 在我们的sitemap下有了刚刚保存的selector记录,你可以尝试着点击一下 Actions底下的几个按钮:
Element preview: 可以查看我们当前选中的数据元素
Data preview:预览我们当前选中的数据
Edit:编辑这条selector
Delete:删除这条selector
- 点击4-1图中的选项scrape,然后跳至4-2图中
Request Interval(ms):请求间隔 默认2000ms
Page load delay(ms): 页面翻页延迟 默认2000ms
这两个选项主要是在抓取数据过程中防止因为网络延迟网页没有刷新成功或数据没有完全加载出来而设置的。默认2000ms,不用修改,接下来点击start scraping
-
等待数据抓取完毕,点击页面refrash数据
5 下载数据
- 爬取完毕后 点击Export data as CSV 然后点击download now! 然后数据就被我们下载下来了
-
附下载后的数据格式,发现了吗?数据顺序并不和网页上的顺序一致(后续会有介绍)
问题解释
- 为什么选中前两条标题数据 其他的数据也自动被选择上了?
答:因为在html页面在编写过程中这些数据标题的有一定的共性格式,通过a.title这个前端css属性就可以定位到这些数据内容。所以其他的数据也会被选择上。 - 为什么我的文本数据没有被选择上?
答:首先检查一下你的selector type 是不是选择的text, 其次你在选择数据时的选择位置不对或者错位,多尝试几次就能选中要爬取的数据内容。
遗留问题
1:为什么这些数据展示出来的顺序不一致?
2:如何采集多个数据字段展示?
接下来我们会接着探讨~~