例子:B站新番榜单
今天抓取新番榜单的动画名称和动画名称后的链接url
通用步骤
1. 打开插件
2. 创建sitemap
3. 选择合适的选择器(selector)
4. 爬取数据
5. 下载CSV数据
详解
这里上面5个步骤和前面一小节的步骤相同,只有第3步选择选择器不同,我们只选关键的第3步来讲解一下,抓取不同的网站或内容时 选择合适的选择器为关键点,具体网站具体分析。
1 打开软件
略过
2 创建sitemap
略过
3 选择合适的选择器(selector)
这里我们仍选择的是 B站新番榜单
- 创建sitemap完成后点击 add new selector
- 选择selector
1:填写selector的名称
2:因为要抓取的是名称和url 所以type选择Link选择器
3: 点击select然后选中 4,5, 6的文本,然后你发现下面的文本也被自动选中了 点击 7 Done selecting! 我们就选中了我们所需要的数据区域
8: 选中Muliple 因为我们需要是多条数据,如果不选仅仅只有一行数据
9: 选中我们的父级selector,_root 是sitemap建立后初始化的根selector,我们创建的选择器都是在_root下的子选择器
10: 保存
4 爬取数据
略过
5 下载数据查看数据格式
以下就是我们抓取的数据了 后面title_link-href 就是标题的链接了