小小佐 - 简书

小小佐

IP属地：天津

使用scrapy-redis实现分布式爬虫
一、准备工作用来实现分布式爬虫的项目是：爬取知乎用户信息项目注册了两个服务器：阿里云服务器和腾讯云服务器，使用的系统都是windows系统二...

832 0 1
Python爬虫-基于深度优先策略的百度百科爬虫
深度优先策略：优先往纵向挖掘深入，直到到达指定的深度或者该节点不存在邻接节点，才会访问第二条路。广度优先策略：先访问完一个深度的所有节点，再访问...

1016 0 1

Python爬虫-利用百度地图API接口爬取数据并保存至MySQL数据库
首先，我这里有一份相关城市以及该城市的公园数量的txt文件：其次，利用百度地图API提供的接口爬取城市公园的相关信息。所利用的API接口有两个...

4404 0 4
Python爬虫-尝试使用人工和OCR处理验证码模拟登入
此次是我第一次模拟登入，目标站点是知乎。刚开始在网上看别人一直在说知乎登入首页有有倒立的汉字验证码，我打开自己的知乎登入页面，发现只有账号和密码...

0.1 991 0 2
Python爬虫-爬取腾讯小视频
这两天在爬TX的视频的原始下载地址，遇到的问题挺多，感觉这个网站的规律变化多端的，中间也忘了修改过多少次代码了，而且有时候抓包也抓不到一些想要的...

0.1 5281 0 3
Python爬虫-爬取爆米花视频下载至本地
打开爆米花的网站，然后打开其中一个视频：分析-00.png 打开F12，然后刷新，可以看到: 分析-01.png 这个URL为视频的真实地址：...

1235 1 5
Python爬虫入门-利用scrapy爬取淘女郎照片
最近看到有个相对来说比较简单的可以爬取淘女郎的链接地址，它主要可以通过改变URL中page参数来实现翻页。我们这个这个链接进入到一个淘女郎的页面...

436 0 0

Python爬虫入门-小试CrawlSpider
首先，先转载一张原理图： [转载]CrawlSpider原理图.png 再贴一下官方文档的例子：再贴一下重要参数：造轮子的是用豆瓣读书/所有...

344 1 0
Python爬虫入门-fiddler抓取手机新闻评论
之前一直都听过抓包，抓包，但是一直没有在手机上抓过包，这次一试，当做是一次小练习，在网上有挺多Fiddler安装和配置的教程的，我也找了一些，大...

1101 1 1