爬虫类
-
crawlers
是一个主要抓取ROSI写真的Scrapy爬虫,主要的spider代码简单易理解。 -
163spider
爬取网易客户端内容的小爬虫,主要采用Scrapy框架并配合上Mysql进行数据的存储,对于新人入门比较友好。
工具类
-
retrying
主要是一个经典的装饰器,来简单地进行retry请求,同时接受大量的参数,能够满足很多的需求场景。 -
LearnPython
超级不错的入门Python,以写代码实践的方式学习,相信看完这些例子,Python的大部分东西都理解了。 -
huey
一个简单的任务队列,主要以Redis作为queue,满足基本的需求场景。支持多进程,多线程和协程,以及定时任务和自动重试失败任务。 -
rq
比上述的任务队列还要简单,具有很低的入门门槛,同样以Redis为queue。
其他类
-
stockholm
一个股票数据(沪深)爬虫和选股策略测试框架,数据基于雅虎YQL和新浪财经。对于某些做量化投资的人士应该有帮助。 -
maga
一个使用asycio的DHT爬虫,DHT是一种分布式存储方法。
不好意思呀,还是有点懈怠呢,主要在写一个爬虫框架,所以没有很大的精力去写其他的技术内容,希望大家好好地学习上面的内容呢,都是很好的资源。