builtwith:识别网站所用技术
python-whois:寻找网站所有者
urllib2:下载网页,并返回其HTML
re:正则表达式
beautifulsoup4:解析网页,并提供定位内容的便捷接口
Lxml:XML解析库(非pip install
pymongo:MongoDB的Python封装库
zlib:压缩
threading:线程
json:将字符串解析成一个字典
PyQt,PySide:WebKit渲染引擎的Python接口(非pip install
selenium:是浏览器自动化的API接口(注:需要brew install chromedriver)
cookielib:cookie模块
browsercookie:得到浏览器的cookie
mechanize:不再需要管理cookie的表单交互接口
Pillow:提供了便捷的Image类,包含了很多处理验证码图像的方法
pytesseract:Tesseract OCR引擎的Python封装库
Scrapy:爬虫框架
virtualenv:虚拟Python环境
Portia:点击要抓取的网页来创建爬虫(非pip install
Scrapely:使用训练数据建立从网页中抓取哪些内容的模型,并在以后抓取相同结构的其他网页时应用该模型(非pip install
参考:
用Python写网络爬虫