全局指导:
Python爬虫如何入门
Python入门网络爬虫之精华版
http://www.lining0806.com/homepage/系列教程:
Python爬虫小白入门urllib:Python内嵌网络库
Python爬虫入门三之Urllib库的基本使用
Python爬虫入门四之Urllib库的高级用法
Python爬虫入门五之URLError异常处理
Python爬虫入门六之Cookie的使用
Python爬虫入门七之正则表达式
- request:上面库的加强版,推荐使用这个而不是上面那个
爬虫入门系列(二):优雅的HTTP库requests
可能真的要找个时间对各个库进行好好的研究,像知乎登陆的文章写的东西就用requests.Session模块写的,不熟悉这些完全不知道怎么写
beautifulsoup:查找HTML网页标签的神器
书籍《web scraping with python》
Python爬虫利器二之Beautiful Soup的用法
Python Web Scraping Tutorial using BeautifulSoup
爬虫入门系列(四):HTML文本解析库BeautifulSoupScrapy教程系列1:
Scrapy Tutorial #1: Scrapy VS Beautiful Soup
Scrapy Tutorial #2: How To Install Scrapy On Mac
Scrapy Tutorial #3: How To Install Scrapy On Linux
Scrapy Tutorial #4: How To Install Scrapy On Windows
Scrapy Tutorial #5: How To Create Simple Scrapy Spider
简单搭建了一个Scrapy工程
Scrapy Tutorial #6: Scrapy Shell Overview & Tips
介绍了一些Scrapy shell命令,可以帮助我们测试一些语句,而不是每次都运行整个工程来看效果;另外还可以运行一些简单的脚本。
Scrapy Tutorial #7: How to use XPath with Scrapy
介绍了XPath的使用
Scrapy Tutorial #8: Scrapy Selector Guide
Scrapy选择器
Scrapy Tutorial #9: How To Use Scrapy Item
网易云课堂
https://piaosanlang.gitbooks.io/spiders/04day/section4.3.html
http://codecondo.com/blogs-for-python-developers/chrome调试
Chrome 实用调试技巧正则表达式
爬虫入门系列(五):正则表达式完全指南(上)
爬虫入门系列(六):正则表达式完全指南(下)
正则表达式30分钟入门教程
Python正则表达式指南selenium
selenium系列教程关于是否使用爬虫框架
后续学习
涉及到大规模爬虫,还需要了解分布式的概念、消息队列、常用的数据结构和算法、缓存,甚至还包括机器学习的应用,大规模的系统背后都是靠很多技术来支撑的。爬虫只是为了获取数据,分析、挖掘这些数据才是价值,因此它还可以延伸到数据分析、数据挖掘等领域,给企业做决策,所以作为一名爬虫工程师,是大有可为的。