http://blog.csdn.net/weixin_38206454/article/details/78378049
正则表达式
http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html
关于贪婪和非贪婪
http://www.runoob.com/regexp/regexp-syntax.html
re模块
re.findall() 在目标字符串查找符合规则的字符串
re.sub() 替换
re.compile 把正则表达式编译成一个正则对象
e.g. 1
利用正则表达式抓取页面内容
注意python3的解码问题
e.g. 2
一个正则调试工具:
.*? 一般用于(?)在两个确定表达式之间表示
( ) 中的表达式作为分组,每遇到一个编号+1
避免在样式里面提取,在属性里提取
html转义(eg. ‘ ’) 和 正则转义 的不同