1正则表达式
贪婪与非贪婪
例如r'src="(.+?/.jpg)”就是图片
而r'src="(.+/.jpg)”jpg会到最后一个,不会出
urllib.urlretrieve(url,local,callback)存图片
注意有些网站会对cookie进行检测。要弄一下。‘
有些有登录名的可以把string转为url的格式再加载url后,加request就行了
结合网络域名收集并与这个方法用连用就可以了
2实践经验
1.先下载个目标中的任意页面到本地。进行抓取测试
2.过滤的时候要宏观一点。不要太体到一条。否则可能会漏掉
3.好用一点findall(tag类,合适字典对),可以一点点缩小范围。结合正则好用。
4.attr:标签属性 一般有class name
5.抓取时除了注意头信息和cookie。最好再多使用几个代理
6.最后要想着怎么把数据存进数据库