hadoop 集群还有点问题,没有搭建完成,明天继续,应该能完成。
变动 user-agent 的方法,有两种:
通过将 fake_useragent 维护的所有 user agent 获取下来,生成为一个 user_agent_list,然后每次在 scrapy 中Request 的时候在 headers 中就随机去一个 user agent 代替
直接使用 fake useragent
pip install fake_useragent
from fake_useragent import UserAgent
ua = UserAgent()
ua.ie
ua.firefox
ua.safari
ua.random
以上这些都能获取到不断变化的 user agent
获取代理的方法,使用 西刺网 提供的免费的代理服务器