requests_utils.py
文件目录:
call_history_crawler/worker/crawler
proxy_config.py
文件目录:
call_history_crawler/setting
log.py
文件目录:
call_history_crawler/worker
log_config.py
文件目录:
call_history_crawler/setting
功能实现:
- Requests proxy pool‘s IP 可用
- 相对目标URL proxy pool's IP 可用
- 对于不可用的pool's IP 持久化处理
- 增加log日志功能及分级处理
- 以上所用功能参数可配置
Requests proxy pool‘s IP 可用
相关配置项:
`PROXIES_IP_POOLS`
`IS_IP_AVAILABLE_URL`
`TRY_TIMES`
从PROXIES_IP_POOLS
获取ip后,经过IS_IP_AVAILABLE_URL
(例 如:www.baidu.com
)测试ip是否可用
如果ip可用则继续
如果ip不可用则重试TRY_TIMES
(例如: 3)次,如果TRY_TIMES
次都不可用则从可用ip列表中移除目标ip并重新获取ip
相对目标URL proxy pool's IP 可用
从可用PROXIES_IP_POOLS
获取ip后,经过请求url测试ip是否可用
如果ip可用则继续
如果ip不可用则从可用ip列表中移除目标ip并重新获取ip
对于不可用的pool's IP 持久化处理
借助log日志功能ERROR
级别持久化pools中不可用的ip
LEVEL 级别:
10 : 不可用ip
20 : 目标url不可用ip
级别输出格式:
10: "LEVEL: 10 IP: %s"
20: "LEVEL: 20 IP: %s URL: %s METHOD: %s PARAMS: %s DATA: %s JSON: %s"
增加log日志功能及分级处理
log日志级别:
DEBUG
INFO
WREAING
ERROR
通过IS_LOGFILE
来控制是否持久化log output
通过LOG_DIR
来控制输出目录
通过LEVEL
来控制打印级别