Python安装Scrapy爬虫

┌──(kali㉿kali)-[~/Desktop/subdomain]
└─$ sudo scrapy startproject subdomain
New Scrapy project 'subdomain', using template directory '/usr/local/lib/python3.9/dist-packages/scrapy/templates/project', created in:
    /home/kali/Desktop/subdomain/subdomain

You can start your first spider with:
    cd subdomain
    scrapy genspider example example.com
                                                                         
┌──(kali㉿kali)-[~/Desktop/subdomain]
└─$ cd subdomain 
                                                                         
┌──(kali㉿kali)-[~/Desktop/subdomain/subdomain]
└─$ sudo scrapy genspider first www.baidu.com
Created spider 'first' using template 'basic' in module:
  subdomain.spiders.first
                                                                         
┌──(kali㉿kali)-[~/Desktop/subdomain/subdomain]
└─$ sudo scrapy crawl first --nolog          
                                                                         
┌──(kali㉿kali)-[~/Desktop/subdomain/subdomain]
└─$

scrapy目录结构

安装和运行步骤分为以下几步：
一、环境的安装：
mac or linux：

pip install scrapy

windows:
首先安装wheel库：pip install wheel -i https://pypi.tuna.tsinghua.edu.cn/simple

安装wheel

pip install wheel

下载twisted，下载地址为：https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
cp38对应python3.8版本，cp39对应python3.9版本，以此类推，32或64根据自己电脑系统选择

下载twisted

安装twisted：

pip install Twisted‑17.1.0‑cp36‑cp36m‑win_amd64.whl

安装pywin32库，可以兼容64为的

pip install pywin32

最后安装scrapy

pip install scrapy

安装成功

测试：在终端里录入scrapy指令，没有报错即表示安装成功！
二、创建并执行一个工程：

scrapy startproject xxxPro
例如：scrapy startproject firstBlood

cd xxxPro
例如：

在spiders子目录中创建一个爬虫文件

scrapy genspider spiderName www.xxx.com

新建文件

源文件

执行工程：

scrapy crawl spiderName

但是并没有拿到对应的相应信息，这里是因为遵从了机器爬虫协议，99%的网站都有这种反爬机制

没有对应的相应信息

所以要去设置文件setting.py里面取更改遵从机器爬虫协议为False

遵从爬虫协议改为False

再次执行就可以看到状态码为200的成功信息

响应成功

由于日志太长不想看，所以加上了--nolog参数

执行成功结果

但是会有一个弊端，在这个地方出错了是没有任何信息提示的

没有错误信息提示

只需要在setting.py中加入一行LOG_LEVEL = 'ERROE'就可以了，主要用来显示程序错误信息

显示错误信息

最后编辑于：2021.05.24 14:28:23