┌──(kali㉿kali)-[~/Desktop/subdomain]
└─$ sudo scrapy startproject subdomain
New Scrapy project 'subdomain', using template directory '/usr/local/lib/python3.9/dist-packages/scrapy/templates/project', created in:
/home/kali/Desktop/subdomain/subdomain
You can start your first spider with:
cd subdomain
scrapy genspider example example.com
┌──(kali㉿kali)-[~/Desktop/subdomain]
└─$ cd subdomain
┌──(kali㉿kali)-[~/Desktop/subdomain/subdomain]
└─$ sudo scrapy genspider first www.baidu.com
Created spider 'first' using template 'basic' in module:
subdomain.spiders.first
┌──(kali㉿kali)-[~/Desktop/subdomain/subdomain]
└─$ sudo scrapy crawl first --nolog
┌──(kali㉿kali)-[~/Desktop/subdomain/subdomain]
└─$
安装和运行步骤分为以下几步:
一、环境的安装:
mac or linux:
pip install scrapy
windows:
首先安装wheel库:pip install wheel -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install wheel
下载twisted,下载地址为:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
cp38对应python3.8版本,cp39对应python3.9版本,以此类推,32或64根据自己电脑系统选择
安装twisted:
pip install Twisted‑17.1.0‑cp36‑cp36m‑win_amd64.whl
安装pywin32库,可以兼容64为的
pip install pywin32
最后安装scrapy
pip install scrapy
测试:在终端里录入scrapy指令,没有报错即表示安装成功!
二、创建并执行一个工程:
scrapy startproject xxxPro
例如:scrapy startproject firstBlood
cd xxxPro
例如:
在spiders子目录中创建一个爬虫文件
scrapy genspider spiderName www.xxx.com
执行工程:
scrapy crawl spiderName
但是并没有拿到对应的相应信息,这里是因为遵从了机器爬虫协议,99%的网站都有这种反爬机制
所以要去设置文件setting.py里面取更改遵从机器爬虫协议为False
再次执行就可以看到状态码为200的成功信息
由于日志太长不想看,所以加上了--nolog参数
但是会有一个弊端,在这个地方出错了是没有任何信息提示的
只需要在setting.py中加入一行LOG_LEVEL = 'ERROE'就可以了,主要用来显示程序错误信息