今天下午继续饲养虫子玩,尝试把商务部网站上的双边投资协定抓下来,作为资料备用。
startproject bits web
进入bits目录,genspider bit1,出了一只小虫子,bit1。
打开items.py,加入两个item,title和link,前者是条约的标题,后者是条约链接。作为初学者,不搞水平垂直一齐上的模式。先把所有条约的链接抓下来,做个文件,然后再从文件里把链接读出来,再去抓内容。五四式半自动,老枪,可靠。
结果,shell中搞定了xpath,ItemLoader,加进去两个变量。保存。
scrapy crawl bit1
哗啦啦......
字符跑屏,仔细一看,一个数据也没有。弄啥嘞?
再一看,有个错误:
twisted.internet.error.DNSLookupError: DNS lookup failed: no results
DNS解析出错了?我是在Ubuntu下跑的,据说这个系统无线网卡老是不中,掉线连接再掉线,难道我也遇到了?度娘查下,比硬也查下,谷歌不让上,算了。说什么的都有。查了网卡驱动,没事。看了DNS,也没有事哈。有的说把无线路由电源断了重启,我觉得这位老兄是个电工,说法不太行。
一个小时过去了。
我有点烦,打开包黑脸一样的终端,再看你一眼,我这代码在那个苹果本是没有问题,怎么在UB上出事了?
这一看不打紧,我发现了一个极其弱智的错误:
我把start_url写错了。
http://http//tf......
天啊,什么DNS服务器也没法解析啊。以后得再细心些。