一、实验目的和要求:
爬取川大公共管理学院网站新闻栏里的链接,进而获取详情页信息。
二、实验步骤:
(1)分析被采集对象:公共管理学院网站新闻栏里的新闻标题以及详情页的文本信息等。
利用开发者工具,我们可以查看标题链接代码
在linux配置好scrapy的前提下,每次使用需要先激活虚拟环境
cd /home/slx/venv //进入venv虚拟环境的目录
source bin/activate //激活
(2)创建一个新的Scrapy项目,运行下列命令
# scrapy startproject newsbox
(3)定义item
(4)编写爬虫
设置完items之后,在spiders目录下新建一个ggglnews.py文件,代码如下:
(5)运行命令,得到数 据,并得到命名为ggglnews的xml文件
scrapy crawl ggglnews -o ggglnews.xml
截取部分内容显示如下:在终端显示的内容
三、实验结果:
爬取到的十二条item数据对应新闻栏的十二条新闻消息
四、讨论和分析:
过程中遇到的难点:定位元素并利用xpath进行路径选择