# -*- coding: utf-8 -*-
import scrapy
from Movie.items import MovieItem
class MoviespiderSpider(scrapy.Spider):
name = 'moviespider'
allowed_domains = ['dytt8.net']
start_urls = ['http://www.dytt8.net/html/gndy/dyzz/']
def parse(self, response):
# print(response.text)
movie_list = response.xpath("//div[@class='co_content8']//table")
for movie in movie_list:
item = MovieItem()
item["name"] = movie.xpath(".//a[@class='ulink']/text()").extract_first()
item["date"] = movie.xpath(".//font[@color='#8F8C89']/text()").extract_first().split("\r")[0]
# 获取二级页面的url
next_url = "http://www.dytt8.net" + movie.xpath(".//a[@class='ulink']/@href").extract_first()
yield scrapy.Request(url=next_url,callback=self.parse_next,meta={"item":item})
# meta是response的一个成员变量,加入meta以后可以通过meta把额外一些内容添加到response中
# 定义一个函数用于解析二级页面
def parse_next(self,response):
item = response.meta["item"]
# print(item)
item["haibao"] = response.xpath("//div[@id='Zoom']//img[1]/@src").extract_first()
item["info"] = r"\n".join(response.xpath("//div[@id='Zoom']//p[1]/text()").extract())
item["zhongzi"] = response.xpath("//div[@id='Zoom']//td[@bgcolor='#fdfddf']//a/@href").extract_first()
yield item
5.请求二级页面
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- 1、创建一个工程 打开终端 cd 到你想创建项目的目录,然后执行 这个时候进入文件目录中会看见: 2、打开inde...
- 1 有时候一个页面有好几个网络请求,而网络请求是异步的,有可能一个请求成功,另一个还在请求,在这个过程中如果刷新U...
- 这个听起来有些拗口,我们用图片说话 我们暂且将 "个人中心"称为A控制器;"设置页面"称为:B控制器;"登录页面"...