在进行抓取网络信息的过程中,xpath 有两种获取文本的方式。
- text()
- ..xpath('string(.)')
但这两种方式获取的文本会有细微的不同:
<div class = 'a'>
text1
<br>
text3
<br>
text4
<br>
text5
<br>
</div>
此时 如果用html.xpath('//div[@class="a"]/text()'),将会得到text1
如果想获取text1 text2 text3 text4 text5,可以用string
data = html.xpath('//div[@class="a"]')
alltext = data.xpath('string(.)')