这里云里雾里滴跨进了爬虫,有些函数和原理没大弄清楚才误打误撞的这样前进着。在初学爬虫零基础阶段,首先,一定要弄明白函数(定义、调用、封装);其次,要弄清楚爬虫的逻辑。二者是能否学会爬虫的基础。
import requests
from lxml import etree
html= requests.get("http://www.jianshu.com/").text
selector = etree.HTML(html)
titles = selector.xpath('//a[@class="title"]/text()')
for i in range(len(titles)):
print("第 %d 篇文章的标题是:" % (i+1), titles[i])
运行结果:
C:\ProgramData\Anaconda3\python.exe E:/pyproject/jianshu2.py
第 1 篇文章的标题是: 假装很努力,是年轻人的典型幼稚病
第 2 篇文章的标题是: 这些网站,让你甩别人一万条街!
第 3 篇文章的标题是: 世界正在偷偷奖励会写作的人
第 4 篇文章的标题是: 真实故事 | 出狱十天后,我选择再次进去
第 5 篇文章的标题是: 我要娶这样的你
第 6 篇文章的标题是: 关于食的哲学沉思录:1.食色性也?食色习也!
第 7 篇文章的标题是: 从心理学角度分析:如何找到你的方向
第 8 篇文章的标题是: 上海人外地人
第 9 篇文章的标题是: 想要体面的生活,请放下你的自尊
第 10 篇文章的标题是: 成都旅游,看这篇攻略就够了【内附吃住行完整攻略】
第 11 篇文章的标题是: 成为签约作者究竟有什么好处?
第 12 篇文章的标题是: 是不是真爱过,看分手后的样子
第 13 篇文章的标题是: 丫头,愿你归来,依然热爱
第 14 篇文章的标题是: 中国古代十大才子,你知道几个?
第 15 篇文章的标题是: 你的男朋友只需要这5款衬衫就够了 | 鳗言穿搭的第52天
第 16 篇文章的标题是: 舒淇:这22年,摆脱“脱星”又谈何容易
第 17 篇文章的标题是: 有些路,只能一个人走
第 18 篇文章的标题是: 《我在腾讯这五年》2012心中向往的大腾讯
第 19 篇文章的标题是: 对不起,我不想尊重老人
第 20 篇文章的标题是: 每个人,都走在朝圣的路上