欢迎来到负基础python课堂的第二课
区别于其他教程的一点是,本课程采用的方式是实战中学习。不会一开始就堆砌所有的python语法,让大家在动手写程序的同时学习相关的python语法,这样才是最快的学习方法。
python基础语法
虽然不会堆砌所有的python语法,但是,最基础的语法,我们还是要搞定的。
首先,大家来看下面的代码:
# -*- coding: UTF-8 -*-
# 从urllib库中导入request库文件
from urllib import request
if __name__ == "__main__":
response = request.urlopen("http://www.baidu.com")
html = response.read()
print(html)
- 这是一个最简单的爬虫(稍后会解释)程序。
代码详解
- 第一行
# -*- coding: UTF-8 -*-
表示的是本文件的python采用的是UTF-8的编码方式。
大家知道如果程序中有中文就要加上这一句话就行了,如果要细究的话,一个星期都说不完。
- 第二行
# 从urllib库中导入request库文件
表示的是注释,简单点说就是让人看懂懂就不会执行这句语句了,所以#符号之后的东西都是不会运行的。
PS:这个注释符号只能注释一句话。
需要多行注释可以用多个 # 号,还有 ''' 和 """(该编辑器只可采用#):
# 这是第一句注释
# 这是第二句注释
"""
这是第一句注释
这是第二句注释
这是第三句注释
"""
以下都是注释:
# 这是一个注释,不会被执行
# 这是第一句注释
# 这是第二句注释
# 这是第三句注释
"""
我也是注释,但是在这里我会被执行
"""
'''
我和楼上老铁一样,我在这里也会被执行
'''
- 第三行
from urllib import request
表示从urllib库中导入request库文件(至于文件是干嘛的,下文中会介绍,大家不要着急)
你可能会问,为什么要导入其他的文件呢?
A:因为python的源程序中是只能做有限的功能的,我们需要其他的库来进行扩充。只要有官方或者其他的人来设计这个库,理论上来说,python能做到绝大多数的事情。
更详细的教程参见:查看廖雪峰博客[https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/0014318447437605e90206e261744c08630a836851f5183000]
- 第四行
if __name__ == "__main__":
这个大家现在可以简单的理解为“主函数”,也就是程序的入口,在这个函数里面(缩进)的代码都将按照顺序执行。
具体的内容参见:http://blog.konghy.cn/2017/04/24/python-entry-program/
- 第五行
response = request.urlopen("http://www.baidu.com")
html = response.read()
我们可以把上面的两句语句简化:
# 1.表示将a的值赋值给b,此时b拥有a的值
b = a
# 2.对b进行变化赋给c,此时c拥有b_的值
c = b_ # 其中_表示对b进行变换(采用某种方法)
现在,我们在回到之前的语句中:
response = request.urlopen("http://www.baidu.com")
html = response.read()
按照之前的推广,解释如下:
1.将request.urlopen("http://www.baidu.com")的值赋给response
2.对response进行变换(read方法)得到一个中间量,并赋值给html
PS:
1.等号左边为变量,可"随便"取名字,如:A,a,boss等。最好与作用对上号。
2..urlopen()/.read()后续会进行介绍
- 第六行
print(html)
第一节课就接触了这个东西,print()是python的输出语句,在python3中被封装为了函数,相当于调用print()函数,括号内的内容为需要输出的内容。
print(1+2)
print("helloworld")
a = 2
b = 3
print(a+b)
输出:
3
helloworld
5
最最最最最最最基础的python语法就简单的过了一遍,给大家选好了两个非常棒的学习python语法的网站,大家有不懂的或者要更详细的自学的可以打开网站好好学习:
1.菜鸟教程:http://www.runoob.com/python3/python3-tutorial.html
2.廖雪峰python教程:https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000
我们当然要在动手中学python啦!
接下来将进入python中最好玩,也是大家学习python的理由的部分
——爬虫
很多人学爬虫就是为了爬虫,觉得爬虫很酷。确实,特别对于学python来说,从爬虫学起是一个非常好的学习python的路线。
那么,问题来了什么是爬虫?
1.URL
爬虫,全称网络爬虫,也叫做网络蜘蛛(Web Spider),顾名思义,爬虫就是在网络上爬的“蜘蛛”,但是,爬虫不光是攀爬,还要爬取,爬取的内容就是你所需要的东西,也就是网页的内容。网络爬虫根据网页的地址寻找需要爬取的网页,这个地址也就是URL,举个例子:http://www.baidu.com/ 就是一个URL,我们可以指定爬虫去爬取某一个URL页面下的某些或者全部内容。
大家还记得开头的那个程序吗?
# -*- coding: UTF-8 -*-
# 从urllib库中导入request库文件
from urllib import request
if __name__ == "__main__":
response = request.urlopen("http://www.baidu.com")
html = response.read()
print(html)
这段程序中urllib这个库就是用来处理URL的,所以我们才会导入(从)这个模块(导入相应的包(库文件))
2.urllib
urllib是一个处理URL的库(官方称为package(包),我更喜欢称为库)。内置很多模块,可以非常方便的处理URL相关的信息。
其中,就包括request库文件(模块)。这就回到我们之前的那个代码中,为什么
from urllib import request
就是为了从urllib中导入requests模块,进而更好的处理URL。
3.urlopen()&read()
urlopen是urllib库中的requests模块的一个函数(功能),使用这个函数就可以很轻松的打开一个URL网页(网站),读取里面的内容。
request使用使用.urlopen()打开和读取URLs信息,返回的对象response如同一个文本对象,我们可以调用read(),进行读取。再通过print(),将读到的信息打印出来。
PS:
request.urlopen()
response.read()
其中的.urlopen(),.read(),可以理解为“使用XX方法”。如:.urlopen()-使用urlopen方法;.read()-使用read方法。
我们来完整的运行一遍程序:
# -*- coding: UTF-8 -*-
# 从urllib库中导入request库文件
from urllib import request
if __name__ == "__main__":
response = request.urlopen("http://www.baidu.com")
html = response.read()
print(html)
打印(输出)的内容就是www.baidu.com 这个URL所指的网页(百度)的内容。
我们可以看到内容中有很多的\n\r\xe7之类的符号,那是因为编码的问题(以后会涉及,现在先不说,不影响现在学习。)
我们只需要在
html = response.read() # 后加上.decode()
html = response.read().decode()
也可以
html = response.read()
html = html.decode()
表示将read后的内容(打印出来的内容)进行解码(使用decode方法,用"utf-8"解码)(以后会涉及,现在先不说,不影响现在学习。)
现在再看看打印的结果:
# -*- coding: UTF-8 -*-
# 从urllib库中导入request库文件
from urllib import request
if __name__ == "__main__":
response = request.urlopen("http://www.baidu.com")
html = response.read().decode("utf-8")
print(html)
第一个爬虫程序就完成了!
之后,我们还会用爬虫爬取图片,电影排行,房屋租售信息,股票信息,并且对爬取的内容进行数据分析,想想就很酷了~