本文为《爬着学Python》系列第五篇文章。
一般我们学习新的编程语言,其实大体上只分两类工作:语义和语法。其实大致考虑一下,学习自然语言其实也差不多。
所谓语义,指的是该语言所使用的表达单位各自代表什么意思。而语法则指我们如何按照约定的规则组织这些单位实现交流。
举例来说,数据类型就是语义,我们构造出某种概念,并且用某个标记来代表它,各个数据类型不同的操作方式就是语法。
我的计划是不在本文中涉及列表字符串元祖字典这些数据类型,留到数据结构入门再讲。而Python又没有字符型变量,剩下的就只有整型和浮点型了。
一般学任何语言都是离不开数据类型的,因为这是我们完成操作的基本工具,所以总是列一张表格出来,好像是要让人背下来。
但是真的要讲,Python并不存在数据类型这种说法,所有都是对象,都是类。深入讲则会涉及面向对象或者内存管理这些内容,这些也是计划在后面再讲解的内容。今天就只能先大概了解一下留个大概的印象就行了。也就是说,看看就行,不用背数据类型。废话少说,以下是正文。
整数
>>>a = 3
>>>type(a)
<class 'int'>
>>>b = 3
说到数据类型,首当其冲的就是变量声明。所谓变量,是我们使用的基本元素。我们的编程基本上都是针对变量来进行的,他们就像是造房子的砖块。我们可以把简单的变量组合起来,形成复杂的数据结构,就像房子或者桥,能完成一些功能了。
在编程语言中,一般而言我们要使用一个变量,首先要声明它。这相当于告诉计算机我们需要红砖还是地板砖。在Python中,这个过程被省略了。在C语言中,你告诉计算机要一块砖他就真把对应的砖给你,但是Python不会,他会准备好你要的砖,但是他告诉你,这砖是你的了,但我先帮你保管,你要干什么告诉我,我来。
这样有什么区别呢?在C语言中,你先声明两个整型变量
int a;
int b;
内存中会划出两块地方,分别属于这两个变量,你给他赋值的时候,值就存在对应的地方。你分别赋值3,内存中就会存着两个3。Python不一样,刚才的a
和b
其实用的是同一个3。
可以这么做的原因在于,我们刚才说的砖块、房子、桥,说到底不过是概念上的东西,我们手里没有砖,我们没有真的造房子。C语言比较诚实,你要什么给你什么,你要两个一样的,就给你两个。但是Python的逻辑是,反正你用的是无中生有的东西,而且是一样的东西,为什么在乎到底是一个还是两个呢?
Python这样做的好处是,我们只要一个3的内存大小,以后用到3,用它就行了,何必再搞一个同样的东西出来。而且,你以后变卦了,a不想表示整数了,想表示小数(浮点数)也很方便,我弄一个浮点数给你指着就行了。这在C语言里面是做不到的。
Python这样做的弊端在于,后台会多出额外的操作。比如说,b后来不想等于3了,他想等于4
>>>b = 4
这样一来,后台需要创造出一个4,再把b指向这个4。而C语言只需要直接把刚才的3改成4就行了。这样一来,Python就多了额外的工作。因为一样需要两块内存区域,一样是3次赋值,Python多了把变量指来指去的工作,试想一下b要是接着变,可能要再划区,操作差距就会越来越大了。而且,C有条不紊地完成的工作,Python做得看上去比较乱。
简单来说,C语言通过变量声明构造出某种数据类型的变量。Python通过赋值来用变量代表数据对象。
其实,Python作为高级语言,即使是简单数据类型,就已经是一种数据结构,他本身是数据对象的一种引用。这也是为什么a
的类型是<class 'int'>
而不是int
,因为a是类,我们把它当作整型变量。也就是说,Python数据结构入门,从整型开始。在以后更新的文章中,我们会再谈到Python的这种实现方式。
我们完成赋值的过程中,也就完成了新变量的声明。一般变量指向的数据类型是什么,我们就称这个变量是什么类型的变量。所以,我们声明浮点型变量也很自然了。
浮点数
>>>a = 3.5
>>>type(a)
<class 'float'>
浮点数也没什么好讲的,和整数大同小异。浮点数比(短)整数在内存中占的位置更多,运算更慢。
简单运算
关于整数和浮点数,还有不得不提的就是除法。四则运算中,除法是最难搞的。我们可以保证整数加减数乘结果还是整数,但我们无法保证整数相除还是整数,Python中如何处理这种除法结果的类型呢。我们试一下就知道了。当然在此之前首先明确一点,普通四则运算涉及浮点数运算就会默认返回浮点数。
>>>5 / 2
2.5
>>>4 / 2
2.0
>>>2 / 3
0.6666666666666666
>>>5 // 2
2
>>>5.0 // 2
2.0
>>>-5 // 2
-3
>>>5 // -2
-3
>>>5 // -3
-2
在以上的4行语句结果中,我们不难看出,在Python3中:
- 除法运算默认返回浮点数
- 整数相除要想返回整数,可以尝试使用
//
- 但是
//
运算看上去是返回结果的整除部分而不是四舍五入 - 浮点数使用
//
运算返回舍弃小数部分的浮点数 - 负数的
//
运算我们在下面会继续讨论
在以上//
整除运算中被舍弃的部分,其实就是我们一般所说的除法中的余数,Python中取得余数的运算叫作取模,运算符是%
>>>5 % 2
1
>>>4 % 2
0
>>>2 % 3
2
>>>5 % 2.0
1.0
>>>-5 % 2
1
>>>5 % -2
-1
>>>5 % -3
-1
这里面只有一个问题让我们很难以理解,就是负数的取模与整除。之所以要放在一起说,是因为这两个运算是分不开的,因为我们都知道
被除数 除以 除数 等于 商......余数
其中 除数 乘以 商 加上 余数 等于 被除数
于是,在Python处理负数的取模时,希望做到的是,对于同一个被除数,商和除数地位相同。也就是对于同一个被除数,整除所得的结果作为除数要能得到之前的除数。就比如既然5//-3=-2
,那么5//-2
也应该是-3
,他们的余数都应该是-1
。
为了达到这样的目的,Python//
运算的本质其实是返回了一个小于等于除法结果的最大整数。5/-2=-2.5
所以返回了-3
,而不是简单地去掉小数返回一个-2
。
之所以要特地把这个提出来,是因为并不是所有语言中都像Python这样处理。我们在应用过程中要对运算规则和运算结果有相应的预期和了解,防止出现错误。
至于幂运算(包括开方),则不在这里展开了。
关于长整数,也不展开讲了,这个知不知道关系不大,一般来说在Python中即使你直接用那么大的数也不容易出现编码错误。
其他
文章到这里就该结束了。本文意旨帮助新手建立对Python数据类型的认识,中间还是忍不住讲了一点点关于取模的容易出现的错误。在最后,我希望通过对Python数据类型的其他介绍,一方面加深对Python变量和数据类型的认识,一方面也大概了解一下以后的学习内容。
除了普通的整数浮点数,Python还准备了复数,但是这个不太常用,以后也不打算讲了。不过会在面向对象的基础中自定义一个有理数类型,以此引入对Python对象的理解。
关于布尔值和None,会在下一篇控制结构中涉及。
我一再强调,Python变量没有数据类型,因为Python的变量是对象,他的对象可能有数据类型。我们一般说到数据类型,都是针对变量而言的,这对Python来讲其实是不适用的,但是,如果真要用这样的想法,那么Python变量会有各种特殊的类型,包括函数,这会在紧接着的简单程序结构设计中涉及,包括类和异常,这些会在靠后的面向对象程序设计中涉及。
简单数据结构list,tuple,set,dictionary,会先简单介绍一下list和dict,函数式编程中会加深一定的理解,最后在数据结构专题中会仔细介绍这些内置数据结构相关细节。我们会了解生成器、迭代器,我们会了解散列的思想。
关于字符串,这也是我们的重点,因为我们主要写爬虫当实战项目。所以从头到尾我们会反复地讲正则表达式的用法,我们会介绍一些字符串匹配的算法,Python中字符串各种灵活的操作。
python中的一切操作单元,都来源于一个叫作object的东西。以上是我目前能想到的Python变量,有遗漏可能会补。
最后提醒大家,但是始终记住一点,Python作为高级语言,学习中最重要的是理解。我们可以时不时问自己:Python为什么可以这么做,为什么要这么做。比如说本文涉及的内容,为什么变量换值可以写成一行,为什么要把所有东西都变成对象。这样的问题在目前可能不太容易理解,需要我们在一步步深入的学习中去领悟。
如果我们能理解Python语言的设计特点,我们也就掌握了这个语言。