Python学习笔记1

[Toc]

Python学习笔记1

学习廖雪峰老师Python入门教程，非常感谢~记录自己在学习python过程中的点滴。

1. Python的简介

Python是著名的“龟叔”Guido van Rossum在1989年圣诞节期间，为了打发无聊的圣诞节而编写的一个编程语言。

C语言适合开发那些追求运行速度、充分发挥硬件性能的程序。而Python是用来编写应用程序的高级编程语言。C语言是编译型的语言，Python是解释型的语言

总的来说，Python的哲学就是简单优雅，尽量写容易看明白的代码，尽量写少的代码。

应用

网络爬虫
- 自动的去互联网上批量下载需要的资源的程序（代替人类）
- 收集数据
- 大数据，机器学习
web开发
- 网站（oa,erp,支付宝，微信，qq，吃鸡）

缺点

运行速度慢
代码不能加密

2. Python的安装

解释器和IDE

CPython
IPython
PyPy
Jython
IronPython
Notepad++
Anaconda（推荐）
Pycharm（推荐）
VScode（推荐）
Sublime Text（推荐）

3. Python的基本操作

运行

示例代码：

print('hello, world')

运行：

C:\work>python hello.py
hello, world

输出

用print()在括号中加上字符串，就可以向屏幕上输出指定的文字。比如输出'hello, world'，用代码实现如下：

>>> print('hello, world')

输入

Python提供了一个input()，可以让用户输入字符串，并存放到一个变量里。比如输入用户的名字：

name = input('please enter your name: ')
print('hello,', name)

>>> please enter your name: Michael
hello, Michael

4. Python的基础

数据类型和变量

在Python中，能够直接处理的数据类型有以下几种：

整数
浮点数
字符串
布尔值
空值
变量
常数

==Tips==：转义字符：\,r''表示''内部的字符串默认不转义,``//''表示整除

对变量赋值x = y是把变量x指向真正的对象，该对象是变量y所指向的。随后对变量y的赋值不影响变量x的指向。

字符串和编码

字符编码

ASCII
GB2312
Unicode
UTF-8

ASCII：由美国人发明，只有127个字符，大小写英文字母、数字和一些符号，比如大写字母A的编码是65，小写字母z的编码是122。

GB2312：为了处理中文，一个字节是不够的，至少需要两个字节，而且还不能和ASCII编码冲突，中国制定了GB2312编码。

Unicode：为避免乱码，Unicode把所有语言都统一到一套编码里，最常用的是用两个字节表示一个字符（如果要用到非常偏僻的字符，就需要4个字节）。现代操作系统和大多数编程语言都直接支持Unicode。

UTF-8：为节约在存储和传输时Unicode编码的存储空间，又出现了把Unicode编码转化为“可变长编码”的UTF-8编码。UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节，常用的英文字母被编码成1个字节，汉字通常是3个字节，只有很生僻的字符才会被编码成4-6个字节。

字符串

Python 3版本中，字符串是以Unicode编码的，支持多语言。

print('包含中文的str')
print('contain chinese str')

>>> 
包含中文的str
contain chinese str

对于单个字符的编码，Python提供了ord()函数获取字符的整数表示，chr()函数把编码转换为对应的字符：

>>> ord('A')
65
>>> ord('中')
20013
>>> chr(66)
'B'
>>> chr(25991)
'文'

bytes类型的数据用带b前缀的单引号或双引号表示：

x = b'ABC'

以Unicode表示的str通过encode()方法可以编码为指定的bytes:

>>> 'ABC'.encode('ascii')
b'ABC'
>>> '中文'.encode('utf-8')
b'\xe4\xb8\xad\xe6\x96\x87'

要把bytes变为str，就需要用decode()方法：

>>> b'ABC'.decode('ascii')
'ABC'
>>> b'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')
'中文'

len()函数计算的是str的字符数，如果换成bytes，len()函数就计算字节数：

>>> len(b'ABC')
3
>>> len(b'\xe4\xb8\xad\xe6\x96\x87')
6
>>> len('中文'.encode('utf-8'))
6

为避免Python代码中注释的乱码，通常在文件开头写上这两行：

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

格式化

%运算符就是用来格式化字符串的,有几个%?占位符，后面就跟几个变量或者值，顺序对应。常见的占位符有：

%s表示用字符串替换，
%d表示用整数替换，
%f表示用浮点数替换，
%x表示用十六进制整数替换。

>>> 'Hello, %s' % 'world'
'Hello, world'
>>> 'Hi, %s, you have $%d.' % ('Michael', 1000000)
'Hi, Michael, you have $1000000.'

format()用传入的参数依次替换字符串内的占位符{0}、{1}……

>>> 'Hello, {0}, 成绩提升了 {1:.1f}%'.format('小明', 17.125)
'Hello, 小明, 成绩提升了 17.1%'

使用list和tuple

list

list是一种有序的集合，可以随时添加和删除其中的元素。比如，列出班里所有同学的名字，就可以用一个list表示：

>>> classmates = ['Michael', 'Bob', 'Tracy']
>>> classmates
['Michael', 'Bob', 'Tracy']

用len()函数可以获得list元素的个数：

>>> len(classmates)
3

用索引来访问list中每一个位置的元素，记得索引是从0开始的：

>>> classmates[0]
'Michael'

当索引超出了范围时，Python会报一个IndexError错误，所以，要确保索引不要越界，记得最后一个元素的索引是len(classmates) - 1。

如果要取最后一个元素，除了计算索引位置外，还可以用-1做索引，直接获取最后一个元素：

>>> classmates[-1]
'Tracy'

list是一个可变的有序表，所以，可以有以下操作：

append()往list中追加元素到末尾,
insert()把元素插入到指定的位置,
pop()删除指定位置的元素,默认删除末尾的元素.
元素替换，在指定位置赋值

list里面的元素的数据类型可以不同，list元素也可以是另一个list。

tuple

另一种有序列表叫元组：tuple。tuple和list非常类似，但是tuple一旦初始化就不能修改。

>>> classmates = ('Michael', 'Bob', 'Tracy')

获取元素的方法和list是一样的，但不能赋值成另外的元素。因为tuple不可变，所以代码更安全。如果可能，能用tuple代替list就尽量用tuple。

使用dict和set

dict

字典，dict全称dictionary，在其他语言中也称为map，使用键-值（key-value）存储，具有极快的查找速度。

>>> d = {'Michael': 95, 'Bob': 75, 'Tracy': 85}
>>> d['Michael']
95

赋值：除了初始化时指定外，还可以通过key放入；
读取：可通过key值操作，如果key不存在，dict就会报错，为避免，一通过in判断key是否存在,二是通过dict提供的get()方法，如果key不存在，可以返回None，或者自己指定的value。
删除：要删除一个key，用pop(key)方法，对应的value也会从dict中删除.

和list比较，dict有以下几个特点：

查找和插入的速度极快，不会随着key的增加而变慢；
需要占用大量的内存，内存浪费多。

而list相反：

查找和插入的时间随着元素的增加而增加；
占用空间小，浪费内存很少。

set

set和dict类似，也是一组key的集合，但不存储value。由于key不能重复，所以，在set中，没有重复的key。

创建：需要提供一个list作为输入集合;
添加：通过add(key)方法可以添加元素到set中，可以重复添加，但不会有效果;
删除：通过remove(key)方法可以删除指定key元素;
交并集操作

5. 正则表达式

正则表达式是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义一个规则，凡是符合规则的字符串，我们就认为它“匹配”了，否则，该字符串就是不合法的。

在正则表达式中，如果直接给出字符，就是精确匹配。用\d可以匹配一个数字，\w可以匹配一个字母或数字，所以：

'00\d'可以匹配'007'，但无法匹配'00A'；
'\d\d\d'可以匹配'010'；
'\w\w\d'可以匹配'py3'；
.可以匹配任意字符，所以,'py.'可以匹配'pyc'、'pyo'、'py!'等等。

要匹配变长的字符，在正则表达式中，

用*表示任意个字符（包括0个），
用+表示至少一个字符，
用?表示0个或1个字符，
用{n}表示n个字符，
用{n,m}表示n-m个字符.

要做更精确地匹配，可以用[]表示范围，比如：

[0-9a-zA-Z\_]可以匹配一个数字、字母或者下划线；
[0-9a-zA-Z\_]+可以匹配至少由一个数字、字母或者下划线组成的字符串，比如'a100'，'0_Z'，'Py3000'等等；
[a-zA-Z\_][0-9a-zA-Z\_]*可以匹配由字母或下划线开头，后接任意个由一个数字、字母或者下划线组成的字符串，也就是Python合法的变量；
[a-zA-Z\_][0-9a-zA-Z\_]{0, 19}更精确地限制了变量的长度是1-20个字符（前面1个字符+后面最多19个字符）。

Python提供re模块，包含所有正则表达式的功能。由于Python的字符串本身也用\转义，所以要特别注意。因此建议使用Python的r前缀，就不用考虑转义的问题了。

match()方法判断是否匹配，如果匹配成功，返回一个Match对象，否则返回None。

>>> import re
>>> re.match(r'^\d{3}\-\d{3,8}$', '010-12345')
<_sre.SRE_Match object; span=(0, 9), match='010-12345'>
>>> re.match(r'^\d{3}\-\d{3,8}$', '010 12345')
>>>

切分字符串

>>> re.split(r'\s+', 'a b   c')
['a', 'b', 'c']

分组

用()表示的就是要提取的分组（Group）。比如：^(\d{3})-(\d{3,8})$分别定义了两个组，group(0)永远是原始字符串，group(1)、group(2)……表示第1、2、……个子串。

>>> t = '19:05:30'
>>> m = re.match(r'^(0[0-9]|1[0-9]|2[0-3]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])$', t)
>>> m.groups()
('19', '05', '30')

(0[0-9]|1[0-9]|2[0-3]|[0-9])表示第一位为0第二位为0~9，或者第一位为1第二位为0~9，或者表示第一位为2第二位为0~3，或者只有一位0~9.

6. IO编程

文件读写

读文件

以读文件的模式打开一个文件对象，使用Python内置的open()函数，传入文件名和标示符：

>>> f = open('/Users/michael/test.txt', 'r')

如果文件不存在，open()函数就会抛出一个IOError的错误，并且给出错误码和详细的信息.

如果文件打开成功,调用read()方法可以一次读取文件的全部内容，Python把内容读到内存，用一个str对象表示.

最后一步是调用close()方法关闭文件。

Python引入了with语句来自动帮我们调用close()方法：

with open('/path/to/file', 'r') as f:
    print(f.read())

若文件过大，可以反复调用read(size)方法，每次最多读取size个字节的内容。另外，调用readline()可以每次读取一行内容，调用readlines()一次读取所有内容并按行返回list。

要读取二进制文件，比如图片、视频等等，用'rb'模式打开文件即可.

要读取非UTF-8编码的文本文件，需要给open()函数传入encoding参数，例如，读取GBK编码的文件：

>>> f = open('/Users/michael/gbk.txt', 'r', encoding='gbk')
>>> f.read()
'测试'

写文件

写文件和读文件是一样的，唯一区别是调用open()函数时，传入标识符'w'或者'wb'表示写文本文件或写二进制文件：

>>> f = open('/Users/michael/test.txt', 'w')
>>> f.write('Hello, world!')
>>> f.close()

同样可以使用with语句：

with open('/Users/michael/test.txt', 'w') as f:
    f.write('Hello, world!'

要写入特定编码的文本文件，请给open()函数传入encoding参数，将字符串自动转换成指定编码。

以'w'模式写入文件时，如果文件已存在，会直接覆盖（相当于删掉后新写入一个文件）。如果希望追加到文件末尾,可以传入'a'以追加（append）模式写入。

最后编辑于：2018.12.16 20:53:16

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,293评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,604评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,958评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,729评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,719评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,630评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,000评论 3赞 397
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,665评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,909评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,646评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,726评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,400评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,986评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,959评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,197评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,996评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,481评论 2赞 342

Python学习笔记1

Python学习笔记1

1. Python的简介

应用

缺点

2. Python的安装

解释器和IDE

3. Python的基本操作

运行

输出

输入

4. Python的基础

数据类型和变量

字符串和编码

字符编码

字符串

格式化

使用list和tuple

list

tuple

使用dict和set

dict

set

5. 正则表达式

6. IO编程

文件读写

读文件

写文件

推荐阅读更多精彩内容