2018-08-17

一、初识正则表达式

正则表达式 是一个特殊的字符序列,一个字符串是否与我们所设定的这样的字符序列,相匹配

快速检索文本、实现替换文本的操作

json(xml) 轻量级 web 数据交换格式

[[图片上传失败...(image-1b4425-1534603173151)]](javascript:void(0); "复制代码")

<pre>import re

a='C|C++|Java|C#||Python|Javascript' r= re.findall('Python',a) print(r) if len(r) > 0: print('字符串中包含Python') else: print('No')

['Python']
字符串中包含Python</pre>

[[图片上传失败...(image-ca7b51-1534603173150)]](javascript:void(0); "复制代码")

二、元字符与普通字符

[[图片上传失败...(image-d096d6-1534603173150)]](javascript:void(0); "复制代码")

<pre>import re

a='C0C++7Java8C#9Python6Javascript' r= re.findall('\d',a) print(r)

b=''
for x in a: try:
int(x)
b +=x+','
except : pass

print(b)

结果:
['0', '7', '8', '9', '6']
0,7,8,9,6,</pre>

[[图片上传失败...(image-3925ae-1534603173150)]](javascript:void(0); "复制代码")

'Python' 普通字符 '\d' 元字符

三、字符集

[[图片上传失败...(image-2a3853-1534603173150)]](javascript:void(0); "复制代码")

<pre>import re #找出中间一个字符不是C 和F的 单词
s = 'abc, acc, adc, aec, afc, ahc' r = re.findall('a[^cf]c', s) #[a-z] [cf]
print(r)

结果:
['abc', 'adc', 'aec', 'ahc']</pre>

[[图片上传失败...(image-41d22e-1534603173150)]](javascript:void(0); "复制代码")

四、概括字符集

[[图片上传失败...(image-f112f4-1534603173150)]](javascript:void(0); "复制代码")

<pre>#\d 数字 \D 字母 #\w 数字和字母 =[a-zA-Z0-9_] \W

\s 空白字符 \S

a='python 11\t11java&678p\nh\rp' r = re.findall('\s', a) print(r)

结果:
[' ', '\t', '\n', '\r']</pre>

[[图片上传失败...(image-ad7a61-1534603173150)]](javascript:void(0); "复制代码")

五、数量词

[[图片上传失败...(image-a9fa95-1534603173150)]](javascript:void(0); "复制代码")

<pre>a='python 1111java&678php' r = re.findall('[a-z]{3,6}', a) print(r)

结果:
['python', 'java', 'php']</pre>

[[图片上传失败...(image-f12747-1534603173150)]](javascript:void(0); "复制代码")

六、贪婪与非贪婪

[[图片上传失败...(image-3f84a0-1534603173150)]](javascript:void(0); "复制代码")

<pre>a='python 1111java&678php' r = re.findall('[a-z]{3,6}?', a) #贪婪 与 非贪婪 ?

print(r)

结果:
['pyt', 'hon', 'jav', 'php']</pre>

[[图片上传失败...(image-cf12d9-1534603173150)]](javascript:void(0); "复制代码")

七、匹配0次1次或者无限多次

[[图片上传失败...(image-cee55c-1534603173150)]](javascript:void(0); "复制代码")

<pre># * 匹配0次或者无限多次 # + 匹配1次或者无限多次 # ? 匹配0次或者1次
a='pytho0python1pythonn2pythonw' r = re.findall('python*', a) print(r)

结果:
['pytho', 'python', 'pythonn', 'python']</pre>

[[图片上传失败...(image-d3d1c-1534603173150)]](javascript:void(0); "复制代码")

八、边界匹配符

[[图片上传失败...(image-99a089-1534603173150)]](javascript:void(0); "复制代码")

<pre>qq = '12345678'

4~8

r = re.findall('^\d{4,8}/pre>, qq) print(r)

a = '123456789'

4~8 ^规则^开头结尾

e = re.findall('^\d{4,8}/pre>, a) print(e)

结果:
['12345678']
[]</pre>

[[图片上传失败...(image-de4c57-1534603173150)]](javascript:void(0); "复制代码")

九、组

[[图片上传失败...(image-8cec14-1534603173150)]](javascript:void(0); "复制代码")

<pre># () 组
a = 'pythonpythonpythonpythonpython'

r = re.findall('(python){3}', a) print(r)

结果:
['python'] 代表存在一组(pythonpythonpython) 这样的数据</pre>

[[图片上传失败...(image-1e2436-1534603173150)]](javascript:void(0); "复制代码")

十、匹配模式参数

[[图片上传失败...(image-78930b-1534603173150)]](javascript:void(0); "复制代码")

<pre># I | S 忽略大小写 | 匹配所有字符
lanuage = 'PythonC#\nJavaPHP' r = re.findall('c#.{1}', lanuage,re.I | re.S) print(r)

结果:
['C#\n']</pre>

[[图片上传失败...(image-bd66b9-1534603173150)]](javascript:void(0); "复制代码")

十一、re.sub正则替换

搜索替换

[[图片上传失败...(image-265746-1534603173149)]](javascript:void(0); "复制代码")

<pre>def convert(value):
matched = value.group() # print(value) <_sre.SRE_Match object; span=(6, 8), match='C#'>
return '!!'+matched+'!!' lanuage = 'PythonC#JavaC#PHPC#'

r = re.sub('C#', 'GO', lanuage, 1) 返回结果: PythonGOJavaC#PHPC# # s=lanuage.replace('C#', 'GO')

r = re.sub('C#', convert, lanuage) #传入参数
print(r)

结果:
Python!!C#!!Java!!C#!!PHP!!C#!!</pre>

[[图片上传失败...(image-79f6fa-1534603173149)]](javascript:void(0); "复制代码")

十二、把函数作为参数传递

[[图片上传失败...(image-83e85b-1534603173149)]](javascript:void(0); "复制代码")

<pre>def convert(value):
matched = value.group() #拿到对象的值
# print(value) <_sre.SRE_Match object; span=(6, 8), match='C#'>
if int(matched) >=6 : return '9'
else: return '0' lanuage = 'A8C3721D86' r = re.sub('\d', convert, lanuage) print(r) # A9C0900D99</pre>

[[图片上传失败...(image-f5ba96-1534603173149)]](javascript:void(0); "复制代码")

十三、search与match函数

[[图片上传失败...(image-5c3683-1534603173149)]](javascript:void(0); "复制代码")

<pre>s = 'A8C3721D86'

None 从开头开始匹配 假如没有找到相应的匹配结果 返回None 只匹配一次

r = re.match('\d', s) print(r) #None

搜索这个字符串 一旦找到第一个满足匹配的结果就返回 只匹配一次

r1 = re.search('\d', s) print(r1) #<_sre.SRE_Match object; span=(1, 2), match='8'>
print(r1.group()) #8
print(r1.span()) # (1, 2)
r2 = re.findall('\d', s) print(r2) #['8', '3', '7', '2', '1', '8', '6']</pre>

[[图片上传失败...(image-d35d8a-1534603173149)]](javascript:void(0); "复制代码")

十四、group分组

[[图片上传失败...(image-2fb148-1534603173149)]](javascript:void(0); "复制代码")

<pre>#提取life 和python 之间的值
s = 'life is short,i use python'

None

r = re.search('life.python', s) print(r.group()) #life is short,i use python group(组号)
r = re.search('life(.
)python', s) print(r.group(0)) #life is short,i use python group(组号)
print(r.group(1)) # is short,i use

group(0) 一种特殊情况 匹配正则表达式完整的结果

r = re.findall('life(.*)python', s) print(r) #[' is short,i use ']</pre>

[[图片上传失败...(image-7de018-1534603173149)]](javascript:void(0); "复制代码")

[[图片上传失败...(image-111bd4-1534603173149)]](javascript:void(0); "复制代码")

<pre>s = 'life is short,i use python, i love python' r = re.search('life(.)python(.)python', s) print(r.group(0)) # life is short,i use python, i love python
print(r.group(1)) # is short,i use
print(r.group(2)) # , i love

print(r.group(0,1,2)) #('life is short,i use python, i love python', ' is short,i use ', ', i love ')

print(r.groups()) # (' is short,i use ', ', i love ')</pre>

[[图片上传失败...(image-e6d227-1534603173149)]](javascript:void(0); "复制代码")

十五、一些关于学习正则的建议

[[图片上传失败...(image-6f5d9f-1534603173149)]](javascript:void(0); "复制代码")

<pre>#\d 数字 \D 字母 #\w 数字和字母 =[a-zA-Z0-9_] \W

\s 空白字符 \S # . 匹配除了换行符\n之外其他所有字符 # * 匹配0次或者无限多次 # + 匹配1次或者无限多次 # ? 匹配0次或者1次 # () 组

I | S 忽略大小写 | 匹配所有字符</pre>

[[图片上传失败...(image-758b5b-1534603173149)]](javascript:void(0); "复制代码")

python :爬虫,数据处理

十六、理解JSON

JSON 是一种轻量级的数据交换格式

字符串是JSON的表现形式

符合 JSON 格式的字符串叫做 JSON 字符串

{"name":"qiyue"}

JSON VS XML

优势:

跨语言交换数据

易于阅读

易于解析

网络传输效率高

十七、反序列化

[[图片上传失败...(image-9043d1-1534603173149)]](javascript:void(0); "复制代码")

<pre>import json # JSON object array
json_str = '{"name":"qiyue","age":18}' s = json.loads(json_str) # dict #反序列化
s = json.loads(json_str) #load() 把json 的数据类型 转换为我们自己语言的数据类型
print(type(s)) #<class 'dict'>
print(s) #{'name': 'qiyue', 'age': 18}
print(s['name']) # qiyue
json_str = '[{"name":"qiyue","age":18},{"name":"qiyue","age":18}]' s = json.loads(json_str) print(type(s)) # <class 'list'>
print(s) # [{'name': 'qiyue', 'age': 18}, {'name': 'qiyue', 'age': 18}]</pre>

[[图片上传失败...(image-f24d86-1534603173149)]](javascript:void(0); "复制代码")

[[图片上传失败...(image-6bd3a0-1534603173149)]](javascript:void(0); "复制代码")

<pre>JSON Python
object dict
array list
string str
number int
number float
true True
false False
null None</pre>

[[图片上传失败...(image-6c3b4f-1534603173149)]](javascript:void(0); "复制代码")

十八、序列化

[[图片上传失败...(image-eb536b-1534603173149)]](javascript:void(0); "复制代码")

<pre>#序列化 为json
student = [
{"name":"qiyue","age":18, 'flag':False},
{"name":"python","age":18}
]

json_str = json.dumps(student) print(type(json_str)) # <class 'str'>
print(json_str) #[{"name": "qiyue", "age": 18, "flag": false}, {"name": "python", "age": 18}]</pre>

[[图片上传失败...(image-922f15-1534603173149)]](javascript:void(0); "复制代码")

十九、小谈JSON、JSON对象与JSON字符串

JSON 是一种轻量级的数据交换格式

JSON对象 局限于语言

JSON字符串

JSON 有自己的数据类型

虽然它和JavaScript 的数据类型有些相似 但是他们不是一种语言

ECMASCRIPT一个标准 JavaScript ActionScription JSON 实现标准的一种方案

REST 服务

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,968评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,601评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,220评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,416评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,425评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,144评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,432评论 3 401
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,088评论 0 261
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,586评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,028评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,137评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,783评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,343评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,333评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,559评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,595评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,901评论 2 345

推荐阅读更多精彩内容

  • Python 面向对象Python从设计之初就已经是一门面向对象的语言,正因为如此,在Python中创建一个类和对...
    顺毛阅读 4,210评论 4 16
  • "use strict";function _classCallCheck(e,t){if(!(e instanc...
    久些阅读 2,028评论 0 2
  • 一个Android平台更快更简单更精准的条形码及二维码解析框架。采用ZBar解析图像数据,兼容Android4.0...
    SimonLeeeeeeeee阅读 7,527评论 8 101
  • 存储过程 存储过程(Stored Procedure)是在大型数据库系统中,一组为了完成特定功能的SQL 语句集,...
    Rannio阅读 567评论 0 0
  • 少年老成思故女,云彩唤作青竹梅。 长安初入无人识,浊酒一杯长夜寒。 桥头倚盼君速归,老大嫁作商人妇。 回首前尘,断...
    董之尧阅读 163评论 1 2