第六章 字符串与正则表达式

6.1 字符串编码格式简介

  • ASCII、GB2312、UTF-8不同编码格式之间相差很大,采用不同的编码格式意味着不同的表示和存储形式,把同一字符存入文件时,写入的内容可能会不同,在试图理解其内容时必须了解编码规则并进行正确的解码。
  • 如果解码方法不正确就无法还原信息,从这个角度来讲,字符串编码也具有加密的效果。
  • Python 3.X完全支持中文字符,默认使用UTF-8编码格式,无论是一个数字、英文字母,还是一个汉字,在统计字符串长度时都按一个字符对待和处理。
>>> s='中国山东烟台'
>>> len(s)  #字符串长度,或者包含的字符个数
6
>>> s='中国山东烟台ABCDE'  #中文与英文字符同样对待,都算一个字符
>>> len(s)
11

6.2 字符串

  • 在Python中,字符串也属于序列类型,除了支持序列通用方法(包括切片操作)以外,还支持特有的字符串操作方法。
  • 字符串属于不可变序列。
>>> testString='good'
>>> testString[0]='b'
Traceback (most recent call last):
  File "<pyshell#5>", line 1, in <module>
    testString[0]='b'
TypeError: 'str' object does not support item assignment
  • Python字符串驻留机制:对于短字符串,将其赋值给多个不同的对象时,内存中只有一个副本,多个对象共享给该副本。长字符串不遵守驻留机制。
  • 判断一个变量s是否为字符串,应使用isinstance()或type()。

6.2.1 字符串格式化

字符串格式化语法

常用格式字符
>>> x=1235
>>> so="%o"%x
>>> print(so)
2323
>>> sh="%x"%x
>>> print(sh)
4d3
>>> "%s"%65
'65'
>>> "%s"%65333
'65333'
>>> "%d"%"555"
Traceback (most recent call last):
  File "<pyshell#13>", line 1, in <module>
    "%d"%"555"
TypeError: %d format: a number is required, not str
  • 使用format方法进行格式化
>>> print('{0:.3f},{1:.6f}'.format(1/3,2/3))
0.333,0.666667
>>> print('my name is {name},my age is{age},and my QQ is {qq}'.format(name='Dong Fuguo',age=37,qq="306467355"))
my name is Dong Fuguo,my age is37,and my QQ is 306467355
format语法
  • 格式化的字符串常量
  • Python 3.6.x开始支持新的字符串格式化方式,官方称为Formatted String Literals.
>>> width=10
>>> precision=4
>>> value=11/3
>>> f'result:{value:{width}.{precision}}'
'result:     3.667'
  • 使用Tempplate模板进行格式化
    Template()里面把字符串中某个值用设置变量${key}的方式先写好,然后在substitute()的方式把变量用其他值代替,就完成了字符串的替换。
>>> t=Template('My name is ${name},and is ${age} years old.')
>>> d={'name';'Dong','age':39}
SyntaxError: invalid syntax
>>> d={'name':'Dong','age':39}
>>> t.substitute(d)
'My name is Dong,and is 39 years old.'

6.3 字符串常用操作

  • Python字符串对象提供了大量方法用于字符串的切分、连接、替换和排版等操作,另外还有大量内置函数和运算符也支持对字符串的操作。
  • 字符串对象是不可变的,所以字符串对象提供的涉及到字符串"修改"的方法都是返回修改后的新字符串,并不对原始字符串做任何修改,无一例外。

6.3.1 字符串搜索

  • find()、rfind()、index()、rindex()、count()
    √ find()和rfind()方法分别从左(右)查找一个字符串在另一个字符串指定范围
    (默认是整个字符串)中首次出现的位置,如果不存在则返回-1;
    √ index()和rindex()方法用来返回一个字符串在另一个字符串指定范围中首次出现的位置,如果不存在则抛出异常;
    √ count()方法用来返回一个字符串在当前字符串中出现的次数。
>>> s="apple,peach,banana,peach,pear"
>>> s.find("peach")
6
>>> s.find("peach",7)
19
>>> s.find("peach",7,20)
-1
>>> s.rfind("p")
25
>>> s.index("p")
1
>>> s.index("pe")
6
>>> s.index("pear")
25
>>> s.index("ppp")
Traceback (most recent call last):
  File "<pyshell#137>", line 1, in <module>
    s.index("ppp")
ValueError: substring not found
>>> s.count("p")
5
>>> s.count("pp")
1
>>> s.count("ppp")
0
  • s.startswith(t)、s.endswith(t)
  • 判断字符串是否以指定字符串开始或结束
>>> s='Beautiful is better than ugly.'
>>> s.startswith('Be')  #检测整个字符串
True
>>> s.startswith('Be',5)   #指定检测范围起始位置
False
>>> s.startswith('Be',0,5)  #指定检测范围起始和结束位置
SyntaxError: invalid character in identifier
>>> s.startswith('Be',0,5)  #指定检测范围起始和结束位置
SyntaxError: invalid character in identifier
>>> s.startswith('Be',0,5)  #指定检测范围起始和结束位置
True
>>> import os
>>> [filename for filename in os.listdir('c:\\')if filename.endswith(('.bmp','.jpg','gif'))]
[]

6.3.2 字符串拆分

  • split()、rsplit()、partition()、rpartition()
    √ split()和rspilt()方法分别用来以指定字符为分隔符,把当前字符串从左往右或从右往左分隔成多个字符串,并返回包含分隔结果的列表;
    √ paratition()和rpartition()用来以指定字符串为分隔符将原字符串分隔为3部分,即分隔符前的字符串、分隔符字符串、分隔符后的字符串,如果指定的分隔符不在原字符串中,则返回原字符串和两个空字符串。
  • 对于split()和rsplit()方法,如果不指定分隔符,则字符串中任何空白符号(空格、换行符、制表符等)都将被认为是分隔符,把连续多个空白字符看作一个分隔符。
>>> s='hello world \n\n My name is Dong     '
>>> s.split()
['hello', 'world', 'My', 'name', 'is', 'Dong']
>>> s='\n\nhello\t\t world \n\n\n My name\t is Dong '
>>> s.split()
['hello', 'world', 'My', 'name', 'is', 'Dong']
>>> s="apple,peach,banana,pear"
>>> s.split(",")     #','是分隔符
['apple', 'peach', 'banana', 'pear']
>>> s.partition(',')
('apple', ',', 'peach,banana,pear')
>>> s.rpartition(',')
('apple,peach,banana', ',', 'pear')
>>> s="2017-10-31"
>>> t=s.split("-")
>>> print(t)
['2017', '10', '31']
>>> print(list(map(int,t)))
[2017, 10, 31]
  • split()方法和rsplit()方法还允许指定最大分割次数。
>>> s='\n\nhello\t\t world \n\n\n My name\t is Dong   '
>>> s.rsplit(None,2)
['\n\nhello\t\t world \n\n\n My name', 'is', 'Dong']
>>> s.split(maxsplit=6)
['hello', 'world', 'My', 'name', 'is', 'Dong']
>>> s.split(maxsplit=100) #最大分割次数大于可分割次数时无效
['hello', 'world', 'My', 'name', 'is', 'Dong']
  • 然而,明确传递参数指定split()使用的分隔符时,情况是不一样的。
>>> 'a,,,bb,,ccc'.split(',') #每个逗号都被作为独立的分隔符
['a', '', '', 'bb', '', 'ccc']
>>> 'a\t\t\tbb\t\tccc'.split() #连续多个制表符被作为一个分隔符
['a', 'bb', 'ccc']

6.3.3 字符串组合

  • 字符串连接 join()
>>> li=["apple","peach","banana","pear"]
>>> ','.join(li)   #  ','为连接符
'apple,peach,banana,pear'
>>> '::'.join(li)
'apple::peach::banana::pear'

6.3.4 字母大小写转换

  • lower()、upper()、capitalize()、title()、swapcase()
>>> s="What is Your Name?"
>>> s.lower()  #返回小写字符串
'what is your name?'
>>> s.upper()  #返回大写字符串
'WHAT IS YOUR NAME?'
>>> s.capitalize()  #字符串首字符大写
'What is your name?'
>>> s.title()  #每个单词的首字母大写
'What Is Your Name?'
>>> s.swapcase()  #大小写互换
'wHAT IS yOUR nAME?'

6.3.5 字符串替换

  • 查找替换 replace()
>>> print("abcdabc".replace("abc","ABC"))
ABCdABC
  • 问题解决:测试用户输入中是否有敏感词,如果有的话就把敏感词替换为3个星号***。
>>> words=('测试','非法','暴力','话')
>>> text='这句话里含有非法内容'
>>> for word in words:
    if word in text:
        text=text.replace(word,'***')

>>> text
'这句***里含有***内容'
  • 字符串对象的marktrans()方法用来生成字符映射表,而translate()方法用来根据映射表中定义的对应关系转换字符串并替换其中的字符,使用这两个方法的组合可以同时处理多个字符。
>>> #创建映射表,将字符"abcdef123"--对应地转换为"uvwxyz@#$",这两个参数不是作为整体进行处理的。
>>> table=''.maketrans('abcdef123','uvwxyz@#$')
>>> s="Python is a grest programming language.Ilike it!"
>>> #按映射表进行替换
>>> s.translate(table)
'Python is u gryst progrumming lunguugy.Iliky it!'
  • strip()、rstrip()、lstrip() 这三个函数的参数指定的字符串并不作为一个整体对待,而是在原字符串的两侧、右侧、左侧删除参数字符串中包含的所有字符,一层一层地从外往里扒。
>>> s=" abc  "
>>> s.strip() #删除两端空白字符
'abc'
>>> "aaaassddf".strip("a")   #删除指定字符
'ssddf'
>>> "aaaassddfaaa".rstrip("a") #删除字符串右端指定字符
'aaaassddf'
>>> "aaaassddfaaa".lstrip("a") #删除字符串左端指定字符
'ssddfaaa'
>>> 'aabbccddeeeffg'.strip('af')  #字母f不在字符串两侧,所以不删除
'bbccddeeeffg'
>>> 'aabbccddeeeffg'.strip('gaf')
'bbccddeee'
>>> 'aabbccddeeeffg'.strip('gbaef')
'ccdd'
>>> 'aabbccddeeeffg'.strip('gbaefcd')
''

6.3.7 字符串类型测试

  • isalnum()、isalpha()、isdigit()、isspace()、isupper()、islower()、istitle()等用来测试字符串是否为数字或字母、是否为字母、是否为数字字符、是否为空白字符、是否为大写字母、是否为小写字母及是否为首字母大写。
>>> '1234abcd'.isalnum()
True
>>> '1234abcd'.isalpha()  #全部为数字时返回True
False
>>> '1234abcd'.isdigit()  #全部为数字时返回True
False
>>> 'abcd'.isalpha()
True
>>> '1234.0'.isdigit()
False
>>> 

6.3.8 字符串对齐处理

  • center()、ljust()、rjust(),返回指定宽度的新字符串,原字符串居中、左对齐或右对齐出现在新字符串中,如果指定宽度大于字符串长度,则使用指定的字符(默认为空格)进行填充。zfill()返回指定宽度的字符串,在左侧以字符0进行填充。
>>> 'Hello world!'.center(20)   #居中对齐,以空格进行填充
'    Hello world!    '
>>> 'Hello world!'.center(20,'=')   #居中对齐,以字符=进行填充
'====Hello world!===='
>>> 'Hello world!'.ljust(20,'=')    #左对齐
'Hello world!========'
>>> 'Hello world!'.rjust(20,'=')    #右对齐
'========Hello world!'
>>> 'uio'.zfill(20)
'00000000000000000uio'
  • 字符串内置函数:Len(),max(),min(),eval(),input().
  • 字符串切片操作:切片也适用于字符串,但仅限于读取其中的元素,不支持字符串的修改。

6.4 正则表达式

  • 正则表达式是字符串处理的有力工具和技术。
  • 正则表达式使用某种预定义的模式去匹配一个一类具有共同特征的字符串,主要用于处理字符串,可以快速、准确地完成复杂的查找、替换等处理要求。
  • Python中,re模块提供了正则表达式操作所需要的功能。
  • 正则表达式在文本编辑与处理、网页爬虫之类的场合中有重要应用。

6.4.1 正则表达式元字符

正则表达式元字符1

正则表达式元字符2
  • 最简单的正则表达式是普通字符串,可以匹配自身
  • '[pjc]ython' 可以匹配'python'、'jython'、'cython'。
  • '[a-zA-Z0-9]'可以匹配一个任意大小写字母或数字''
  • '[^abc]'可以一个匹配任意除'a'、'b'、'c'之外的字符。
  • 'python|perl'或'p(ython|erl)'都可以匹配'python'或'perl'
  • 子模式后面加上问号表示可选。r'(http://)?(www.)?python.org'只能匹配'http://www.python.org'、'http://python.org'、'www.python.org'和'python.org'
  • ‘^http’只能匹配所有以'http'开头的字符串
  • (pattern)*:允许模式重复0次或多次
  • (pattern)+:允许模式重复1次或多次
  • (pattern){m,n}:允许模式重复m~n次

6.4.2 直接使用re模块方法

re模块主要方法:

  • compile(pattern[,flags]):创建模式对象
  • search(pattern,string[,flags]):在字符串中寻找模式
  • match(pattern,string[,flags]):从字符串的开始匹配模式
  • findall(pattern,string[,flags]):列出字符串中模式的所有匹配项
  • split(pattern,string[,maxsplit=0]):根据模式匹配项分割字符串
  • sub(pat,repl,string[,count=0]):将字符串中所有pat的匹配项用repl替换
  • escape(string):将字符串中所有特殊正则表达式字符转义
    其中,flag是匹配模式,其值可以是re.I(忽略大小写)、re.L、re.M(多行匹配模式)、re.S(使元字符‘.’匹配任意字符,包括换行符)、re.U(匹配Unicode字符)、re.X(忽略模式中的空格)并可以使用#注释的不同组合。
>>> import re
               
>>> text='alpha.beta...gamma delta'
               
>>> re.split('[\.]+',text)
               
['alpha', 'beta', 'gamma delta']
>>> re.split('[\.]+',text,maxsplit=2)  #分割2次
               
['alpha', 'beta', 'gamma delta']
>>> pat='[a-zA-Z]+'
               
>>> re.findall(pat,text)  #查找所有单词
               
['alpha', 'beta', 'gamma', 'delta']
>>> pat='{name}'
               
>>> text='Dear {name}...'
               
>>> re.sub(pat,'Mr.Dong',text)  #字符串替换
               
'Dear Mr.Dong...'
>>> print(re.match('done|quit','done'))   #匹配成功
               
<re.Match object; span=(0, 4), match='done'>
>>> re.escape('http://www.python.org')   #字符串转义
               
'http://www\\.python\\.org'

6.4.3 使用正则表达式对象

正则表达式对象
>>> import re
>>> example='ShanDong Institute of Business and Technology'
>>> pattern=re.compile(r'\bB\w+\b') #以B开头的单词
               
>>> pattern.findall(example)
               
['Business']
>>> pattern=re.compile(r'\b[a-zA-Z]{3}\b') #查找3个字母长的单词
               
>>> pattern.findall(example)
               
['and']
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容