《利用Python进行数据分析》第7章字符串操作与正则表达式

字符串操作

Python有简单易用的字符串和文本处理功能，大部分文本运算都直接做成了字符串对象的内置方法。对于更为复杂的模式匹配和文本操作，则可能需要用到正则表达式。

字符串对象方法

以逗号分隔的字符串可以用split拆分成数段

In [4]: val='a,bc,c, gudio'

In [5]: val.split(',')
Out[5]: ['a', 'bc', 'c', ' gudio']

In [6]: val='a,bc ,c, gudio'

In [7]: val.split(',')
Out[7]: ['a', 'bc ', 'c', ' gudio']

split常常结合strip（用于修剪空白符（包括换行符））一起使用

In [8]: pieces=[x.strip() for x in val.split(',')]

In [9]: pieces
Out[9]: ['a', 'bc', 'c', 'gudio']

利用加法，可以将这些子字符串以双冒号分隔符的形式连接起来

In [13]: first,second,third,four=pieces

In [14]: first +'::'+ second +'::'+ third +'::'+four
Out[14]: 'a::bc::c::gudio'

向字符串"::"的join方法传入一个列表或元组

In [15]: '::'.join(pieces)
Out[15]: 'a::bc::c::gudio'

检测子串的最佳方式是利用Python的in关键字（还可以使用index和find）

In [16]: 'guido' in val
Out[16]: False

In [17]: 'gudio' in val
Out[17]: True

In [18]: val.index(',')
Out[18]: 1

In [19]: val.find(':')
Out[19]: -1

In [20]: val.find('bc')
Out[20]: 2

In [21]: val.find('c')
Out[21]: 3

In [22]: val.index('c')
Out[22]: 3

注意find和index的区别：如果找不到字符串，index将会引发一个异常（而不是返回－1）

In [23]: val.index(':')
---------------------------------------------------------------------------
ValueError Traceback (most recent call last)
<ipython-input-23-280f8b2856ce> in <module>()
----> 1 val.index(':')

ValueError: substring not found

count函数，它可以返回指定子串的出现次数

In [24]: val.count(',')
Out[24]: 3

replace用于将指定模式替换为另一个模式。它也常常用于删除模式：传入空字符串

In [25]: val.replace(',','::')
Out[25]: 'a::bc ::c:: gudio'

In [26]: val.replace(',','')
Out[26]: 'abc c gudio'

In [27]: val
Out[27]: 'a,bc ,c, gudio'

In [28]: val.replace('c','m')
Out[28]: 'a,bm ,m, gudio'

In [29]: val.replace('bc','abcd')
Out[29]: 'a,abcd ,c, gudio'

字母转换为大写

In [30]: val.upper()
Out[30]: 'A,BC ,C, GUDIO'

Python内置的字符串方法如表7-3所示

Python内置的字符串方法

正则表达式

正则表达式（通常称作regex）提供了一种灵活的在文本中搜索或匹配字符串模式的方式。正则表达式是根据正则表达式语言编写的字符串。Python内置的re模块负责对字符串应用正则表达式。

re模块的函数可以分为三个大类：模式匹配、替换以及拆分。当然，它们之间是相辅相成的。一个regex描述了需要在文本中定位的一个模式，它可以用于许多目的。我们先来看一个简单的例子：假设我想要拆分一个字符串，分隔符为数量不定的一组空白符（制表符、空格、换行符等）。描述一个或多个空白符的regex是\s+：

In [35]: import re

In [36]: text="foo bar\t baz \tqux"

In [37]: re.split('\s+',text)
Out[37]: ['foo', 'bar', 'baz', 'qux']

调用re.split('\s+',text)时，正则表达式会先被编译，然后再在text上调用其split方法。你可以用re.compile自己编译regex以得到一个可重用的regex对象

In [38]: regex=re.compile('\s+')

In [39]: regex.split(text)
Out[39]: ['foo', 'bar', 'baz', 'qux']

如果只希望得到匹配regex的所有模式，则可以使用findall方法

In [40]: regex.findall(text)
Out[40]: [' ', '\t ', ' \t']

注意：如果想避免正则表达式中不需要的转义（\），则可以使用原始字符串字面量如r'C:\x'（也可以编写其等价式'C:\x'）。

如果打算对许多字符串应用同一条正则表达式，强烈建议通过re.compile创建regex对象。这样将可以节省大量的CPU时间。

match和search跟findall功能类似。findall返回的是字符串中所有的匹配项，而search则只返回第一个匹配项。match更加严格，它只匹配字符串的首部。来看一个小例子，假设我们有一段文本以及一条能够识别大部分电子邮件地址的正则表达式：

In [41]: text = """Dave dave@google.com
    ...: Steve steve@gmail.com
    ...: Rob rob@gmail.com
    ...: Ryan ryan@yahoo.com"""

In [42]: pattern = r'[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}'

re.IGNORECASE的作用是使正则表达式对大小写不敏感

In [43]: regex=re.compile(pattern,flags=re.IGNORECASE)

对text使用findall将得到一组电子邮件地址

In [44]: regex.findall(text)
Out[44]: ['dave@google.com', 'steve@gmail.com', 'rob@gmail.com', 'ryan@yahoo.com']

search返回的是文本中第一个电子邮件地址（以特殊的匹配项对象形式返回）。对于上面那个regex，匹配项对象只能告诉我们模式在原字符串中的起始和结束位置

In [45]: m=regex.search(text)
In [46]: m
Out[46]: <_sre.SRE_Match object; span=(5, 20), match='dave@google.com'>

regex.match则将返回None，因为它只匹配出现在字符串开头的模式

In [47]: print(regex.match(text))
None

sub方法，它会将匹配到的模式替换为指定字符串，并返回所得到的新字符串

In [48]: print(regex.sub('REDACTED',text))
Dave REDACTED
Steve REDACTED
Rob REDACTED
Ryan REDACTED

假设你不仅想要找出电子邮件地址，还想将各个地址分成3个部分：用户名、域名以及域后缀。要实现此功能，只需将待分段的模式的各部分用圆括号包起来即可

In [49]: pattern = r'([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\.([A-Z]{2,4})'

In [50]: regex = re.compile(pattern, flags=re.IGNORECASE)

由这种正则表达式所产生的匹配项对象，可以通过其groups方法返回一个由模式各段组成的元组

In [51]: m=regex.match('wesm@bright.net')

In [52]: m.groups()
Out[52]: ('wesm', 'bright', 'net')

对于带有分组功能的模式，findall会返回一个元组列表

In [53]: regex.findall(text)
Out[53]: 
[('dave', 'google', 'com'),
('steve', 'gmail', 'com'),
('rob', 'gmail', 'com'),
('ryan', 'yahoo', 'com')]

sub还能通过诸如\1、\2之类的特殊符号访问各匹配项中的分组

In [54]: print(regex.sub(r'Username: \1, Domain: \2, Suffix: \3', text))
Dave Username: dave, Domain: google, Suffix: com
Steve Username: steve, Domain: gmail, Suffix: com
Rob Username: rob, Domain: gmail, Suffix: com
Ryan Username: ryan, Domain: yahoo, Suffix: com

对上面那个电子邮件正则表达式做一点小变动：为各个匹配分组加上一个名称

In [55]: regex = re.compile(r"""(?P<username>[A-Z0-9._%+-]+)
    ...: @(?P<domain>[A-Z0-9.-]+)\.
    ...: (?P<suffix>[A-Z]{2,4})""",
    ...: flags=re.IGNORECASE|re.VERBOSE)

由这种正则表达式所产生的匹配项对象可以得到一个简单易用的带有分组名称的字典

In [56]: m = regex.match('wesm@bright.net')

In [57]: m
Out[57]: <_sre.SRE_Match object; span=(0, 15), match='wesm@bright.net'>

In [58]: m.groupdict()
Out[58]: {'domain': 'bright', 'suffix': 'net', 'username': 'wesm'}

正则表达式的方法与说明如表所示

正则表达式的方法与说明

pandas中矢量化的字符串函数

含有字符串的列有时还含有缺失数据，清理待分析的散乱数据时，常常需要做一些字符串规整化工作。

In [59]: data = {'Dave': 'dave@google.com', 'Steve': 'steve@gmail.com',
    ...: 'Rob': 'rob@gmail.com', 'Wes': np.nan}

In [60]: data=Series(data)

In [61]: data
Out[61]: 
Dave dave@google.com
Rob rob@gmail.com
Steve steve@gmail.com
Wes NaN
dtype: object

In [62]: data.isnull()
Out[62]: 
Dave False
Rob False
Steve False
Wes True
dtype: bool

通过data.map，所有字符串和正则表达式方法都能被应用于（传入lambda表达式或其他函数）各个值，但是如果存在NA就会报错。为了解决这个问题，Series有一些能够跳过NA值的字符串操作方法。通过Series的str属性即可访问这些方法。例如，我们可以通过str.contains检查各个电子邮件地址是否含有"gmail"

In [63]: data.str.contains('gmail')
Out[63]: 
Dave False
Rob True
Steve True
Wes NaN
dtype: object

可以使用正则表达式，还可以加上任意re选项（如IGNORECASE）

In [64]: pattern
Out[64]: '([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\\.([A-Z]{2,4})'

In [65]: data.str.findall(pattern,flags=re.IGNORECASE)
Out[65]: 
Dave [(dave, google, com)]
Rob [(rob, gmail, com)]
Steve [(steve, gmail, com)]
Wes NaN
dtype: object

有两个办法可以实现矢量化的元素获取操作：要么使用str.get，要么在str属性上使用索引

In [66]: matches=data.str.match(pattern,flags=re.IGNORECASE)

In [67]: matches
Out[67]: 
Dave True
Rob True
Steve True
Wes NaN
dtype: object

以下的str.get()方法和str()方法结果和书上不同，可能是版本问题。

In [71]: matches.str.get(1)
Out[71]: 
Dave NaN
Rob NaN
Steve NaN
Wes NaN
dtype: float64

In [72]: matches.str[0]
Out[72]: 
Dave NaN
Rob NaN
Steve NaN
Wes NaN
dtype: float64

可以利用对字符串进行子串截取

In [73]: data.str[:5]
Out[73]: 
Dave dave@
Rob rob@g
Steve steve
Wes NaN
dtype: object

表7-5介绍了矢量化的字符串方法

矢量化的字符串方法

完成本章的练习了，接下来继续学习下章的可视化知识。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,378评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,356评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,702评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,259评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,263评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,036评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,349评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,979评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,469评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,938评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,059评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,703评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,257评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,262评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,485评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,501评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,792评论 2赞 345

《利用Python进行数据分析》第7章 字符串操作与正则表达式

字符串操作

字符串对象方法

正则表达式

pandas中矢量化的字符串函数

推荐阅读更多精彩内容

《利用Python进行数据分析》第7章字符串操作与正则表达式