Python 中拼音库 PyPinyin 的使用

ython 中提供了汉字转拼音的库，名字叫做 PyPinyin，可以用于汉字注音、排序、检索等等场合，是基于 hotto/pinyin 这个库开发的，一些站点链接如下：

GitHub: https://github.com/mozillazg/python-pinyin

文档： https://pypinyin.readthedocs.io/zh_CN/master/

PyPi： https://pypi.org/project/pypinyin/

它有这么几个特性：

根据词组智能匹配最正确的拼音。
支持多音字。
简单的繁体支持, 注音支持。
支持多种不同拼音/注音风格。

是不是等不及了呢？那就让我们来了解一下它的用法吧！
安装
首先就是这个库的安装了，通过 pip 安装即可：
pip3 install pypinyin

安装完成之后导入一下这个库，如果不报错，那就说明安装成功了。

>>> import pypinyin

好，接下来我们看下它的具体功能。

基本拼音

首先我们进行一下基本的拼音转换，方法非常简单，直接调用 pinyin 方法即可：

from pypinyin import pinyin

print(pinyin('中心'))

运行结果：
[['zhōng'],  ['xīn']]

可以看到结果会是一个二维的列表，每个元素都另外成了一个列表，其中包含了每个字的读音。
那么如果这个词是多音字咋办呢？比如 “朝阳”，它有两个读音，我们拿来试下：

from pypinyin import pinyin

print(pinyin('朝阳'))

运行结果：
[['zhāo'],  ['yáng']]

好吧，它只给出来了一个读音，但是如果我们想要另外一种读音咋办呢？
其实很简单，只需添加 heteronym 参数并设置为 True 就好了，我们试下:

from pypinyin import pinyin

print(pinyin('朝阳',  heteronym=True))

运行结果：
[['zhāo',  'cháo'],  ['yáng']]

OK 了，这下子就显示出来了两个读音了，而且我们也明白了结果为什么是一个二维列表，因为里面的一维的结果可能是多个，比如多音字的情况就是这样。

但这个多少解析起来有点麻烦，很多情况下我们是不需要管多音字的，我们只是用它来转换一下名字而已，而处理上面的二维数组又比较麻烦。

所以有没有一个方法直接给我们一个一维列表呢？有！
我们可以使用 lazy_pinyin 这个方法来生成，尝试一下：

from pypinyin import lazy_pinyin

print(lazy_pinyin('聪明的小兔子'))

运行结果：
['cong',  'ming',  'de',  'xiao',  'tu',  'zi']

这时候观察到得到的是一个列表，并且不再包含音调了。
这里我们就有一个疑问了，为啥 pinyin 方法返回的结果默认是带音调的，而 lazy_pinyin 是不带的，这里面就涉及到一个风格转换的问题了。

风格转换

我们可以对结果进行一些风格转换，比如不带声调风格、标准声调风格、声调在拼音之后、声调在韵母之后、注音风格等等，比如我们想要声调放在拼音后面，可以这么来实现：

from pypinyin import lazy_pinyin,  Style

style  =  Style.TONE3

print(lazy_pinyin('聪明的小兔子',  style=style))

运行结果：
['cong1',  'ming2',  'de',  'xiao3',  'tu4',  'zi']

可以看到运行结果每个拼音后面就多了一个声调，这就是其中的一个风格，叫做 TONE3，其实还有很多风格，下面是我从源码里面找出来的定义：

#: 普通风格，不带声调。如： 中国 -> ``zhong guo``

NORMAL  =  0

#: 标准声调风格，拼音声调在韵母第一个字母上（默认风格）。如： 中国 -> ``zhōng guó``

TONE  =  1

#: 声调风格2，即拼音声调在各个韵母之后，用数字 [1-4] 进行表示。如： 中国 -> ``zho1ng guo2``

TONE2  =  2

#: 声调风格3，即拼音声调在各个拼音之后，用数字 [1-4] 进行表示。如： 中国 -> ``zhong1 guo2``

TONE3  =  8

#: 声母风格，只返回各个拼音的声母部分（注：有的拼音没有声母，详见 `#27`_）。如： 中国 -> ``zh g``

INITIALS  =  3

#: 首字母风格，只返回拼音的首字母部分。如： 中国 -> ``z g``

FIRST_LETTER  =  4

#: 韵母风格，只返回各个拼音的韵母部分，不带声调。如： 中国 -> ``ong uo``

FINALS  =  5

#: 标准韵母风格，带声调，声调在韵母第一个字母上。如：中国 -> ``ōng uó``

FINALS_TONE  =  6

#: 韵母风格2，带声调，声调在各个韵母之后，用数字 [1-4] 进行表示。如： 中国 -> ``o1ng uo2``

FINALS_TONE2  =  7

#: 韵母风格3，带声调，声调在各个拼音之后，用数字 [1-4] 进行表示。如： 中国 -> ``ong1 uo2``

FINALS_TONE3  =  9

#: 注音风格，带声调，阴平（第一声）不标。如： 中国 -> ``ㄓㄨㄥ ㄍㄨㄛˊ``

BOPOMOFO  =  10

#: 注音风格，仅首字母。如： 中国 -> ``ㄓ ㄍ``

BOPOMOFO_FIRST  =  11

#: 汉语拼音与俄语字母对照风格，声调在各个拼音之后，用数字 [1-4] 进行表示。如： 中国 -> ``чжун1 го2``

CYRILLIC  =  12

#: 汉语拼音与俄语字母对照风格，仅首字母。如： 中国 -> ``ч г``

CYRILLIC_FIRST  =  13

如果你依然在编程的世界里迷茫，
不知道自己的未来规划，
对python感兴趣，
这里推荐一下我的学习交流圈QQ群：895 797 751，
里面都是学习python的，

有了这些，我们就可以轻松地实现风格转换了。
好，再回到原来的问题，为什么 pinyin 的方法默认带声调，而 lazy_pinyin 方法不带声调，答案就是：它们二者使用的默认风格不同，我们看下它的函数定义就知道了：
pinyin 方法的定义如下：

def pinyin(hans,  style=Style.TONE,  heteronym=False,  errors='default',  strict=True)

lazy_pinyin 方法的定义如下：
def lazy_pinyin(hans,  style=Style.NORMAL,  errors='default',  strict=True)

这下懂了吧，因为 pinyin 方法默认使用了 TONE 的风格，而 lazy_pinyin 方法默认使用了 NORMAL 的风格，所以就导致二者返回风格不同了。

好了，有了这两个函数的定义，我们再来研究下其他的参数，比如定义里面的 errors 和 strict 参数又怎么用呢？
错误处理

在这里我们先做一个测试，比如我们传入无法转拼音的字，比如：

from pypinyin import lazy_pinyin

print(lazy_pinyin('你好☆☆，我是xxx'))

其中包含了星号两个，还有标点一个，另外还包含了一个 xxx 英文字符，结果会是什么呢？
['ni',  'hao',  '☆☆，',  'wo',  'shi',  'xxx']

可以看到结果中星号和英文字符都作为一个整体并原模原样返回了。

那么这种特殊字符可以单独进行处理吗？当然可以，这里就用到刚才提到的 errors 参数了。

errors 参数是有几种模式的：

下面是 errors 这个参数的源码实现逻辑：

def _handle_nopinyin_char(chars,  errors='default'):

    """处理没有拼音的字符"""

    if  callable_check(errors):

        return  errors(chars)

    if  errors  ==  'default':

        return  chars

    elif errors  ==  'ignore':

        return  None

    elif errors  ==  'replace':

        if  len(chars)  >  1:

            return  ''.join(text_type('%x'  %  ord(x))  for  x  in  chars)

        else:

            return  text_type('%x'  %  ord(chars))

当处理没有拼音的字符的时候，errors 的不同参数会有不同的处理结果，更详细的逻辑可以翻看源码。

好了，下面我们来尝试一下，比如我们想将不能转拼音的字符去掉，则可以这么设置：

from pypinyin import lazy_pinyin

print(lazy_pinyin('你好☆☆，我是xxx',  errors='ignore'))

运行结果：
['ni',  'hao',  'wo',  'shi']

如果我们想要自定义处理，比如把 ☆ 转化为 ※ ，则可以这么设置：

print(lazy_pinyin('你好☆☆，我是xxx',  errors=lambda item:  ''.join(['※'  if  c  ==  '☆'  else  c  for  c  in  item])))

运行结果：
['ni',  'hao',  '※※，',  'wo',  'shi',  'xxx']

如上便是一些相关异常处理的操作，我们可以随心所欲地处理自己想处理的字符了。

严格模式

最后再看下 strict 模式，这个参数用于控制处理声母和韵母时是否严格遵循《汉语拼音方案》标准。

下面的一些说明来源于官方文档：

当 strict 参数为 True 时根据《汉语拼音方案》的如下规则处理声母、在韵母相关风格下还原正确的韵母：

21 个声母： b p m f d t n l g k h j q x zh ch sh r z c s （ y, w 不是声母）
i行的韵母，前面没有声母的时候，写成yi(衣)，ya(呀)，ye(耶)，yao(腰)，you(忧)，yan(烟)， yin(因)，yang(央)，ying(英)，yong(雍)。（ y 不是声母）
u行的韵母，前面没有声母的时候，写成wu(乌)，wa(蛙)，wo(窝)，wai(歪)，wei(威)，wan(弯)， wen(温)，wang(汪)，weng(翁)。（ w 不是声母）
ü行的韵母，前面没有声母的时候，写成yu(迂)，yue(约)，yuan(冤)，yun(晕)；ü上两点省略。（韵母相关风格下还原正确的韵母 ü ）
ü行的韵跟声母j，q，x拼的时候，写成ju(居)，qu(区)，xu(虚)，ü上两点也省略；但是跟声母n，l拼的时候，仍然写成nü(女)，lü(吕)。（韵母相关风格下还原正确的韵母 ü ）
iou，uei，uen前面加声母的时候，写成iu，ui，un。例如niu(牛)，gui(归)，lun(论)。（韵母相关风格下还原正确的韵母 iou，uei，uen ）

当 strict 为 False 时就是不遵守上面的规则来处理声母和韵母，比如： y , w 会被当做声母，yu(迂) 的韵母就是一般认为的 u 等。

具体差异可以查看源码中 tests/test_standard.py 中的对比结果测试用例。

自定义拼音

如果对库返回的结果不满意，我们还可以自定义自己的拼音库，这里用到的方法就有 load_single_dict 和 load_phrases_dict 方法了。

比如刚才我们看到 “朝阳” 两个字的发音默认返回的是 zhao yang，我们想默认返回 chao yang，那可以这么做：

from pypinyin import lazy_pinyin,  load_phrases_dict

print(lazy_pinyin('朝阳'))

personalized_dict  =  {

    '朝阳':  [['cháo'],  ['yáng']]

}

load_phrases_dict(personalized_dict)

print(lazy_pinyin('朝阳'))

这里我们自定义了一个词典，然后使用 load_phrases_dict 方法设置了一下就可以了。
运行结果：

['zhao',  'yang']

['chao',  'yang']

这样就可以完成自定义的设置了。
在一些项目里面我们可以自定义很多拼音库，然后加载就可以了。
另外我们还可以注册样式实现自定义，比如将某个拼音前面加上 Emoji 表情，样例：

from pypinyin.style import register

from pypinyin import lazy_pinyin

@register('kiss')

def kiss(pinyin,  **kwargs):

    if  pinyin  ==  'me':

        return  f'

{pinyin}'

    return  pinyin

print(lazy_pinyin('么么哒',  style='kiss'))

运行结果：
me',  

me',  'dá']

如果你依然在编程的世界里迷茫，
不知道自己的未来规划，
对python感兴趣，
这里推荐一下我的学习交流圈QQ群：895 797 751，
里面都是学习python的，

这里我们调用 register 方法注册了一个样式 style，然后转换的时候指定即可，通过观察运行结果我们可以发现，这样我们就可以将 me 字的拼音前面加上
这个 Emoji 表情了。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 205,033评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,725评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,473评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,846评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,848评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,691评论 1赞 282
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,053评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,700评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,856评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,676评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,787评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,430评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,034评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,990评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,218评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,174评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,526评论 2赞 343

Python 中拼音库 PyPinyin 的使用

基本拼音

风格转换

严格模式

自定义拼音

推荐阅读更多精彩内容