今天给朋友处理数据,性状等用汉字。分析时汉字总有各种问题,所以需要转成字母/数字。量大时手动转换耗时费力,用程序转换势在必行。检索到有
R
包pinyin可供使用。列几条用法。
#调包
library(tidyverse)
library(pinyin)
# 主函数是py()
py("汉字")
# 汉字
# "hàn_zì"
默认参数给的拼音带声调。不需要声调呢?
#调字典
py("汉字", dic = pydic(dic = c("pinyin2")))
# 汉字
#"han4_zi4"
字间用下横线连接,声调用数字表示,跟在每个字的拼音后。这时想要去掉数字就简单了。
py("汉字", dic = pydic(dic = c("pinyin2"))) %>% str_remove_all("\\d{1,}")
#"han_zi"
输出的拼音字符也可以只保留首字母。
py("汉字", dic = pydic(only_first_letter =T,dic = c("pinyin2"))) %>% str_remove_all("\\d{1,}")
"h_z"
完