Python处理字库文件

之前有个做输入法的需求,原本的字库文件信息特别大,需要都写到so里面去方便调用。但是原始的资源不符合使用,所以需要转成代码中能够调用的格式。另外,同时需要数字键九宫格匹配相应的字。

1. 原始文件

原始文件——单字
原始文件——多字

不太清楚第二个和第三个数据是什么意思,不过我们只需要提取第一个和最后一个数据即可。

2.完成思路

  1. 首先利用分隔符获取第一个和最后一个数据
  2. 每一项与下一项判断是否最后一个元素相同,如果相同证明是一个发音的字,然后将相同拼音的字放到一个list中。
  3. 对应每一个拼音字母的数字按键的获取比较简单,可以直接建立两个list,一个是26个字母,一个是26个字母所对应的数字按键。之后对每个字母的索引数找对应的数字按键list的索引。

3. 代码

import os
import time


class PinYin(object):

    path = "../Files/rawdict_utf16_65105_freq.txt"
    pinyin_list = []
    keyboard_num = ['2', '2', '2', '3', '3', '3', '4', '4', '4', '5', '5', '5', '6', '6', '6', '7', '7', '7', '7', '8',
                    '8', '8', '9', '9', '9', '9']
    keyboard_letter = ["a", 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's',
                       't','u', 'v', 'w', 'x', 'y', 'z']

    def __init__(self):
        self.pinyin_file = open("pinyin.txt", 'w', encoding='utf-8')
        self.keyboard_file = open("keyboard.txt", 'w', encoding='utf-8')

    def do_file(self):
        print("Starting...")
        start_time = time.time()
        with open(self.path, 'r', encoding='utf-8') as data:
            for x in data:
                self.change_format(x.split(' '))
        self.write_file()
        end_time = time.time()
        return "Write done(%2.2fs). \nPlease check pinyin.txt and keyboard.txt." % (end_time - start_time)

    '''
    eg. change format from "xiexie" to "xie_xie".
    '''
    def change_format(self, data):
        if len(data) == 4:
            self.pinyin_list.append((data[0], "%s" % data[3]))
        elif len(data) == 5:
            self.pinyin_list.append((data[0], "%s_%s" % (data[3], data[4])))
        elif len(data) == 6:
            self.pinyin_list.append((data[0], "%s_%s_%s" % (data[3], data[4], data[5])))
        elif len(data) == 7:
            self.pinyin_list.append((data[0], "%s_%s_%s_%s" % (data[3], data[4], data[5], data[6])))

    def write_file(self):
        length = len(self.pinyin_list)
        str_text = []
        str_key = []
        str_pinyin = ''
        for index in range(length):
            if index < length - 1 and self.pinyin_list[index][1] == self.pinyin_list[index + 1][1]:
                str_text.append(self.pinyin_list[index][0])
            else:
                str_text.append(self.pinyin_list[index][0])
                str_pinyin = self.pinyin_list[index][1]
                self.pinyin_file.write("const unsigned char PY_mb_%s []= {\"%s\"};\n" % (str_pinyin.replace('\n', ''),
                                                                                         "".join(str_text)))
                for num in str_pinyin.replace('\n', '').replace('_', ''):
                    str_key.append(self.keyboard_num[self.keyboard_letter.index(num)])
                self.keyboard_file.write("{0x%s, \"%s\", PY_mb_%s};\n" % ("".join(str_key),
                                                                          str_pinyin.replace('\n', ''),
                                                                          str_pinyin.replace('\n', '')))
                str_text.clear()
                str_key.clear()
        self.pinyin_file.close()
        self.keyboard_file.close()

if __name__ == "__main__":
    manager = PinYin()
    if os.path.exists(manager.path):
        print(manager.do_file())
    else:
        print("The file is not exist, please put the .txt in right directory!")

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,980评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,178评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,868评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,498评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,492评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,521评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,910评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,569评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,793评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,559评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,639评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,342评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,931评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,904评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,144评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,833评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,350评论 2 342

推荐阅读更多精彩内容

  • 一、python 变量和数据类型 1.整数 Python可以处理任意大小的整数,当然包括负整数,在Python程序...
    绩重KF阅读 1,628评论 0 1
  • http://python.jobbole.com/85231/ 关于专业技能写完项目接着写写一名3年工作经验的J...
    燕京博士阅读 7,545评论 1 118
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,580评论 18 139
  • 今天期待已久的足球赛事新生杯终于开始了(其实前两天就已经开始了,只不过我们的比赛今天才开始)!当我终于第一次,穿着...
    少年无忌阅读 211评论 0 6
  • 女人是个矛盾的动物,害怕恐怖的氛围,又特享受那种紧张刺激的气氛 周末闲暇的时候你坐在沙发上,我躺在你的腿上看个恐怖...
    谢妖精阅读 114评论 0 0