最近在玩宝可梦,经常要搜索宝可梦数据,因为没有词库,导致输入时效率太低。一开始是想直接在网上找一个他人发布的词库,通过工具转换成 rime 词库格式,然后导入到当前的词库环境中。但是在查找过程中考虑到:这些词库的更新未必及时,另外词语或许存在缺漏——而我又不可能对这些词语核对一遍。既然如此,不如自己做一个来得更加简单严谨直接。
数据源
数据源决定了数据是否最新。宝可梦的词库一般不会更新得太频繁。使用 神奇宝贝百科 作为数据源恐怕再合适不过了。感谢这个网站和相关的所有贡献者。
关于提取规则
在提取这些词语时,我大致遵循了下列规则:
- 带有英文和数字的,删除
- 带有括号的,删除掉括号和括号中的内容。如果和已有的重叠,就忽略
- 对于这种带“・”的,比如“秘剑・千重涛”,则通过将“・”分割,得到两个新的词语
词库
我把格式化后的几个词库文件放在 Github 的这个项目里面了:PokemonDict
文章本来到此就结束了。但是我还是想吐嘈一下搜狗。
因为考虑到输入法的隐私问题,我从别的输入法切换到 Rime 已经很久了。以前用过搜狗输入法,在制作这个词库时,想顺带做成搜狗词库的格式上传到其官网。
这个上传过程是十分有趣!回想起来又无语又想笑。
搜狗的通用词库里面添加词条有两种方式,一种就是直接在一个 textarea 里面粘贴目标词条上传,另一种是通过 txt 文件上传。
考虑到搜狗的词库制作成本地的 txt 文件,所以优先选择这种方式。然后我发现:咦?上传按钮哪去了?我找找页面代码。被注释掉了?!我去掉注释试试看,可以选择但没有效果,可能后面的 js 逻辑部分也被处理掉了(猜测,没有看代码)。
既然这种方式行不通,那我就试试看在线添加词条。于是,我贴入词库相关词语,点击提交。
有点出乎意料,又有点意料之中。我到底该喜闻乐见还是感到无奈呢。
http 414 error,请求链接太长了。你把词库的词条都加到 url 里面了吧?
还真是。为什么要把词条当成 GET 参数?
搜狗的说明:
帮助:
1.上传文本格式为一行一词,每行不得超过10个汉字,多余的部分将被会过滤
2.确保文本中无字母(拼音除外)、数字、乱码、标点等符号,否则将被过滤
3.合格词条数目不得小于5条,不得多于5万条
4.为确保词条质量,请勿上传单字,否则将被过滤
5.如需注音请在单个汉字后标注,如"长chang相守";切勿在词语后标注多个拼音
6.本系统提供创建或增删词条的对比预览功能,请确保修改无误后提交
版权说明>>
说好的上传词条可以达 50000,这种方式 1000 多词条就干崩溃了。
是不是意味着,这功能基本没什么人用。
是不是程序员跑路的原因?
算了(︶︿︶)