双语平行语料是进行机器翻译研究不可缺少的资源,本次根据英华的中英文对齐语料进行寻找解决办法,而句子对齐是双语语料处理的第一步。
本次在中英文各自特点的基础上,分别使用基于句子段落和基于HowNet语义计算验证信息等多种方法对中英文文本进行了对齐,对齐的各种因素的处理以及对齐的后处理方案。
具体的说,本次工作主要包含以下内容:
1)根据相应的规则进行对中英文文本进行预处理,包括
a)去标签
b)空格符号等无关语义的字符等
c)逐行逐段分行处理统计相关参数
2)根据计算统计中英文句子各自的长度与段落的相关参数。
a)基于段落个数、句子个数、句子长度的方法初步判断中英文对齐参数。
b)对于不同长度的中英文段落个数、句子个数、句子长度筛选出不同的部分。
c)对筛选后的段落句子进行处理调整。
3)充分利用双语文本中词汇信息对中英文进行对其。
a)抽取短语、数字、缩写词、符号等丰富的词汇信息。
b)结合句对长度信息,基于HowNet语义计算、词汇、长度等混合信息的对齐方法,并利用该方法对中英文文本进行了对齐。
4)验证与处理方案:
a)运用信息检索领域中TF-IDF权重思想,在充分利用词汇信息的基础上考虑词频信息,以此来估算句对之间的互译评分。
b)比较了上述几个算法在对噪音不同以及段落对齐与否的双语文本上的对齐效果;分析双语词典大小对于对齐效果的影响。
c)对验证的问题进行相应的处理。
5)中英文双语对齐的后处理步骤。
a)对齐结果的选择、双语语料库的编码规范等;
b)批量汉英双语平行语料库的构建工作,包括其总体规划和流程细节等。
下一篇将会介绍,计算的统计参数和相似度计算的方法,将会以统计得到的数字呈现。