原理根据N-gram,n<=4
问题
1.the等词过多匹配问题。解决方案:利用计算参考译文和机器翻译译文之间计数取最小值解决
2.机器翻译译文长度<参考译文长度,导致的BLEU结果过高。解决方案:加入惩罚因子BP(Brevity Penalty)=exp(min(0, 1 − [len(ref)/len(MT)]) 解释,如果参考译文的长度<机器翻译的长度,则BP=1,不进行惩罚。如果参考译文的长度>机器翻译的长度,即 [len(ref)/len(MT)]>1,1 − [len(ref)/len(MT)]<0,则0<BP<1的一个数,来降低BLEU结果过高的问题。
缺点:除上面提出的两个问题,对同义词和语法没有考虑