机器翻译
源语言(Source language):需要翻译的语言;目标语言(Target language):翻译后的语言
基于规则的翻译方法(Rule-based)
翻译过程分成6个步骤:
(a) 对源语言句子进行词法分析
(b) 对源语言句子进行句法/语义分析
(c) 源语言句子结构到译文结构的转换
(d) 译文句法结构生成
(e) 源语言词汇到译文词汇的转换
(f) 译文词法选择与生成
优点:可以较好地保持原文的结构,产生的译文结构 与源文的结构关系密切,尤其对于语言现象已知的或 句法结构规范的源语言语句具有较强的处理能力和较 好的翻译效果。
弱点:规则一般由人工编写,工作量大,主观性强, 一致性难以保障,不利于系统扩充,对非规范语言现 象缺乏相应的处理能力。
统计机器翻译
信道模型:
目标语言经过信道后,产生了元语言:
$$P(T|S)=\frac{P(T)P(S|T)}{P(S)}$$那么翻译过程就是求解:
$$\hat{T}=\arg\max_T{P(T)P(S|T)}$$
这个公式涉及到三方面的计算:
$P(T)$: 目标语言的语言模型
一般用短语或者词的概率和n元条件独立的Markov假设对一个完整句子的概率进行估算。
$P(S|T)$: 翻译模型
注意,这个翻译模型将原先的源语言到目标语言的翻译转化成目标语言到源语言的翻译。(所以完全没有减轻任务嘛-_-!!)
为了求解两个不同语言句子之间的条件概率,也是将句子拆成短语或词为单位,然后利用连乘进行估算(和语言模型一样,为了解决直接求一个句子的概率的稀疏性)。这样长句子的条件概率就成了词的对位,这种对位关系模型为:在目标语言句子$T$的长度(单词的个数)为 $l$,源语言句子$S$的长度为 $m$ 的情况下,$T$ 和 $S$ 的单词之间有 $l\times m$种不同的对应关系。对位模型 $A$是从源语言到目标语言的对位表示。
IBM Model 1假设对位概率是均匀分布的,即每一个$a_i$的值的概率分布是均匀的
根据IBM翻译模型1,由英语句子$e$生成法语句子$f$ 的实现过程:
(1) 根据概率分布为法语句子$f$ 选择一个长度$m$;
(2) 对于每一个$ j = 1,2,...,m $ ,根据均匀分布原则从 $0, 1, ..., l$ 中选择一个值给$a_j$;
(3) 对于每一个 $j = 1, 2, ..., m$,根据概率$ p(f_j|e_{a_j}) $选择一个法语单词$f_j$。
IBM Model2进一步具体了对位概率$a(a_j|j,l,m) $
$\arg\max_T$: 搜索算法
beam search
这种翻译模型就像是在破译密码,不是从语义层次进行,而是根据大量明文、编码进行对照,对于一些简短的、常见的翻译还行。
基于短语的翻译模型
在基于短语的模型中,直接将繁衍率信息、上下文 信息以及局部对位调序信息记录在翻译规则中。这里所说的短语指一个连续的词串(n-gram),不 一定是语言学中定义的短语(phrase, noun phrase, verb phrase)
短语划分模型
目标:将一个词序列如何划分为短语序列
方法:一般假设每一种短语划分方式都是等 概率的
短语翻译模型
学习短语翻译规则
借助双语句对词语对齐,满足对齐一致性的就是一个短语翻译规则。在词对应表格中体现为没有空行和空列的矩形块;
在词对齐中表现为没有源语言或者目标语言对应的词在短语对外:
估计短语翻译概率
短语调序模型
目标语言模型
基于短语的翻译模型缺陷
(1) 基于短语的翻译模型能够比较鲁棒地翻译较短的子串,当短语长度扩展到3个以上的单词时,翻译系统的性能提高很少,短语长度增大以后,数据稀疏问题变得非常严重。
(2) 在很多情况下简单的短语翻译模型无法处理短语之间(尤其是长距离)的调序。
(3) 基于短语翻译模型无法处理非连续短语翻译现象,例如 (在 … 时,when …)
基于层次化短语的翻译模型
树翻译模型
树到串模型
规则是源语言的句法结构到目标语言串(包含目标语言替换变量)的替换。
先将源语言S进行句法分析,得到句法分析树。从枝叶到树干(微观尺度到宏观尺度)地进行规则匹配,最终生成目标语言串。
树到串模型的优势:搜索空间小、解码效率高;句法分析质量较高的前提下,翻译效果不错
树到串模型的不足:强烈依赖于源语言句法分析的质量;利用源语言端句法结构精确匹配,数据稀疏 严重;没有使用任何目标语言句法知识,无法保证目标译文符合文法
树到树模型
规则是源语言的句法结构到目标语言的句法结构替换
给定源语言和目标语言的双语平行句对(经过词语对齐 、源语言和目标语言端经过句法分析), 抽取满足词语对齐的树到树翻译规则。
树到树模型的优势:搜索空间小、解码效率高
树到树模型的不足:强烈依赖于源语言和目标语言句法分析的质量;利用两端句法结构精确匹配,数据稀疏非常严重; 翻译质量差
串到树模型
串到树模型的优势:搜索空间大,保证译文符合文法,翻译质量高
串到树模型的不足:解码速度受限;未使用源语言端句法知识,存在词义消歧问题
基于规则的句法树转换
机器翻译系统评价
主观评价
主要是依赖人工,从流畅性和充分性两个方面进行打分。
客观评价
是一种自动评价系统/标准。虽然很好满足标准的不一定是主观上很好的翻译,但是较好的翻译一般都是很好满足标准的。因此制定标准只要满足上述要求就行。
these metrics assume that valid responses have significant word overlap with the ground truth responses.
BLEU(BiLingual Evaluation Understudy)
系统译文中的单词计数不会超过该词在某个参考译文中出现次数的最大值。
N is the maximum length of n-grams considered. 也就是说BLEU-N考虑从1到N的语言模型。
借助参考译文:
Greedy Matching. 句子中词向量相似度匹配
Embedding Average. 利用词向量计算整个句子的向量,再用归一化余弦度量句子相似度。
不借助参考译文:
将输出语言输入到语言模型、句法分析后得到和正常语句相近的概率值(流畅度评价)
原文中词对应的词典翻译在系统译文被覆盖情况,与这个词的频率倒数进行加权(充分性)
篇章特征与文本分类、检索
与前面的章节不同,本章节处理的是以文本为单位,更加粗糙。从粗糙度方面来说,文本为单位信息量更加丰富、完整,更加方便、准确进行特征表示、提取。
篇章特征
首先需进行文本表示。一般通过选取特征,量化特征值,组成向量,也就是向量空间模型(vector space model, VSM). 特征可以是字、短语、或者是更加一般的用于匹配的规则。由于不同特征的尺度不尽相同使用同样的数值单位不合理,于是每个维度单独分配一个权重。
对于一个语料,文本的某个特征可能出现频率很低,比如用一个确定的句子作为特征。过低的频率代表性不足,比如描述一个人,代表性强的特征是“个头中等”或者“身高165~175”,代表性低的是“身高172.3mm”. 相反地,特征的出现频率过高,没有区分度,我们不会描述一个人长着“一个鼻子,两只眼睛”。用于表示文本特征的向量一般都比较高。
确定了准备选取的特征后,接下来就是具体确一个文档的特征值,也就是对于一个文档和一个特征,确定这个特征对应的标量值。很直观地可以用这个歌在这个文档中出现频数(TF)作为标量值,也可以用是否出现(bool值)作为标量值。不过直接用特征出现频数作为标量值有一个局限性,那就是没有体现这个特征区分度。将特征出现频数与特征在所有文本中覆盖率的倒数进行加权就是TF-IDF: $\text{tf}_{ij}\times \ln\frac{N}{n_i}$.
文本特征局限性
仅从统计的角度来分析,脱离语义、推理与常识。
特征离散
这里的图像指的是自然图像,非自然图像比如文字的图像、乐谱、表情、手语,这些人类擅长、敏感的、独有的、需要借助经验的才能解读的。↩
笔者个人觉得这个假设是正确的,能够用于经典物理学下概率事件。当然量子力学中还存在复数域的概率,暂不做探讨。↩
参见之前写的《sequence labeling》↩
不过现在只需要设计特征模板,算法可以自动学习特征参数↩
开塔兰数(Catalan Numbers):有这样一个问题:现有n对括号,一共有多少种合法的组合方式?比如$n=3$,有$$((())) ; ()(()) ; ()()() ; (())() ; (()())$$种。描述这种组合方式的就是开塔兰数:$$C_{n}={2n \choose n}-{2n \choose n+1}={1 \over n+1}{2n \choose n}\quad {\text{ for }}n\geq 0,$$ 再比如:
还有n边形被切分成三角形的方式:
作者:艺术叔
链接:https://www.jianshu.com/p/37a114e13e7a
來源:简书
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。