《自然语言处理》整理2

机器翻译

源语言(Source language):需要翻译的语言;目标语言(Target language):翻译后的语言

基于规则的翻译方法(Rule-based)

翻译过程分成6个步骤:

(a) 对源语言句子进行词法分析

(b) 对源语言句子进行句法/语义分析

(c) 源语言句子结构到译文结构的转换

(d) 译文句法结构生成

(e) 源语言词汇到译文词汇的转换

(f) 译文词法选择与生成

优点:可以较好地保持原文的结构,产生的译文结构 与源文的结构关系密切,尤其对于语言现象已知的或 句法结构规范的源语言语句具有较强的处理能力和较 好的翻译效果。

弱点:规则一般由人工编写,工作量大,主观性强, 一致性难以保障,不利于系统扩充,对非规范语言现 象缺乏相应的处理能力。

统计机器翻译

信道模型:

目标语言经过信道后,产生了元语言:

$$P(T|S)=\frac{P(T)P(S|T)}{P(S)}$$那么翻译过程就是求解:

$$\hat{T}=\arg\max_T{P(T)P(S|T)}$$

这个公式涉及到三方面的计算:

$P(T)$: 目标语言的语言模型

一般用短语或者词的概率和n元条件独立的Markov假设对一个完整句子的概率进行估算。

$P(S|T)$: 翻译模型

注意,这个翻译模型将原先的源语言到目标语言的翻译转化成目标语言到源语言的翻译。(所以完全没有减轻任务嘛-_-!!)

为了求解两个不同语言句子之间的条件概率,也是将句子拆成短语或词为单位,然后利用连乘进行估算(和语言模型一样,为了解决直接求一个句子的概率的稀疏性)。这样长句子的条件概率就成了词的对位,这种对位关系模型为:在目标语言句子$T$的长度(单词的个数)为 $l$,源语言句子$S$的长度为 $m$ 的情况下,$T$ 和 $S$ 的单词之间有 $l\times m$种不同的对应关系。对位模型 $A$是从源语言到目标语言的对位表示。

IBM Model 1假设对位概率是均匀分布的,即每一个$a_i$的值的概率分布是均匀的

根据IBM翻译模型1,由英语句子$e$生成法语句子$f$ 的实现过程:

(1) 根据概率分布为法语句子$f$ 选择一个长度$m$;

(2) 对于每一个$ j = 1,2,...,m $ ,根据均匀分布原则从 $0, 1, ..., l$ 中选择一个值给$a_j$;

(3) 对于每一个 $j = 1, 2, ..., m$,根据概率$ p(f_j|e_{a_j}) $选择一个法语单词$f_j$。

IBM Model2进一步具体了对位概率$a(a_j|j,l,m) $

$\arg\max_T$: 搜索算法

beam search

这种翻译模型就像是在破译密码,不是从语义层次进行,而是根据大量明文、编码进行对照,对于一些简短的、常见的翻译还行。

基于短语的翻译模型

在基于短语的模型中,直接将繁衍率信息、上下文 信息以及局部对位调序信息记录在翻译规则中。这里所说的短语指一个连续的词串(n-gram),不 一定是语言学中定义的短语(phrase, noun phrase, verb phrase)

短语划分模型

目标:将一个词序列如何划分为短语序列

方法:一般假设每一种短语划分方式都是等 概率的

短语翻译模型

学习短语翻译规则

借助双语句对词语对齐,满足对齐一致性的就是一个短语翻译规则。在词对应表格中体现为没有空行和空列的矩形块;

在词对齐中表现为没有源语言或者目标语言对应的词在短语对外:

估计短语翻译概率

短语调序模型

目标语言模型

基于短语的翻译模型缺陷

(1) 基于短语的翻译模型能够比较鲁棒地翻译较短的子串,当短语长度扩展到3个以上的单词时,翻译系统的性能提高很少,短语长度增大以后,数据稀疏问题变得非常严重。

(2) 在很多情况下简单的短语翻译模型无法处理短语之间(尤其是长距离)的调序。

(3) 基于短语翻译模型无法处理非连续短语翻译现象,例如 (在 … 时,when …)

基于层次化短语的翻译模型

树翻译模型

树到串模型

规则是源语言的句法结构到目标语言串(包含目标语言替换变量)的替换。

先将源语言S进行句法分析,得到句法分析树。从枝叶到树干(微观尺度到宏观尺度)地进行规则匹配,最终生成目标语言串。

树到串模型的优势:搜索空间小、解码效率高;句法分析质量较高的前提下,翻译效果不错

树到串模型的不足:强烈依赖于源语言句法分析的质量;利用源语言端句法结构精确匹配,数据稀疏 严重;没有使用任何目标语言句法知识,无法保证目标译文符合文法

树到树模型

规则是源语言的句法结构到目标语言的句法结构替换

给定源语言和目标语言的双语平行句对(经过词语对齐 、源语言和目标语言端经过句法分析), 抽取满足词语对齐的树到树翻译规则。

树到树模型的优势:搜索空间小、解码效率高

树到树模型的不足:强烈依赖于源语言和目标语言句法分析的质量;利用两端句法结构精确匹配,数据稀疏非常严重; 翻译质量差

串到树模型

串到树模型的优势:搜索空间大,保证译文符合文法,翻译质量高

 串到树模型的不足:解码速度受限;未使用源语言端句法知识,存在词义消歧问题

基于规则的句法树转换

机器翻译系统评价

主观评价

主要是依赖人工,从流畅性充分性两个方面进行打分。

客观评价

是一种自动评价系统/标准。虽然很好满足标准的不一定是主观上很好的翻译,但是较好的翻译一般都是很好满足标准的。因此制定标准只要满足上述要求就行。

these metrics assume that valid responses have significant word overlap with the ground truth responses.

BLEU(BiLingual Evaluation Understudy)

系统译文中的单词计数不会超过该词在某个参考译文中出现次数的最大值。

N is the maximum length of n-grams considered. 也就是说BLEU-N考虑从1到N的语言模型。

借助参考译文:

Greedy Matching. 句子中词向量相似度匹配

Embedding Average. 利用词向量计算整个句子的向量,再用归一化余弦度量句子相似度。

不借助参考译文:

将输出语言输入到语言模型、句法分析后得到和正常语句相近的概率值(流畅度评价)

原文中词对应的词典翻译在系统译文被覆盖情况,与这个词的频率倒数进行加权(充分性)

篇章特征与文本分类、检索

与前面的章节不同,本章节处理的是以文本为单位,更加粗糙。从粗糙度方面来说,文本为单位信息量更加丰富、完整,更加方便、准确进行特征表示、提取。

篇章特征

首先需进行文本表示。一般通过选取特征,量化特征值,组成向量,也就是向量空间模型(vector space model, VSM). 特征可以是字、短语、或者是更加一般的用于匹配的规则。由于不同特征的尺度不尽相同使用同样的数值单位不合理,于是每个维度单独分配一个权重。

对于一个语料,文本的某个特征可能出现频率很低,比如用一个确定的句子作为特征。过低的频率代表性不足,比如描述一个人,代表性强的特征是“个头中等”或者“身高165~175”,代表性低的是“身高172.3mm”. 相反地,特征的出现频率过高,没有区分度,我们不会描述一个人长着“一个鼻子,两只眼睛”。用于表示文本特征的向量一般都比较高。

确定了准备选取的特征后,接下来就是具体确一个文档的特征值,也就是对于一个文档和一个特征,确定这个特征对应的标量值。很直观地可以用这个歌在这个文档中出现频数(TF)作为标量值,也可以用是否出现(bool值)作为标量值。不过直接用特征出现频数作为标量值有一个局限性,那就是没有体现这个特征区分度。将特征出现频数与特征在所有文本中覆盖率的倒数进行加权就是TF-IDF: $\text{tf}_{ij}\times \ln\frac{N}{n_i}$.

文本特征局限性

仅从统计的角度来分析,脱离语义、推理与常识。

特征离散

这里的图像指的是自然图像,非自然图像比如文字的图像、乐谱、表情、手语,这些人类擅长、敏感的、独有的、需要借助经验的才能解读的。

笔者个人觉得这个假设是正确的,能够用于经典物理学下概率事件。当然量子力学中还存在复数域的概率,暂不做探讨。

参见之前写的《sequence labeling》

不过现在只需要设计特征模板,算法可以自动学习特征参数

开塔兰数(Catalan Numbers):有这样一个问题:现有n对括号,一共有多少种合法的组合方式?比如$n=3$,有$$((())) ;    ()(())  ;  ()()() ;  (())() ;    (()())$$种。描述这种组合方式的就是开塔兰数:$$C_{n}={2n \choose n}-{2n \choose n+1}={1 \over n+1}{2n \choose n}\quad {\text{ for }}n\geq 0,$$ 再比如:

还有n边形被切分成三角形的方式:


作者:艺术叔

链接:https://www.jianshu.com/p/37a114e13e7a

來源:简书

简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,921评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,635评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,393评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,836评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,833评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,685评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,043评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,694评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,671评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,670评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,779评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,424评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,027评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,984评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,214评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,108评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,517评论 2 343

推荐阅读更多精彩内容