tst

ch2-分词

词是自然语言中能够独立运用的最小单位，是自然语言处理的基本单位，词的界定：规范+词表+语料库
曲折语、分析语、黏着语
单词识别、形态还原
形态分析-查字典-还原处理-进入未登录处理模块

    import nltk  
    sentence = “ Tony’s horse isn’t from U.S.A"  
    tokens = nltk.word_tokenize(sentence)  
    print (tokens)

[‘Tony’, ”’s”, ’horse’, ‘is’, “n’t”, ‘from’, ‘U.S.A’]

    from nltk.stem import WordNetLemmatizer  
    lemmatizaer = WordNetLemmatizer()  
    print(lemmatizaer.lemmatize('dogs'))
    print(lemmatizaer.lemmatize('is'))
    print(lemmatizaer.lemmatize('is',pos='v’))

dog  
is  
be

汉语自动分词-基本原则：
1.语义上无法由组合成分直接相加而得到的字串应该合并为一个分词单位
eg：不管三七二十一（成语），或多或少（副词片语），十三点（定量结构），六月（定名结构），谈谈（重叠结构，表示尝试），辛辛苦苦（重叠结构，加强程度），进出口（合并结构）
2.语类无法由组合成分直接得到的字串应该合并为一个分词单位
字串的语法功能不符合组合规律
eg：好吃，好喝，好听，好看等
字串的内部结构不符合语法规律
eg：游水等
交集型歧义链长
交集型歧义字段中含有交集字段的个数，称为链长
– 链长为1：和尚未 {尚}
– 链长为2：结合成分 {合，成}
– 链长为3：为人民工作 {人，民，工}
– 链长为4：中国产品质量
– 链长为5：鞭炮声响彻夜空
真歧义、伪歧义（真实语料中往往取其中一种切分形式）
文本分词的基本方法（降低不确定性）
为了降低不确定性，需要为计算机提供确定的“语言知识”，比如词典、规则、经过分词处理的语料库（可从中获取词语的各项统计数据）等知识形式
- 基于词典的分词方法（最大匹配法、最短路径法、最大概率法，自顶向下分词）
- 基于字序列标注的方法（自底向上合词）
- 最大匹配法 - 有词典切分，机械切分长词优先
  正向最大匹配（FMM）、逆向（BMM）、双向（Bi-MM）
  改进：
  存在分词错误=〉增加知识，局部修改
  增加歧义词表，排歧规则
  增加“回溯”
  对于某些交集型歧义，可以通过增加回溯机制来修改最大匹配法的分词结果
  例如：“爱人民英雄”
  – 顺向扫描的结果是：“爱人/民/ 英雄/”
  – 通过查词典知道“民”不在词典中，于是进行回溯，将“爱人”的尾字“人”取出与后面的“民”组成“人民”
  – 再查词典，看“爱”，“人民”是否在词典中，如果在，就将分词结果调整为：“爱/人民/英雄/”
  无法发现分词歧义=〉从单向最大匹配改为双向最大匹配
- 最短路径分词法 - 词图上选择词数最少的路径
- 半词法分词 - 在词图路径优劣评判中引入罚分机制
- 最大概率法 - 在词图上选择概率最大的分词路径作为最优结果
- 由字构词(基于字标注)的分词方法
  -在字标注过程中，对所有的字根据预定义的特征进行词位特征学习，获得一个概率模型
  -然后在待切分字串上，根据字与字之间的结合紧密程度，得到一个词位的分类结果
  -最后根据词位定义直接获得最终的分词结果
  工具：支持向量机、条件随机场
- 生成式方法与区分式方法的结合
  方法比较

最大匹配分词算法是一种简单的基于词表的分词方法，有着非常广泛的应用。这种方法只需要最少的语言资源（仅需要一个词表，不需要任何词法、句法、语义知识），程序实现简单，开发周期短，是一个简单实用的方法，但对歧义字段的处理能力不够强大
全切分方法首先切分出与词表匹配的所有可能的词，然后运用统计语言模型和决策算法决定最优的切分结果。这种切分方法的优点是可以发现所有的切分歧义，但解决歧义的方法很大程度上取决于统计语言模型的精度和决策算法，需要大量的标注语料，并且分词速度也因搜索空间的增大而有所缓慢
最短路径分词方法的切分原则是使切分出来的词数最少。这种切分原则多数情况下符合汉语的语言规律，但无法处理例外的情况，而且如果最短路径不止一条时，系统往往不能确定最优解
统计方法具有较强的歧义区分能力，但需要大规模标注(或预处理) 语料库的支持，需要的系统开销也较大

未登录词（人名地名、中外组织机构单位名称、专业术语、商品品牌、新词语、缩略语、汉语重叠形式、离合词等）
识别未登录词
- 中国人名识别方法：
  姓名库匹配，以姓氏作为触发信息，寻找潜在的名字
  计算潜在姓名的概率估值及相应姓氏的姓名阈值(threshold value)，根据姓名概率和修饰规则对潜在的姓名进行筛选
- 机构名称识别方法：
  找到一机构称呼词
  根据相应规则往前逐个检查名词作为修饰名词的合法性，直到发现非法词
  如果所接受的修饰词同机构称呼词构成一个合法的机构名称，则记录该机构名称
  统计模型
对文本分词质量的评价
- 计算分词正确率的不同标准，以词、以句
- 分词质量对NLP应用系统的影响，从分对MT、翻译、校对有利，从合对IR有利
准确率、召回率、F-measure

image

评测：SIGHAN bakeoff

最后编辑于：2018.10.17 18:46:02

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,445评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,889评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,047评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,760评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,745评论 5赞 367
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,638评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,011评论 3赞 398
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,669评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,923评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,655评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,740评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,406评论 4赞 320
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,995评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,961评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,197评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,023评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,483评论 2赞 342

tst

ch2-分词

推荐阅读更多精彩内容