7 从文章中提取信息

该章三个问题:

1:我们应该怎样建立一个系统,从非结构化的文章中提取出结构化的数据。

2:有哪些稳健的方法可以识别文章中的实体以及关系?

3: 哪些数据库适合用来做这些工作,我们怎样用他们训练并评测我们的模型?

第一节:提取信息

先将非结构化的数据转为结构化的数据,然后利用强大的搜索工具如sql对数据进行查询,这种获取语义的方法被称为信息提取。

1.1 信息提取结构

将文本分割为句子,句子分割为单词,为单词标记词性。识别有信息量的实体,根据他们的语境确定其关系。

第二节:分块

2.1 名词短语分块

用正则表达式构建分块语法,再对已经标注词性的句子进行分块:


2.2 标记模块

是一系列pos标记,与正则表达式模块很相似:

<DT>?<JJ.*>*<NN.*>+

但是还是有许多复杂的表达无法用该模块提取。需要继续优化。

2.3 用正则表达式分块,

如以上所示,建立语法规则 grammar 

2.4 探索文章语料库

之前我们学过怎样用pos标记寻找三词短语:


用基于正则表达式的分块器会更加容易一些:


还可以加缝隙,排除不合适的元素:grammar= r'''NP: {<.*>+} }<VBD|IN>+{  这样就排除了动词以及介词

Chunks的表达:可以用tags 或者 trees:

IOB-Tags: B: begin, I:inside, O:outsid    B-NP:一个名词短语的开始

第三节:研发与测试分块器

简单的评估与基准

获得已经标注好的数据库的内容

print(conll2000.chunked_sents('train.txt',chunk_types=['NP'])[10])

以此为基础,训练n-gram分类器


可以将该一元分类器改为二元分类器,使用BigramChunker

训练基于分类器的分块器:与二元相比更加灵活,可以甄别多种可能有用的特征


7.4 语言结构中的递归现象

分级别,多次对句子中的结构进行深度分析分析。不过因为创造这种分级方法,查找错误是比较麻烦的,而且这种方法得确定深度等级,所以对分析复杂的句法并不是很合适。

--- 树:句法树

--- 遍历树:可以用递归函数来遍历树

7.5 识别命名实体

也可以像上面的通过分类器确定分块器的方法,通过数据训练,使其能够识别某些多字符命名实体。

7.6 提取关系

可以通过正则表达式,确定两实体之间的关系如(r'.*\bin\b(?!\b.+ing)' 该表达可以忽略现在分词ing的表达

用正则表达式可能会得到假阳性答案 false postives

总结:

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容