『IR 信息检索入门必看』#1 概论&布尔模型（简明）

访问博客查看本文最新内容，排版更美观ヾ(•ω•`)o 如有错误欢迎指出~

IR 信息检索系列笔记：

IR学习笔记 #1 概论&布尔模型

IR学习笔记 #2 统计语言模型

IR学习笔记 #3 向量空间模型

IR学习笔记 #4 概率模型

IR学习笔记 #5 检索系统评价

IR学习笔记 #6 网络信息检索

IR学习笔记 #7 IRLbot

IR学习笔记 #8 倒排索引模型

IR学习笔记 #9 网页排序

IR学习笔记 #10 查询相关反馈

IR学习笔记 #11 问答系统

IR课程项目-文学检索-开发文档

该笔记是本人于哈尔滨工业大学（深圳）2021 年夏季学期「信息检索」课程的笔记，授课教师为陈清财教授。姑且算是一门 NLP 入门课程。

概论 | Overview

What’s Information Retrieval?

Indexing, retrieving, and organizing text by probabilistic or statistical.

Comparing IR to Databases:

	Databases	IR
Data	Structured	Unstructured
Fields	Clear semantics	No fields
Queries	Defined(SQL)	Free text (自然语言) + Boolean
Recoverability	Critical	Downplayed
Matching	Exact	Imprecise (need to measure)

信息检索的基本方法 | Basic Approach to IR

大多数成功的方法都是基于概论统计，而不是自然语言理解。因为自然语言在缺少约束的状态（unrestricted domains）下具有极大不确定性，而人工标注又十分昂贵。

统计方法的核心思想：Relevant (相关) Items are Similar (相似). Usually look for documents matching query words.

The similarity can be measured by:

String matching/comparison (字符串匹配)
Same vocabulary (词汇)
Probability that documents arise from same model (文档出现概率)
Same meaning of text (语义) -- Hard to achieve

词袋 | “Bag of Words”

Compares words without regard to order.

Stop word (停用词)：屏蔽对文章分类无效的高频词。

基础检索模型 | Retrieval Models

检索模型：建立在 Doc 和 Query 之间的模型，用于描述相似性、排序相似性。

检索变量：queries (查询), documents (文档), terms (术语), relevance
judgments (相关性判别)。

Exact vs. Best Match

精确匹配：二值 (0/1) 匹配，检索结果无序，可以用 boolean queries (布尔查询)、proximity operators (邻接算子)、simple regular expressions (正则表达式)。对文档量级有限制。

最佳匹配：相似度 (0~1) 匹配，检索结果按照相似度排序。

布尔模型 | Boolean Retrieval

一种最常见的精确匹配模型，通常结果是无序呈现（unranked），有的模型会增加简单的排序。

精确匹配模型最直接的想法：线性扫描，从头到尾扫描文档集，对每个文档都查看是否包含关键词。在 Unix/Linux 系统中的文本扫描命令 grep 做的就是这种工作。然而，当需要检索的文档规模非常大时，这种线性扫描的方式的效率会变得非常低下。

如何实现 Boolean Retrieval

需要实现如下的模块：

Term-document incidence (词典表): 类似 index (索引) 的文档呈现的形式，一个矩阵中，用 0 和 1 标记文档中出现的 term (词项)。
Boolean queries (布尔查询): AND, OR, AND-NOT.
Incidence vector (关联向量): 0/1 vector, bitwise AND。
Proximity operators (邻接算子): phrases - “”、same sentence - “ /s ”、same paragraph - “/p” 等等。

实现中的要点

在词典表实现中，为了避免矩阵过大，还可以引入 inverted index (倒排索引) 存储矩阵，这里不再赘述。下面介绍两个实现步骤中的概念。

token (词条) vs. term (词项)：

对于英文文本而言，词条就是根据空格把单词一个一个地提取出来，把原始文本分割开。词项则是更加统一规范的的词条。

例如在文本中可能出现 “apple”、“apples”、“Apple” 这类 token，但我们知道这几个 token 都是表达苹果（apple）的意思，因此，在构建索引的时候通常会把这几个 token 统一还原为 “apple”，只为 “apple” 建立索引项，那么 “apple” 就是一个 term 了。

Features to Note about Queries

Queries are developed incrementally. 查询表达式是可增长的，往往一直增加直到查询出正确结果。
Queries are complex. 用到了一定公式，对初学者不友好。
Queries are long (av. 9-10 words). 不同于通常的自然语言询问，只需要 1-2 个单词。

最后编辑于：2021.10.25 09:22:16

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,456评论 5赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,370评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,337评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,583评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,596评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,572评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,936评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,595评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,850评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,601评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,685评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,371评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,951评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,934评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,167评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,636评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,411评论 2赞 342