第11章 如何确定网页和查询的相关性

以下内容学习、摘录自《数学之美》

2007年作者为Google黑板报写本章节时,技术和算法的重要性依然高于数据,因此确定网页和查询的相关性主要依靠算法。但是今天,由于商业搜索引擎已经有了大量的用户点击数据,因此,对搜索相关性贡献最大的是根据用户对常见搜索点击网页的结果得到的概率模型。

影响搜索引擎质量的诸多因素,除了用户的点击数据之外,都可以归纳成下面四大类:

1.完备的索引。如果一个网页不在索引中,那么再好的算法也找不到。
2.对网页质量的度量,比如 PageRank算法。
3.用户偏好。一个好的搜索引擎会针对不同用户,对相同的搜索给出不同的排名。
4.确定一个网页和某个查询的相关性的方法。

比如查找关于“原子能的应用”的网页。现在任何一个搜索引擎能提供几十万甚至是上百万个与这个查询词组多少有点关系的网页,那么哪个应该排在前面呢?显然应该把网页本身质量好的,且与查询关键词相关性高的网页排在前面。前面章节已经讲过PageRank算法可以度量网页的质量。那如何度量网页和查询的相关性呢?

假如我们输入短语“原子能的应用”进行搜索,那么该短语可以分为三个关键词:原子能、的、应用。

如果根据直觉,这三个词出现较多的网页比出现少的网页相关性高。那就有个漏洞,即:篇幅长的网页占便宜。所以,用关键词的词频(关键词出现的次数/网页的总字数)是更合理的选择。

如果一个查询包含n个关键词W1,W2,...,Wn,它们在同一个网页中出现的词频(TF, Term Frequency)是:TF1,TF2,...,TFn。那么这个查询和网页的相关性公式是:
TF1+TF2+...+TFn

但仍有漏洞,细心的你可能发现了:
1.“的”在汉语中使用过于频繁,类似的还有“是”、“和”等词不应该有那么大的词频贡献;
2.“应用”是个通用词、“原子能”是个专业词,相比较后者在相关性排名中比前者重要。
也就是说,一个词预测主题的能力越强,在相似性计算时的权重应该更大才对。

在信息检索中,使用最多的权重是“逆文本频率指数”(IDF, Inverse Document Frequency),它的公式为log(D/Dw)。其中:D指搜索引擎收录的网页数;Dw指包含关键词w的网页数。由此:
1.我们假定收录了10亿的网页,而“的”在所有的网页中都出现过,所以IDF("的")=log(10亿/10亿)=log1=0;
2.“应用”在5亿个网页中出现过,那么IDF("应用")=log(10亿/5亿)=log2=1;
3.“原子能”在200万个网页中出现过,那么那么IDF("原子能")=log(10亿/200万)=log500=8.96。

显然,引入了IDF设置词频的权重更合理。学者们已经发现并指出,所谓IDF的概念就是一个特定条件下关键词的概率分布的交叉熵( Kullback- Leibler divergence)。这样,关于信息检索相关性的度量,又回到了信息论。

最后得到的“度量查询与网页相关性”的公式是:
TF1*IDF1 + TF2*IDF2 + ... + TFn*IDFn

TF-IDF(Term Frequency / InverseDocument Frequency)是对搜索关键词的重要性的度量,并且具备很强的理论根据。现在的搜索引擎对TF-IDF进行了不少细微的优化,使得相关性的度量更加准确了。当然,对有兴趣写一个搜索引擎的爱好者来讲,使用TF-IDF就足够了。如果结合网页排名( Pagerank)算法,那么给定一个查询有关网页的综合排名大致由相关性和网页排名的乘积决定。

点击这里可以查看《数学之美》的其它学习笔记。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容

  • 这个系列的第六个主题,主要谈一些搜索引擎相关的常见技术。 1995年是搜索引擎商业公司发展的重要起点,《浅谈推荐系...
    我偏笑_NSNirvana阅读 6,596评论 3 24
  • 如何让这个世界变得美好?把你自己变得更美好。 书接上文。 上章提到了给搜索的网页建立索引和质量衡量的方法。对于搭建...
    乌七七v阅读 350评论 0 0
  • “#本文参加“青春”大赛,本人保证本文为本人原创,如有问题与主办方无关,自愿放弃评优评奖资格” 赣南师范大学 胡琴...
    秋陌筱寒阅读 180评论 0 1
  • 躺在房顶上,我在想我该想什么,我在想什么都不该想。我看着天上的云,慢慢的被风吹散,内心的防线再也绷不住,看到...
    90後的誓言阅读 150评论 0 0
  • 华灯初下的时间,周围路灯孤单耸立向外发散着昏暗的灯光。 老上海的街头终于迎来今年的第一场初雪了。 我拉拉连衣帽,不...
    刘跳跳同学阅读 349评论 2 2