缘起-搜索引擎

兴趣是第一源动力，很多职业最初的起源来自于个人对某一事物的好奇，由此产生了兴趣而一发不可收拾，产品经理也不例外。产品经理的从业者都知道，这个职业队伍从业者的经理很广泛，包容度很大，专业性也很难有统一的标准，不同项目，或同一项目不同阶段对产品经理的能力要求的侧重点也不一，很多同行应该在入行前都问过自己，如何知道自己是不是适合做产品经理呢？

在复盘我这6年的工作经验后，我得出的认知却也异乎寻常的朴素——兴趣是入行的最好老师。我所说的兴趣不仅仅是对产品经理是做什么的，怎么做有兴趣，更主要的是具体项目的兴趣，作为-1岁的产品经理，当时兴趣的焦点都关注在了科技界24小时的印钞机——搜索引擎；

搜索引擎

时至今日，细细回想其当时对搜索引擎的痴迷，内心深处还有难以言喻的共鸣，由于当时专业所限，对搜索引擎的接触虽然很多，但是究其原理，所知甚少，故因为好奇，所以想要了解；

1.1 搜索引擎的调研

犹记得那年，Alphabet还没成立，谷歌还没退出中国，日常接触的最多的搜索引擎还是——Google，国内百度的发展也在如火如荼的进行着，在我的家乡，多数人对于“百度一下，你就知道”也是耳熟能详；

那些年国内的谷歌是这样的：

当年国内谷歌的首页

那些年百度的首页也还没更新：

同一时期百度的首页

除了目前看来这两款主流的搜索引擎，当时这一领域可是热闹非凡，雄心勃勃的腾讯搜搜，搜狐的搜狗，雅虎搜索，声势浩大的微软必应，国外还有大量的同类产品，ASK JEEVES，Naver，新创搜索引擎——Duckduckgo等等，得益于盈利性极强的商业模式，加之庞大的用户增长红利，使得搜索引擎成为当之无愧的明星产品，尤其是受到新创引擎Duckduckgo的励志故事，并在深入了解google当年的车库发家史后，我也雄心勃勃的读起了PageRank，渴望破解搜索引擎背后产品的秘密，也打造一款广受喜爱的搜索引擎；

1.2 PageRank解密

如果读者了解过Google的车库创业史，应该了解PageRank对于Google的重要性，早期的google为什么使用体验好，给人以简单可依赖的感觉，不仅仅在于其早期没有广告的简洁界面，独自的快照系统、动态生成摘要信息，以及为实现高速检索而设置的分散系统（数千台规模的Linux集群）等等，最重要的优点就在于它检索的正确性，而PageRank就是这种正确性的保证，它可以自动判断网页重要性；

PageRank的核心思想有2点：

如果一个网页被很多其他网页链接到的话说明这个网页比较重要，也就是pagerank值会相对较高；

如果一个pagerank值很高的网页链接到一个其他的网页，那么被链接到的网页的pagerank值会相应地因此而提高；

下面这张图来自Wikipedia，比较形象地解释了核心思想，每个球代表一个网页，球的大小反应了网页的pagerank值的大小。指向网页B和网页E的链接很多，所以B和E的pagerank值较高，另外，虽然很少有网页指向C，但是最重要的网页B指向了C，所以C的pagerank值比E还要大。

图片来自于维基百科

PageRank有效地利用了 Web 所拥有的庞大链接构造的特性。从网页A导向网页B的链接被看作是对页面A对页面B的支持投票，Google根据这个投票数来判断页面的重要性。可是 Google 不单单只看投票数(即链接数)，对投票的页面也进行分析。「重要性」高的页面所投的票的评价会更高，因为接受这个投票页面会被理解为「重要的物品」。

根据这样的分析,得到了高评价的重要页面会被给予较高的 Page Rank(网页等级)，在检索结果内的名次也会提高。PageRank 是 Google 中表示网页重要性的综合性指标，而且不会受到各种检索(引擎)的影响。倒不如说，PageRank 就是基于对"使用复杂的算法而得到的链接构造"的分析，从而得出的各网页本身的特性。当然，重要性高的页面如果和检索词句没有关联同样也没有任何意义。为此 Google 使用了精练后的文本匹配技术，使得能够检索出重要而且正确的页面。

简而言之，PageRank 是基于「从许多优质的网页链接过来的网页，必定还是优质网页」的回归关系，来判定所有网页的重要性。

对PageRank基本了解后，如何构建一套搜索引擎，当时笔者还是一脸茫然，后来又陆续了解了Luence、Nutch，才慢慢摸索了一些构建搜索引擎的基础，以及对搜索引擎产品背后的逻辑的直观认识，现在看来，当时的认知还真只是皮毛；

搜索引擎的简易模型

吴军《数学之美》里面提到搜索引擎分为三大块：下载，索引，搜索。

下载：

这部分是需要把你想要搜索的范围的原始数据。如果搜索的范畴是网页上的内容，那么它就是一个网络爬虫。我当时做的是一个校内网的搜索引擎，所以就写了一个爬虫从校园网主页开始下载，分析网页内的链接把符合要求的链接加入待下载队列，这样一直把所有校园网的网页全部都下载下来。

索引

搜索引擎之所以可以搜的那么快，都是索引的功劳。索引是一种专门针对搜索优化的结构，详情可以百度倒排索引。

前面搜索下载的是网页全文，里面的html标签是不需要被搜索的，所以要把数据清洗一下，提取出其中的重要内容。文本内容的预处理还需要分词、去除无意义的停用词等。分词是什么呢…你还是百度吧

建立索引有现成的库：LUCENE ，它自带有几个默认分词器，如果想要你的搜索引擎搜索的结果更好，你可以使用的中文分词器（这个当然也有现成的工具啦，ik分词，NLPIR这些都是现有的解决方案，效果也还不错）如果之前没有接触过它，那就需要学习一下。

索引建立好了，接下来就是搜索了。搜索是将根据查询词，搜索索引内匹配的内容，然后展示出来。符合查询词的结果多了的时候怎么办呢，这就涉及到排序的问题，这就有点复杂啦，这就涉及到很多排序算法比如tfidf之类的东西，不过这些lucene的api也帮你做了，它的内部有一个打分机制，将打分高放在搜索结果的前面。

最后编辑于：2017.12.07 02:16:54

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,547评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,399评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,428评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,599评论 1赞 274
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,612评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,577评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,941评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,603评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,852评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,605评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,693评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,375评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,955评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,936评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,172评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,970评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,414评论 2赞 342

缘起-搜索引擎

推荐阅读更多精彩内容