搜索需分两步走
1.匹配
1.1 索引
- 下载所有网页
- 分词,提取网页空的关键词
- 建立关键词与网页之间的索引表
- 在网页索引中,增加关键词在网页中的位置
1.2 匹配
- 单词匹配,根据索引表,即可快速找到包含关键词的网页
- 连词,需要检验多个关键词是否在同一网页的相近位置
1.3 空间换时间
搜索免不了需要检索整个互联网,但可以提前准备好索引。
2.排序
检索后,需要对网页进行相关度排序。
2.1 PageRank
- Google首创的网页排序方案
- 是以网页被引用的数量,作为排名的依据
2.2 图
- PageRank实现的数据模型
- 是有向无环图
2.3 网页计分规则
- 被引用+1
- 指向别人-1
- 引用可被传递,即被引用者会受引用者的分数影响。这样的可靠性更高,也能防止造假
3.总结
处理以上对搜索引擎工作原理的简单概述,实际中的搜索引擎会,还会根据网页的更新时间、是否有广告等因素进行评估。再者,还会用到机器学习,进行个性化推送。