chromium源码学习——访问历史匹配

上次看了个某个浏览器的网址补全,感觉比较弱鸡,所以想起来研究一下chromium是怎么实现这个地址匹配的。这个东西还是有点意思的,可以根据URL或title进行匹配,输入的单词没输全,或者几个单词的顺序反了都可以给你匹配到。然后主要是想看怎么快速匹配,其他无关部分就略过了。研究对象URLIndexPrivateData类,位于components/omnibox/browser/url_index_private_data.cc,以下内容基于chrome66版本源码。

可以先看一下URLIndexPrivateData的成员,这里主要关注的以下几个:

// 缓存之前的搜索结果,由于用户一般是一个个字符输入,所以每输入一个新字符时,
// 可以直接基于输入前的搜索的结果进行过滤,节省搜索时间
struct SearchTermCacheItem {
  WordIDSet word_id_set_;
  HistoryIDSet history_id_set_;
};
typedef std::map<base::string16, SearchTermCacheItem> SearchTermCacheMap;

// 单词索引,根据word_id找单词,word_id为顺序增长
String16Vector word_list_;

// 从word_list_删除单词时将对应的空位放入这里,留待以后使用
base::stack<WordID> available_words_;

// 查找包含某个字符的所有单词
CharWordIDMap char_word_map_;

// 根据单词找到对应的历史记录,即根据URL或title能匹配到的网址
WordIDHistoryMap word_id_history_map_;

所以懂的人估计就看出来其实这是个倒排索引了,现代搜索引擎的根基,但是很惭愧我看完了整个流程才发现是这个玩意。

功能入口URLIndexPrivateData::HistoryItemsForTerms,根据输入字符串返回一个匹配列表。

ScoredHistoryMatches URLIndexPrivateData::HistoryItemsForTerms(
    base::string16 original_search_string,
    size_t cursor_position,
    ...) {
        
  String16Vector search_strings;
  search_strings.push_back(original_search_string);
  if ((cursor_position != base::string16::npos) &&
      (cursor_position < original_search_string.length()) &&
      (cursor_position > 0)) {
    // 贴心的帮你从当前输入位置给你把字符串断开,当成两个字符串进行搜索,
    // 谷歌认为这样能提高匹配成功率(如果你是按顺序输入的,那这个就没什么用)
    base::string16 transformed_search_string(original_search_string);
    transformed_search_string.insert(cursor_position, base::ASCIIToUTF16(" "));
    search_strings.push_back(transformed_search_string);
  }

  ...

  bool history_ids_were_trimmed = false;
  // 这是一个基于单词的搜索,对字符串分词后可能会有重复的单词,用set去重避免重复搜索
  std::set<String16Vector> search_string_words;
  for (const base::string16& search_string : search_strings) {
    // 转成小写,处理转义字符(诸如%xx)
    base::string16 lower_raw_string(base::i18n::ToLower(search_string));
    base::string16 lower_unescaped_string = net::UnescapeURLComponent(
        lower_raw_string,
        net::UnescapeRule::SPACES | net::UnescapeRule::PATH_SEPARATORS |
            net::UnescapeRule::URL_SPECIAL_CHARS_EXCEPT_PATH_SEPARATORS);

    // 分词
    String16Vector lower_words(
        String16VectorFromString16(lower_unescaped_string, false, nullptr));
    if (lower_words.empty())
      continue;
  
    if (search_string_words.find(lower_words) != search_string_words.end())
      continue;
    search_string_words.insert(lower_words);

    // 这里开始进行匹配工作
    HistoryIDVector history_ids = HistoryIDsFromWords(lower_words);
    ...
  }
  
  ...
}

对输入先做了一些预处理,之后对每个单词分别调用URLIndexPrivateData::HistoryIDsForTerm,查找匹配的项目,最终组合到一起,大体上的流程:
(1) 在char_word_map_中, 对关键词中的每个字符, 找到所有包含该字符的单词
(2) 在word_id_history_map_中, 对(1)中得到的每个单词, 找到所有包含该单词的记录

HistoryIDSet URLIndexPrivateData::HistoryIDsForTerm(
    const base::string16& term) {
  if (term.empty())
    return HistoryIDSet();

  size_t term_length = term.length();
  WordIDSet word_id_set;
  if (term_length > 1) {
    // 先在缓存中找最长前缀字符串,如果能找到,可以基于缓存的搜索结果进行过滤
    base::string16 term_lower = base::i18n::ToLower(term);
    SearchTermCacheMap::iterator best_prefix(search_term_cache_.end());
    for (SearchTermCacheMap::iterator cache_iter = search_term_cache_.begin();
         cache_iter != search_term_cache_.end(); ++cache_iter) {
      if (base::StartsWith(term_lower,
                           base::i18n::ToLower(cache_iter->first),
                           base::CompareCase::SENSITIVE) &&
          (best_prefix == search_term_cache_.end() ||
           cache_iter->first.length() > best_prefix->first.length()))
        best_prefix = cache_iter;
    }

    // 取出除前缀外的剩余部分, 进行匹配, 
    // 最后将这部分结果与缓存中前缀的匹配结果做交集
    Char16Set prefix_chars;
    base::string16 leftovers(term);
    if (best_prefix != search_term_cache_.end()) {
      // 有可能缓存中已经存在了相同的关键词的结果, 直接使用缓存结果
      size_t prefix_length = best_prefix->first.length();
      if (prefix_length == term_length) {
        best_prefix->second.used_ = true;
        return best_prefix->second.history_id_set_;
      }

      // 也有可能前缀的搜索结果是空的, 那就不用继续匹配下去了
      if (best_prefix->second.history_id_set_.empty()) {
        search_term_cache_[term] = SearchTermCacheItem();
        return HistoryIDSet();
      }
      word_id_set = best_prefix->second.word_id_set_;
      prefix_chars = Char16SetFromString16(best_prefix->first);
      leftovers = term.substr(prefix_length);
    }

    // 还是使用set对剩下的字符去重, 
    // 并找到前缀中不存在的字符, 这样才能进一步过滤结果集
    Char16Set leftover_chars = Char16SetFromString16(leftovers);
    Char16Set unique_chars =
        base::STLSetDifference<Char16Set>(leftover_chars, prefix_chars);

    if (!unique_chars.empty()) {
      WordIDSet leftover_set(WordIDSetForTermChars(unique_chars));
      if (leftover_set.empty()) {
        search_term_cache_[term] = SearchTermCacheItem();
        return HistoryIDSet();
      }

      if (prefix_chars.empty()) {
        word_id_set = std::move(leftover_set);
      } else {
        // 做交集处理
        base::EraseIf(word_id_set, base::IsNotIn<WordIDSet>(leftover_set));
      }
    }

    // 之前都是按照出现的字符进行的过滤, 实际上出现的字符顺序可能是乱的,
    // 所以需要按照搜索字符串的方式再过滤一次, 保证关键词一定是结果的子字符串
    base::EraseIf(word_id_set, [this, &term](WordID word_id) {
      return word_list_[word_id].find(term) == base::string16::npos;
    });
  } else {
    // 如果只有一个字符就没什么好说的了, 直接按字符查找所有包含该字符的单词,
    // 再搜索所有包含该单词的记录, 就是最终结果
    word_id_set = WordIDSetForTermChars(Char16SetFromString16(term));
  }

  // 得到一个包含关键词的单词列表, 然后对该列表中的每个单词,
  // 在word_id_history_map_中取出所有匹配的记录, 并用set排重得到最终结果
  HistoryIDVector buffer;
  for (WordID word_id : word_id_set) {
    WordIDHistoryMap::iterator word_iter = word_id_history_map_.find(word_id);
    if (word_iter != word_id_history_map_.end()) {
      HistoryIDSet& word_history_id_set(word_iter->second);
      buffer.insert(buffer.end(), word_history_id_set.begin(),
                    word_history_id_set.end());
    }
  }
  HistoryIDSet history_id_set(buffer.begin(), buffer.end(),
                              base::KEEP_FIRST_OF_DUPES);

  // 将本次匹配结果加入缓存
  if (term_length > 1)
    search_term_cache_[term] = SearchTermCacheItem(word_id_set, history_id_set);

  return history_id_set;
}

匹配的流程就是这样,当然了这也要求了要对数据进行预处理,其实也挺简单,就是建立索引的过程可能有点耗时,所以chrome对索引本身做了文件缓存,这部分就没有仔细研究了,66版本好像是直接用protocol buffer序列成二进制流写到History Provider Cache文件里,但是从代码注释看,谷歌后面版本可能会改用数据库对索引进行存储。

知道倒排索引的话就很容易理解这个搜索过程;最后总结:

  1. 因为进行了分词处理,以单词为单位进行搜索,所以输入的几个单词之间顺序反了不影响匹配结果,每个单词都没输入全也不影响匹配结果;
  2. 使用int类型做为单词ID,并用单词ID去索引URL记录,相比于直接用单词当map的key来索引URL记录降低了内存占用,也加快了map的查找速度(这个正常人应该都能想到)
  3. 单词ID直接顺序增长,所有单词存一个vector就可以,然后删除的话不需要实际删除,只需要将留出来的index放入空闲列表中供后面使用就可以(我的第一感是算个hash然后存map,还是没这个省事)
  4. 索引本身也是可以缓存成文件的,节省了重新建立索引消耗的时间
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342

推荐阅读更多精彩内容