Avatar notebook default
5篇文章 · 18577字 · 2人关注
  • Resize,w 360,h 240
    Query理解

    本文主要内容引自大话搜索Query理解 搜索场景下,Query理解(QU,Query Understanding)示意: 一、搜索 整个检索系统...

  • Resize,w 360,h 240
    中文分词4:Jieba DAG有向无环图分词

    jieba分词用到了DAG分词法。在此介绍其原理: 第一步:分句 通过正则表达式,将文章内容切分,形成一个句子数组,这个比较好理解 第二步:构建...

  • 中文分析3:基于语言模型的无监督分词

    一、语言模型 1、什么是语言模型 语言模型就是计算条件概率的模型。 其中w1,w2,…,wn−1是句子中的前n−1个词(或字),wn是第n个词(...

  • Resize,w 360,h 240
    新词发现

    一、新词发现 中文分词有98%的错误来自"未登录词"。这里的"未登录词",包括各类专有名词、缩写词、流行词汇等等。对于NLP应用来讲, 机器/模...

  • Resize,w 360,h 240
    中文分词2:HMM

    HMM算法用于分词 一、HMM的典型模型五元组 状态集、观测集、初始状态分布、状态转移矩阵、发射矩阵。 1、状态集 (B, M, E, S),B...

文集作者