好吧,又要开始bb叨模式了。 这篇文章,我想把关键词权重给描述清楚? 大家想想这个场景,如果你在网上搜索“王健壕美的净水器”,搜索引擎通过索引发现,一共有100篇网页都含有这...
好吧,又要开始bb叨模式了。 这篇文章,我想把关键词权重给描述清楚? 大家想想这个场景,如果你在网上搜索“王健壕美的净水器”,搜索引擎通过索引发现,一共有100篇网页都含有这...
保留初心,砥砺前行 这一章节讲解的是关于信息的某些度量。 我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。......直到1948年,Shannon在他著名的...
今天笔者来介绍一下新词发现算法,顾名思义,新词发现算法饿的目的就是帮助我们发现新词。我们如果采用现在的分词技术,有时候一下生僻词或者专有词汇经常会被分错,而改进措施就是可以用...
提到从文本中提取关键词,我们第一想到的肯定是通过计算词语的 TF-IDF 值来完成,简单又粗暴。但是由于 TF-IDF 的结构过于简单,有时提取关键词的效果会很不理想。本文将...
N-Gram(有时也称为N元模型)是自然语言处理中一个非常重要的概念,通常在NLP中,人们基于一定的语料库,可以利用N-Gram来预计或者评估一个句子是否合理。另外一方面,N...
TextRank是一种用来做关键词提取的算法,也可以用于提取短语和自动摘要。因为TextRank是基于PageRank的,所以首先简要介绍下PageRank算法。 1.Pag...
中文分词把文本切分成词语,还可以反过来,把该拼一起的词再拼到一起,找到命名实体。 概率图模型条件随机场适用观测值条件下决定随机变量有有限个取值情况。给定观察序列X,某个特定标...
Insight的第3篇分享文章,用产品经理看得懂的语言来介绍“文本相似度”,详见我公众号发布的链接《NLP基本功-文本相似度 | AI产品经理需要了解的AI技术通识》
以下内容学习、摘录自《数学之美》 2007年作者为Google黑板报写本章节时,技术和算法的重要性依然高于数据,因此确定网页和查询的相关性主要依靠算法。但是今天,由于商业搜索...