关于‘词库应用’的很多细节都有些模糊,google下也没找出靠谱的资料,全是各种挖词的......索性不如定期总结完善下,最终形成自己的方法论。
根据以往实际数据总结,大部分网站产生流量的关键词60%-70%都是有规律可循的。基本都是由‘N个同属性关键词的集合’和‘N个词缀’组成。对于内容偏垂直的站来说,把这种词生成一个个页面相对容易些。
如果网站有相关的内容,并且数据表的字段跟词库中关键词的属性能够直接关联上,直接调用就行,若是这些属性在多个数据表中id还都一样,那生成页面的内容就更加丰富,但毕竟是理想状态,大部分都要靠搜索结果生成页面。
以下是刚整理出来的8万多职位词库,挑出一部分瞅一下:
如上所说,50%-70%的流量词都是有规律可循,以职位词为例,可以看出是由‘{工作}+{职称}’组成。
一个'工作'能匹配多个‘职称',反之一个‘职称’也能匹配多个'工作':
要保险点的话应该有个关键词标准化的过程,因为同属性同变量的多个词挑出几个搜索量高的导入词库,因为很多词说的都是一码事,如:“10086热线客服”、“10086接线客服”、“10086在线客服”,反正我感觉都一样,都是接电话被人骂的。
为了能够最大化的命中用户查询,原则上说,只要页面大部分内容不一样,并且有一定内容数量,就可以生成页面,这就得遍历每个词的搜索结果数量。
但有不少站站内搜索做的并不算理想,很多情况下数量不少但搜出来的内容与查询词本身没多大关联,所以需要对关键词在站内搜出来的结果设定一个指标,满足指标的才导入词库。
对招聘行业,职位词中的‘工作’变量权值比‘职称’高得多,搜‘seo专员’出来‘seo经理’的内容没多大影响,但出来‘sem专员’那就很坑爹了
所以需要把‘职称’提取出来,’职位词‘删除提取出来的’职称‘后做’工作词‘,假设一个页面能够展现10条搜索结果,当搜索结果中’工作词‘出现5次以上且包含相同’工作词‘的多个’职位词‘的重复搜索结果少于5条的,则可以导入词库。