#coding:utf-8
import jieba
import numpy as np
fr = open("sk.txt")
fr_list = fr.read()
dataList = fr_list.split("\n")
data = []
for oneline in dataList:
data.append(" ".join(jieba.cut(oneline)))
from sklearn.feature_extraction.text import CountVectorizer,TfidfTransformer
stop_words = [",","。","(",")"," 来话人","来话","2017",
'希望','部门','核实','处理',"认为"," 不合理"]
freWord = CountVectorizer(stop_words=stop_words)
fre = freWord.fit_transform(data[:50])
word = freWord.get_feature_names()
print(repr(word).decode('unicode-escape'))
print(len(word))
#加入tf-idf
transformer = TfidfTransformer()
#tf-idf和上面的fre是差不多的结果,只不过,频次变成了小数
tfidf = transformer.fit_transform(fre)
#得到权重
#print(tfidf)
weight = tfidf.toarray()
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=5, random_state=0).fit(weight)
print(kmeans.labels_)
label = kmeans.labels_
print(len(label))
for i in range(5):
print("")
print("")
print("第"+str(i)+"类有:")
for x in range(len(label)):
if(label[x]==i):
print(dataList[x])
使用kmeans
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- 题目 假设有如下八个点:(3,1)(3,2)(4,1)(4,2)(1,3)(1,4)(2,3)(2,4),使用KM...
- “前一阵子奖励给自己一本原版《How to read abook》,最开始是想练习一下英语阅读能力,花费了很多时间...