非常棒的一篇介绍文本分类的文章:http://contact.iteye.com/blog/2269152
参考1:http://www.07net01.com/2016/09/1667733.html
参考2 : https://www.zhihu.com/question/56121488
参考3: 流程:http://www.07net01.com/2016/09/1667733.html
代码:http://blog.csdn.net/u014595019/article/details/52515616
一、文本向量化
1、TFIDF 示例代码:http://blog.csdn.net/lsldd/article/details/41520953
2、向量空间模型(VSM) http://www.way51.cn/vector.html
3、word2vec 、doc2vec
二、文本分类
在将文本向量化以后,就可以采用传统的分类方法了, 例如线性分类法,线性核的svm,rbf核的svm,神经网络分类等方法。我在这个分类器中尝试了前3种,都可以由sklearn库来完成
以下方法均可调用sklearn包
1、线性分类法 【LR】
2、SVM类 【 线性核的svm 、rbf核的svm】
http://blog.csdn.net/orlandowww/article/details/52966608
http://blog.csdn.net/orlandowww/article/details/52967187
3、神经网络类 【fasttext、】