训练集格式:类别 文本
测试集格式:索引 文本
提交结果格式:索引 类别
思路:
1、文本向量化
(方法:前期用TFIDF,后期用word2vec)
2、分类方法:
方法: SVM
fasttext
主要步骤:
1、生成词典
2、生成tfidf向量
3、生成lsi向量
4、分类器参数训练
5、对新文本进行分类。
前4个步骤可以看做是分类器的训练过程,而第五个阶段,则是使用训练得到的参数对新文本进行分类。
问题一、如何构建文本向量。如何用IFIDF将文本向量化,每一个文本的向量长度是否相同?
http://palydawn.blog.163.com/blog/static/18296905620124171155256/
http://blog.csdn.net/orlandowww/article/details/52966608?locationNum=2&fps=1
A100数据竞赛第一天结果:线性核 linear