CNN模型最初是应用在图像识别中的,后由yoonkim将其应用到到NLP文本分类领域中。在接触CNN模型之初,无论是查阅的资料与阅读的论文都是其在图像识别方面的应用。在一次无意的查阅分本分类技术中,看到了CNN模型在NLP领域中的应用。在此分享两个CNN实现文本分类的实例。
第一个是由CNN文本分类原文Convolutional Neural Networks for Sentence Classification作者是yoonkim,其github地址为yoonkim/CNN_sentence,不过框架是基于theano的。另一位大牛dennybritz在此论文基础上改用tensorflow写的CNN文本分类的代码,并有详细的博客说明Implementing a CNN for Text Classification in TensorFlow,Github地址为dennybritz/cnn-text-classification-tf值得参考。
第二个是一个简单的用CNN实现的文本分类的例子:Classify Kaggle Consumer Finance Complaints into 11 classes。代码在Github:jiegzhan/multi-class-text-classification-cnn。这个项目就是把客户的投诉分类,一共有11个类。在这个项目里,文本是用Word Embeddings来表示的。
在后续的文章中,继续解读两个实例中的详细代码。上述的开发语言都是基于python(Life is short, you need Python)。