4.1 任务说明
学习主题:论⽂分类(数据建模任务),利⽤已有数据建模,对新论⽂进⾏类别分类;
学习内容:使⽤论⽂标题完成类别分类;
学习成果:学会⽂本分类的基本⽅法、 TF-IDF 等;
4.2 数据处理步骤
在原始arxiv论⽂中论⽂都有对应的类别,⽽论⽂类别是作者填写的。在本次任务中我们可以借助论⽂的标题和摘要完成:
对论⽂标题和摘要进⾏处理;
对论⽂类别进⾏处理;
构建⽂本分类模型;
4.3 ⽂本分类思路
思路1:TF-IDF+机器学习分类器
直接使⽤TF-IDF对⽂本提取特征,使⽤分类器进⾏分类,分类器的选择上可以使⽤SVM、LR、XGboost等
思路2:FastText
FastText是⼊⻔款的词向量,利⽤Facebook提供的FastText⼯具,可以快速构建分类器
思路3:WordVec+深度学习分类器
WordVec是进阶款的词向量,并通过构建深度学习分类完成分类。深度学习分类的⽹络结构可以选择TextCNN、TextRnn或者BiLSTM。
思路4:Bert词向量
Bert是⾼配款的词向量,具有强⼤的建模学习能⼒。