一、主要工作:##
重点工作是前两个。
其中我感受很深的是新闻自动分类, 因为我在这个过程中尝试了多种文本预处理的方法、多种分类器。然后他们的结果也差异很大。
第二个感受最深的部分是文本的自动摘要,
因为在做这部分的时候我参考了一些现有的方法,基本都是按照段落的位置、句子的位置、句子的长度等进行评分,然后计算出每个句子的得分,再排序取前几。我试了几种方法,感觉并不是很准确。然后得到的摘要,一眼看过去,都是句子句子句子,并不能达到一看就可以知道大意的程度。所以我们就开始想自己弄一些更好的方法。上个月的时候我们就这个问题还投了2017年的CIKM,我们的办法是一种结构化的摘要。
二、工作量总结:##
代码量5000行左右:
博客12篇:
论文1篇: