时隔了许久,终于有时间继续更新这个项目笔记,实在有些惭愧。
还是首先简短说明一下原因吧。
上次笔记发布之后,整理了一下项目进行的思路,打算未来这个项目使用scala做重构,于是就很果断地中断了一段时间的项目开发,跑去学习了一阵子的scala。同时也继续学习了一段时间的机器学习。
不过在学习机器学习的过程里,总算整理清楚了一些基本概念,尤其是关于文本情感分析的过程。于是又重新调整了一下项目目前的设计。
之前曾经计划使用snownlp来做自然语言处理,现在已经修改为使用scikit learn+结巴分词的方式来做处理。同时会给出情感分析的详细结果。这是最主要的修改。
还有一个修改就是放弃使用postgresql作为数据存储,转而使用arangodb。这是出于两方面原因的考虑。一个是pg的管理工具pgadmin在更新到4以后,变得有些不稳定,使用起来有些不太方便。还有一个原因在于考虑到存储的数据可能使用一个文档数据库会更方便,场景也更适合。
目前的进度是爬虫,数据存储,情感分析的程序原型已经做好了,接下来就开始慢慢一点点把东西实现出来。
在实现完成爬虫代码之后,可能还需要做的调整就是情感分析的处理流程和数据处理。一方面是这部分会有大量的人工干预过程,一方面是我要设法得到依照我的想法所取得的分析结果,还有一方面就是学习python处理金融数据和计算的相关知识。
现在调整了自己的作息时间,可以每天有一到两个小时用来写代码,希望可以加快一点进度吧。因为很快家中会有一个小宝贝到来,到时候会更加忙碌,不知道还有多少时间可以挤出来写一写代码……