目前的进度是爬虫系统刚刚完成了雏形,正在进行代码的优化。之后需要做的事情就是学习、学习,学习!
在早先的项目设计中,第二个子系统会用于将搜集来的文本做情感分析,然后根据分析的结果再做一定的运算。在Python的各个库中,除了nltk以外,使用起来比较简单的库我找到了两个,一个是针对中文的snownlp,还有一个是textblob。
这两个库使用起来都比较简单。而文档方面,snownlp比较简单,只知道没有使用nltk,自己设计了算法,而且由于是针对购买商品的评价做分析,用于其他方面的话,用作者自己的话来说就是准确率可能不是很理想。textblob的稍微详尽一点,这个库使用了nltk,或许准确率会更高一点。但是一方面不是针对中文,另一方面文档中也没有提及如何进行训练,从而提高准确率。或许是我还没有找到更详细的说明使用文档吧。
不过相比较而言,我可能更加中意的是参考snownlp,然后自己来设计更合适的算法吧。不过这条路走起来,或许学习曲线会比较陡峭。现在正在看think bayes,机器学习实战,还有spark快速大数据分析,这些书上面也有一些现成的示例代码可以供参考。希望可以降低一点学习的难度。
当然,在一开始的阶段,整个项目还不需要使用spark的更多功能,目前已知会涉及到的库也就是spark其中的mllib。后面更复杂部署、调度、管理等等功能,我想,针对一台单独的小机器还是用不上的吧,当然,做为知识储备,进行一定的了解和学习,也是未尝不可的。只是,这种学习可能暂时不会投入太多的精力,今天有大致浏览了spark的官方文档,仅仅部署方式就有好几种:mesos,yarn,一时之间也不知道如何取舍。希望新买的书里面可以提供一些指导和线索吧。
说起来,新买的《程序员的数学》也刚刚看了开头,一套三本书也不知道要看多久,希望可以加快一点点速度吧。
GoldMap项目笔记(四)
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
- //我所经历的大数据平台发展史(三):互联网时代 • 上篇http://www.infoq.com/cn/arti...
- Spark SQL, DataFrames and Datasets Guide Overview SQL Dat...
- 机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 1) 注...