背景 有一个系统的业务正在膨胀中,某一些报表(报表数据在mysql中)数据量增长比较厉害,报表页面已经处于卡爆了的状态。中间经过mysql本身的...
背景介绍 我们的系统有一小部分机器学习模型识别需求,因为种种原因,最终选用了Spark MLlib来进行训练和预测。MLlib的Pipeline...
概率是一个很有意思的东西,通过上帝投掷出来的骰子,你能猜到上帝的意图。这是一篇白话瞎文,并不是特别严谨。 概率的两大学派 概率有两大学派:概率学...
前言 如果你想了解word2vec的原理,这篇文章并不适合你,出门右转用google。 这篇文章的东西含金量不高,希望搞NLP,ML,DL的专业...
scala和java几乎没有区别,可以互相调用。注意这里说的是几乎,总有那么少数,出人意料的惊喜在告诉你,scala就是scala。 一个例子 ...
Graphx的实现代码并不多,这得益于Spark RDD niubility的设计。众所周知,在分布式上做图计算需要考虑点、边的切割。而RDD本...
声明 我对Flume的研究并不深,这一篇文章来源于2016年3月的某一个下午对Flume的调研,仅有一个下午,所以可能有一些观点是不对的。另外,...
在文章的开头,安利一下我自己的github上的一个项目:AlluxioBlockManager,同时还有我的github上的博客:blog这个项...
题记: 这是我的第一篇技术博文,写得不好请多提意见。然后,感谢张志斌老师,毕业之前张老师帮助我解一些“神奇的bug”,现在毕业一个月,我终于自己...