简约的JAVA版本MapReduce和日常No.25

昨天做了一个小调查，说看看想看些啥。大概的分布是这样的，一个1代表一个投票。看来还是2、3比较多。

11111 希望看到"算法"回复1。
111111111111 希望看到"技术细节"回复2。
111111111 希望看到"成长和读书"分享回复3。

还好多人说想看我长啥样，嘛，在我比较正经的时候，就长下面这样。

大图预警！！！！

日常呢，就长这样。

长这样。

好了切入正题，今天开始挖一个新坑，就是实现一些基于MapReduce的一些图算法，比如Pregel啊，PageRank啊，LPA啊，SLPA啊等等，坑很大，非常大，慢慢写吧，都不会讲非常难的理论问题，以代码细节为主。。

先上一个我思维拓展的时候写得java实现的MapReduce的基础版本吧，写得不是很好，我也在慢慢完善，Go语言版本的还在写，真是惭愧感觉一直在吃老本。

今天实现的一个内容是，将一个List<Integer>进行map操作变成另外一个List，然后通过reduce进行加和。

灵感来源来自于《MapReduce: Simplified Data Processing on Large Clusters 》这篇论文，大家可以看看我之前的文章，在了解完什么是Mapreduce。然后先去看看这篇论文，启发很多。

首先我们从两个接口入手，MapFunction和ReduceFunction，这是MapReduce的两个灵魂接口，由使用者去定义，这里我定义的都是最最简单的版本，暂时并没有进行泛化的能力。

MapFunction定义了一个接口，类型为V，然后通过一个叫map的方法，输出一个类型为V的值。
public interface MapFunction<V> {V map(V target);}

ReduceFunction定义了一个接口，类型为V，然后通过一个叫reduce的方法，通过聚合两个V类型的值，输出一个类型为V的值。
public interface ReduceFunction<V> {V reduce(V A,V B);}

上面两个方法定义了MapReduce的核心内容，就是任务切分和任务聚合。有小伙伴不理解这里为什么使用泛型，因为作为一个框架来说，我是不知道使用者想使用什么样的类型进行计算的（虽然这里我知道我接下来就要用Integer进行计算了），所以必须不能指定类型，否则这个框架就永远只能用Integer类型了。

那我们的map和reduce任务要跑在哪里呢？有小伙伴说跑在分布式环境里。对没错，最终目的是跑在分布式环境里。但是在这里，咱就偷个懒，先用多线程来模拟这个过程，并且使用内存来作为消息机制。

我是i5双核的CPU，经验值下面，只有两个cpu的话，创建4个线程对于性能来说比单线程好。（毕竟线程切换存在开销，控制得不好多线程肯定是比单线程慢的，不服来辩）
<pre>
public class CPUs
{public static final int threads = 4;
private static final java.util.concurrent.ExecutorService pool = Executors.newFixedThreadPool(threads);
public static Future submit(Callable task){return pool.submit(task);}
public static void execute(Runnable task){pool.execute(task);}
public static void shutdown(){pool.shutdown();}}
</pre>

好了，MapFunction有了，CPUs也有了，接下来可以开始写提交器了。任务提交器是什么东西呢，就是把一个map任务进行切分，并且交给多个线程去异步执行，然后最终把结果汇总还给客户端的一个类。下面的类都比较大，建议在电脑端看。

这个类做了什么事呢？就是把List封装起来，然后把任务分发给多个线程去执行，使用CountDownLatch来保证所有的线程都已经完成计算，然后再把结果返回给客户端。

<pre>
public class MapSubmitter<V> {private List<V> target ;private int length;public MapSubmitter(List<V> target){this.target = target;this.length = target.size();}public List<V> map(final MapFunction<V> mapFunction){final CountDownLatch countDownLatch = new CountDownLatch(length);final List<V> result = new ArrayList<V>();for(int i = 0 ; i < length ; i++) {final V current = target.get(i);final int currentIndex = i;try {Future<V> future = CPUs.submit(new Callable<V>() {public V call() throws Exception {V result = mapFunction.map(current);//Printer.println(currentIndex); return result;}});result.add(i,future.get());countDownLatch.countDown();}catch (InterruptedException e) {e.printStackTrace();} catch (ExecutionException e) {e.printStackTrace();}}try{countDownLatch.await();} catch (InterruptedException e) {}finally {return result;}}}
</pre>
这个类又做了什么事呢？List封装起来，交给很多线程去执行，然后维护一个最终的结果类V，并为这个结果提供线程安全的保护，避免因为多线程操作同一个结果造成结果错误。

<pre>
public class ReduceSubmitter<V> {private List<V> target ;private int length;private V result ;Lock lock = new ReentrantLock();public ReduceSubmitter(List<V> target){this.target = target;this.length = target.size();this.result = target.get(0);}public V reduce(final ReduceFunction<V> reduceFunction){final CountDownLatch countDownLatch = new CountDownLatch(length);countDownLatch.countDown();for(int i = 1 ; i < length ; i ++) {final V current = target.get(i);CPUs.execute(new Runnable() {public void run() {lock.lock();V next = reduceFunction.reduce(ReduceSubmitter.this.result,current);ReduceSubmitter.this.result = next;lock.unlock();countDownLatch.countDown();}});}try{countDownLatch.await();} catch (InterruptedException e) {}finally {return this.result;}}}
</pre>
好咯，写完了就开始测试了,主要就创建一个长度为10的数组，然后进行map操作把每一个值都进行平方，然后通过reduce操作进行求和，代码比较简单就不一一细说了，有啥问题后台留言交流。
<pre>
public class TestMapReduce {public static void main(String[] args){//仅仅是为了耗时而模拟的一个好像很复杂的操作，不然太快了。final int junkTime = 1000000;//初始化一个想进行操作的数组List<Integer> integerList = new ArrayList<Integer>();for(int i = 0 ; i < 10 ; i++){integerList.add(i);}int length = integerList.size();// printer.printList(integerList); Long start = System.currentTimeMillis();//进行map操作并返回结果MapSubmitter<Integer> mapSubmitter = new MapSubmitter<Integer>(integerList);integerList = mapSubmitter.map(new MapFunction<Integer>() {public Integer map(Integer target) {Double b = 0D;for(int i = 0 ; i <junkTime;i++){b += Math.exp(i);}return target * target;}});Printer.println("mapreduce cost time:" + (System.currentTimeMillis() - start)); start = System.currentTimeMillis();
//进行reduce操作并返回结果
ReduceSubmitter<Integer> reduceSubmitter = new ReduceSubmitter<Integer>(integerList);Integer resultInteger = reduceSubmitter.reduce(new ReduceFunction<Integer>() {public Integer reduce(Integer A, Integer B) {Double b = 0D;for(int i = 0 ; i <junkTime;i++){b += Math.exp(i);}return A+B;}});Printer.println("reduce cost time:" + (System.currentTimeMillis() - start)); CPUs.shutdown();}}

</pre>
好啦，今天的MapReduce就说到这里。经过我的实验，无论多少次实验，都是比单线程快那么一丢丢的，这都要得益于那个耗时的操作，模糊了线程切换带来的时间损耗，毕竟不怎么耗时的操作来说，单线程其实是绝对比多线程快的。

细心的同学会发现，好像这个并不符合论文里面的标准吖。嗯呐是的，这个只是我心血来潮写的简单版本。问题有诸如，我们上面的map操作好像不能变成其他类型吖，怎么实现WordCount呢？以及Driver好像没有进行任务切分和分发吖？好像也没有suffle操作啊？好像整个过程也不是严格多线程的吖，怎么办呢？下一次给大家分享一个更加完整的MapReduce。

希望大家都能在自己的机器上跑成功。源码都在上面了我就不放链接了。

好了，如果有任务问题请后台留言，我会看的。如果对您有一点点的帮助或者启发的话，帮忙转发或者点个赞都是对我很大的支持喔，么么哒。

最后编辑于：2017.12.08 07:39:47

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,179评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,229评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,032评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,533评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,531评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,539评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,916评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,574评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,813评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,568评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,654评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,354评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,937评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,918评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,152评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,852评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,378评论 2赞 342

简约的JAVA版本MapReduce和日常No.25

推荐阅读更多精彩内容