并行流就是把一个内容分成多个数据块,并用不同多线程分别处理每个数据块的流。串行流显然就是流的处理任务是串行化的。
Java 8 中将并行进行了优化,我们可以很容易的对数据进行并行操作。Stream API可以声明性地通过 parallel() 与sequential() 在并行流与顺序流之间进行切换。
在讲解Java8对并行流的处理之前我们先了解一下Fork/Join框架,这是Java7提供的原生多线程并行处理框架。他的作用是在必要的情况下,将一个大任务,进行拆分(fork)成若干个小任务(拆到不可再拆时),再将一个个的小任务运算的结果进行 join 汇总,如下图:
Fork/Join 框架与传统线程池的区别:
采用 “工作窃取”模式(work-stealing),当执行新的任务时它可以将其拆分分成更小的任务执行,并将小任务加到线程队列中,然后再从一个随机线程的队列中偷一个并把它放在自己的队列中。
相对于一般的线程池实现,fork/join框架的优势体现在对其中包含的任务的处理方式上.在一般的线程池中,如果一个线程正在执行的任务由于某些原因无法继续运行,那么该线程会处于等待状态.而在fork/join框架实现中,如果某个子问题由于等待另外一个子问题的完成而无法继续运行.那么处理该子问题的线程会主动寻找其他尚未运行的子问题来执行.这种方式减少了线程的等待时间,提高了性能 。
我们使用Fork/Join做个小案例:计算从0到某个值(一般很大)的和
创建一个类,继承RecursiveTask抽象类并实现其业务拆分的方法compute()
public class ForkJoinCalculate1 extends RecursiveTask<Long> {
private long start;//起始值
private long end;//终止值
private static final long THRESHOLD = 10000;//任务不允许再拆分的临界值
public ForkJoinCalculate1(long start, long end) {
this.start = start;
this.end = end;
}
@Override
protected Long compute() {//任务拆分处理,按实际情况实现
long length = end - start;//计算任务长度
if (length <= THRESHOLD) {//该任务不能再拆,处理该任务(求和)
long sum = 0;
for (long i = start; i <= end; i++) {
sum += i;
}
return sum;
} else {//没达到不可拆分的临界值,将总任务不断拆分成小任务
long middle = (start + end) / 2;
ForkJoinCalculate1 left = new ForkJoinCalculate1(start, middle);
left.fork();//拆分子任务,同时压入线程队列
ForkJoinCalculate1 right = new ForkJoinCalculate1(middle + 1, end);
right.fork();
return left.join() + right.join();
}
}
}
测试:
@Test
public void test1() {
Instant start = Instant.now();
ForkJoinPool pool = new ForkJoinPool();
ForkJoinTask<Long> task = new ForkJoinCalculate1(0, 100000000L);
Long sum = pool.invoke(task);
System.out.println(sum);
Instant end = Instant.now();
System.out.println(Duration.between(start, end).toMillis());
}
普通for循环:
@Test
public void test2() {
Instant start = Instant.now();
long sum = 0L;
for (long i = 0; i <= 100000000L; i++) {
sum += i;
}
System.out.println(sum);
Instant end = Instant.now();
System.out.println(Duration.between(start, end).toMillis());
}
不断调整计算的值会发现值越大的时候使用Fork/Join效率越高,值较小的时候使用for循环速度更快:这是由于虚拟机底层优化,任务较小时使用for循环处理更快,因为fork/join任务拆分也需要时间,如果任务较小时可能拆分汇总的时间比直接计算的时间还要快。因此使用的时候越是大的任务越适合使用。
可以看到,使用Fork/Join去处理任务其实还是比较复杂的,一个简单的计算尚且写了如此复杂的一对处理代码,如果更加复杂的任务那可能处理会更加复杂,使用不方便。
再看Java8并行流的处理方式就显得很简单了:
@Test
public void test3() {
Instant start = Instant.now();
//顺序流:单线程
// LongStream.rangeClosed(0, 100000000000L)
// .reduce(0, Long::sum);
//并行流
LongStream.rangeClosed(0, 100000000000L)
.parallel()
.reduce(0, Long::sum);
Instant end = Instant.now();
System.out.println(Duration.between(start, end).toMillis());
}