线程和进程
进程是系统中执行任务的一个实体,它拥有操作系统分配的各种资源。在进程内部,有更加细粒化的子任务,称为线程,一个进程中的所有线程是共享进程的资源的,一般也称线程为轻量级进程。在大多数操作系统中,任务调度的基本单位都是线程而不是进程。与进程相比,共享进程内存空间的线程间的通信要更加的轻量。如果没有明确的交互机制,各个线程的运行是相互独立的,也正因为这个特性,多线程对共享的变量的读写会有并发安全问题的出现。
线程是一个单一的顺序控制流程。在一个线程中,指令是串行执行的。
线程调度
线程一般分为内核级线程和用户级线程,内核级线程就是系统线程是对内核可见也是由内核来调度的,用户线程可以看成是系统线程内部定义的子线程,对内核是不可见的,所以用户线程的调度和生命周期的管理需要自行实现。用户级线程不能很好的利用操作系统对多核处理器并行的支持,一般很少使用(因为多个用户线程是封装在一个系统线程里面的,对CPU来说,它只是一个线程,而一个线程只能在一个CPU上运行)。Java的线程是系统线程,故是由内核调度的。
常见的分时操作系统都是采用CPU时间分片和抢占机制来调度任务的,CPU的执行时间以若干时钟周期为单位分片(时间片一般是几十毫秒),然后将时间片发布出去让就绪的线程竞争,获取到时间片的线程获取CPU执行权限,执行指令直到时间片结束后返还执行权限,在竞争中没有得到时间片的线程等待下一次发布再去竞争。
在线程切换过程中,有一个上下文切换的过程,上下文是线程执行的状态,如局部变量、栈、pc值等,如果要在被系统中断后面能继续执行,需要这些中间值,所以必须保存起来。
长时间没有获得执行权的线程会被操作系统挂起或者交换出去。
单线程和多线程
单线程模型下的任务是串行的,即一个任务执行完成后才能开始执行下一个任务,它很简单,但使得应用程序的性能很差。考虑一个单线程的web服务器,请求到达时需要排队处理,一次处理一个请求,响应能力可想而知了。
多线程是异步的基础,异步也就是当前线程在执行某个任务的时候可以“同时”(启动一个新的线程)去做另外一件事,也就是并发执行,在多核处理器上,并发可以进一步演化成并行,是真正的同时执行。显而易见,多线程能充分压榨CPU,也就提高了性能,这是使用多线程的原因。那么是不是只有在多核处理器下使用多线程才有意义呢?实际上在单核处理器上,也就是同一时刻只能执行一个线程的情况下,在有些情况下也是能够改善程序性能的。考虑一个查询数据库的耗时操作,主线程发出指令查询数据库,假设这个查询需要等待10s才能返回结果,如果这个程序是单线程的,只有等待10s才能继续后面的事情,这个时间里线程阻塞可能被系统挂起,CPU空闲,浪费了CPU资源(当然OS可能去调度系统中的其他线程,但是从应用程序本身来看,就是CPU被浪费了),如果进程中有另外一个线程B,当A阻塞被挂起时,OS可以调度B执行,CPU在A等待的过程中依然在执行B的运算,提高了进程的响应能力。
多线程的优势
- 充分利用CPU,提高程序的性能
- 简化复杂任务模型->通过拆分成独立的子线程去简单高效完成任务
多线程的风险
因为线程启动之后,因为是交给操作系统来调度,所以实际执行的时机是不固定的。而且多线程常常会操作共享的数据,不确定的执行时序和不确定的中断时机(线程用完时间片),如果没有正确的使用同步机制,会出现数据错乱的问题。另外不完善的多线程可能会出现死锁饥饿等使得线程无法正常执行下去的问题。
因为线程切换也有一定的开销,比如上下文的切换(这个是多线程下必然存在的),另外使用了同步机制的多线程,内存同步操作也需要系统开销,如内存屏障指令会使本地缓存失效,限制处理器的优化等都是性能消耗。
另外由于同步机制,会有一个锁的竞争,获取时间片的线程可能没有获取锁,那么它需要阻塞,要么被操作系统挂起要么做无意义的自旋等待(在java中JVM会做出选择),被挂起也就是放弃了时间片,那么这一次的线程切换就是白白浪费资源,如果自旋等待,实际上也不会做什么实质上的计算工作,只是轮询锁看看能不能获取。这些都是多线程带来的开销。
守护线程
守护线程是一种附属线程,依附于其他“主”线程存在的,会在所有非守护线程终结之后自动销毁。
线程优先级
具有高优先级的线程,在竞争时间片上有优先权。但是优先级是基于操作系统的,且各个系统差异很大,不恰当的优先级使用可能会造成低优先级的线程永远得不到执行,也就是饥饿。
竞态条件
当执行结果依赖于固定的线程执行时序的时候,就会发现竞态条件。常见的竞态条件有先检查后执行。实际上就是在一个线程的执行中途,共享的变量被其他线程修改了,使得这个线程使用的是一个旧值,从而也就导致了数据错误。
锁与同步机制
同步机制就是使多线程的执行串行化,如访问某个变量时同步,就是一次只能一个线程访问此变量,多线程需要排队一个一个访问此变量。同步机制通常使用锁或者同步工具来实现,锁有内置锁(隐式锁)和显式锁,同步工具如信号量,阻塞队列、闭锁等。