RDMA(Remote Direct Memory Access)全称为远程直接内存访问,是从DMA衍生出来的一种技术,此项技术特点在于在于不需要CPU干预而直接访问远程主机内存,重点是为解决网络传输中服务器端数据处理的延迟。本质上RDMA是一种硬件技术,它通过网络把数据直接传入计算机的存储区,并将数据从一个系统快速传输到另外一台远程主机的存储器中,此传输过程只需要网卡参与,基本上不需要耗费CPU的处理功能,因此节省了大量的CPU资源。同时又消除了操作系统操作外部存储器的复制及内存空间切换的开销,因而减少CPU周期的占用以及内存控制器的耗费,从而明显提高传输性能,为保障上层应用的性能提供极好的基础。
技术背景
在传统的以太网传输中,一个应用和另外一台主机上的应用发生数据交换时,一般需要从用户空间将数据传递至操作系统的内核空间,内核通过网络接口将数据传输出去;在对端的主机上,需要内核从网口接收数据,完成接受以后再通知上层应用,最终完成一个传输过程。在此过程中用户空间到内核空间的处理以及操作系统的干预耗费了大量时间,在面对高性能计算、大数据分析和浪涌型IO高并发以及一些低时延应用时,现有的TCP/IP软硬件架构和应用高CPU消耗的技术特征根本不能满足应用的需求。这要有体现在
- 处理延时过大,数十微秒;
- 多次内存拷贝、中断处理;
- 上下文切换、复杂的TCP/IP协议处理、网络延时过大、存储转发模式和丢包导致额外延时;
上述特点限制了应用的实时性,为了改变这种现状,引入了RDMA技术。
技术特征
如上图所示,RDMA技术绕过了操作系统提供的协议栈,直接使用内存Buffer实现应用程序之间的通信,这样带来的好处是显而易见的:
- 绝对的低延时
- 高效的吞吐
- 极少的CPU参与
标准组织
RDMAC(RDMA Consortium)和IBTA(InfiniBand Trade Association)主导了RDMA发展,RDMAC是IETF的一个补充并主要定义的是iWRAP和iSER,IBTA是infiniband的全部标准制定者,并补充了RoCE v1和RoCE v2的标准化。IBTA解释了RDMA传输过程中应具备的特性行为,而传输相关的Verbs接口和数据结构原型是由另一个组织OFA(Open Fabric Alliance)来完成。
RDMA, DDP, MPA and Verbs Version 1.0 Specifications:
- RDMAP as submitted to the IETF, resulting in RFC5040
- DDP as submitted to the IETF, resulting in RFC5041
- MPA as submitted to the IETF, resulting in RFC5044
- Verbs as submitted to the IETF, resulting in draft-hilland-rddp-verbs-00
Sockets Direct Protocol (SDP) Version 1.0 Specifications:
iSCSI Extensions for RDMA (iSER) and Datamover Architecture for iSCSI (DA) Version 1.0 Specifications:
- iSER/DA Overview Presentation
- iSER/DA Frequently Asked Questions
- iSER Version 1.0 Release Specification
- DA Version 1.0 Release Specificaion
Background Material:
- The Case for RDMA - The problem we are trying to solve
- Verbs Overview - Technical Introduction to Verbs
- RDMA Consortium FAQs - Questions and answers
- Membership Roster - Founders and Contributing Members
Press Releases:
- RDMA Consortium Completes SDP and iSER/DA Specfications
- RDMA Consortium Completes Verbs Specification
- RDMA Consortium Completes Protocol Specifications
- RDMA Consortium Formed
RDMA网络
提出RDMA技术后,需要制定相关协议来支持RDMA传输,目前,有三类RDMA网络,分别是IB、RoCE、iWARP。其中,IB网络是专为RDMA设计的网络,从硬件级别保证可靠传输 , 而RoCE 和 iWARP都是基于以太网的RDMA技术,如下图所示。
-
IB(InfiniBand )网络:基于RDMA提出的一种新型网络技术,需要支持该技术的NIC和交换机,该网络依靠如下特征保证网络转发的低时延
-- 采用Cut-Through转发模式,减少转发时延;
-- 基于Credit的流控机制,保证无丢包;
-- 硬件卸载;
-- Buffer尽可能小,减少报文被缓冲的时延; RoCE(RDMA Over Converged Ethernet )网络:一项允许在以太网上执行RDMA的网络协议
IWARRP(Internet Wide Area RDMA Protocol)网络:一项可以完全兼容现有以太网和RDMA网络的协议,同时具有IB和RoCE协议的特征,用在传统网络中时,会丧失RDMA的所有特性
RoCE协议存在RoCEv1和RoCEv2两个版本,主要区别在于RoCEv1是基于以太网链路层实现的RDMA协议(交换机需要支持PFC等流控技术,在物理层保证可靠传输),而RoCEv2是以太网TCP/IP协议中UDP层实现。三种协议中性能最好的为IB网络,但此网络的部署成本太高,目前应用较多的是RoCE网络。
目前Linux系统从kernel 4.9版本开始支持RDMA,其他操作系统可能需要安装OFED(Open Fabrics Enterprise Distribution)来支持RDMA网络,OFED协议栈由OpenFabric联盟发布,分为Linux和windows版本,可以无缝兼容已有应用。在软件实现方面,这三种协议可以同时兼容libibverbs,因此在编写应用程序时,只要使用libibverbs接口,就可以无缝兼容这三种网络。
小结
本文主要介绍了RDMA的技术背景、技术特征、组织标准以及RDMA的网络构成,并简要解释了RDMA的开发方式。
- 技术背景
- 技术特征
- 组织标准
- 网络构成