在Linux(CentOS)上部署DPDK------命令行方式

1.DPDK 简介


DPDK(Data Plane Development Kit)是数据平面开发工具包,由用于加速在各种CPU架构上运行的数据包处理的库组成。

DPDK需要一定的网卡硬件支持,以Intel为例,支持以下网卡:

    e1000 (82540, 82545, 82546)
    e1000e (82571, 82572, 82573, 82574, 82583, ICH8, ICH9, ICH10, PCH, PCH2, I217, I218, I219)
    igb (82575, 82576, 82580, I210, I211, I350, I354, DH89xx)
    ixgbe (82598, 82599, X520, X540, X550)
    i40e (X710, XL710, X722, XXV710)
    ice (E810)
    fm10k (FM10420)
    ipn3ke (PAC N3000)
    ifc (IFC)

完整的网卡支持列表可在官网查询:
http://core.dpdk.org/supported/

在Linux上部署DPDK有两种方式,一种是通过命令行依次进行配置,编译,驱动加载等;另一种是通过DPDK的脚本进行快捷配置和编译。

通过命令行的方式部署,可配置项更多,可以获得更佳的性能,对DPDK的工作环境也能有更好的熟悉;通过脚本方式部署步骤较少,较简单。
通过脚本部署的教程请移步:
在Linux(CentOS)上部署DPDK------脚本方式

2.DPDK 环境


该章节的内容参照自官网的DPDK System Requirements

2.1 编译所需的工具和库
  • GNU: make
  • coreutils: cmp, sed, grep, arch, etc.
  • gcc: versions 4.9 或更新版本。
  • libc headers, 即glibc-devel.x86_64 (以64位数Intel平台为例)。
  • Linux kernel headers or sources required to build kernel modules. (kernel - devel.x86_64; kernel - devel.ppc64)
  • 若需要在64位操作系统上编译32位软件,还需要以下工具:
    • glibc.i686, libgcc.i686, libstdc++.i686 and glibc-devel.i686 for Intel i686/x86_64;
    • glibc.ppc64, libgcc.ppc64, libstdc++.ppc64 and glibc-devel.ppc64 for IBM ppc_64;

这里需要注意的是kernel-devel的版本要匹配内核的版本,可以通过uname -r查看内核版本号,并通过yum info kernel-devel查看已安装或支持的kernel-devel版本号。这里查看到我的centos已经预装了kernel-devel,版本与kernel版本一致:

uname -r
    3.10.0-862.el7.x86_64

yum info kernel-devel
    已安装的软件包
    名称    :kernel-devel
    架构    :x86_64
    版本    :3.10.0
    发布    :862.el7
    大小    :37 M
    源    :installed

kernel头文件的路径位于/usr/lib/modules/$kernel-version/kernel

2.2 运行环境
  • Kernel version >= 3.16
  • glibc >= 2.7 (for features related to cpuset)
  • Kernel configuration,centos提供的配置可运行大多数DPDK应用。
2.3 设置Hugepages

Hugepages是DPDK用于提升性能的重要手段。 通过使用Hugepages,可以降低内存页数,减少TLB页表数量,增加TLB hit率。

在Linux上设置Hugepages有两种方式:

  • 修改Kernel cmdline(推荐)
  • 修改sysfs节点
2.3.1 修改Kernel cmdline(推荐)

通过修改kernel command line可以在kernel初始化时传入Hugepages相关参数并进行配置。
具体的操作步骤如下:

  1. 修改grub文件
    修改/etc/default/grub文件,在GRUB_CMDLINE_LINUX中加入如下配置:
    default_hugepagesz=1G hugepagesz=1G hugepages=4
    
    该配置表示默认的hugepages的大小为1G,设置的hugepages大小为1G,hugepages的页数为4页,即以4个1G页面的形式保留4G的hugepages内存
    修改后的grub文件示例如下:
    GRUB_TIMEOUT=5
    GRUB_DISTRIBUTOR="$(sed 's, release .*$,,g' /etc/system-release)"
    GRUB_DEFAULT=saved
    GRUB_DISABLE_SUBMENU=true
    GRUB_TERMINAL_OUTPUT="console"
    GRUB_CMDLINE_LINUX="crashkernel=auto rd.lvm.lv=centos/root rd.lvm.lv=centos/swap default_hugepagesz=1G hugepagesz=1G hugepages=4 rhgb quiet"
    GRUB_DISABLE_RECOVERY="true"
    
  2. 编译grub配置文件
    可以通过命令grub2-mkconfig -o /boot/grub2/grub.cfg
  3. 重启
    通过reboot命令重启,随后可以通过cat /proc/cmdline查看kernel的command line是否包含之前的配置。
    也可以通过cat /proc/meminfo | grep Huge命令查看是否设置成功,若设置成功可以看到如下配置:
     HugePages_Total:       4
     HugePages_Free:        4
     Hugepagesize:    1048576 kB
    

DPDK官方建议,64位的应用应配置1GB hugepages。

这种配置方式的优点是可以在系统开机时即配置预留好hugepages,避免系统运行起来后产生内存碎片;另外,对于较大的例如1G pages,是不支持在系统运行起来后配置的,只能通过kernel cmdline的方式进行配置。

注:对于双插槽的NUMA系统(dual-socket NUMA system),预留的hugepages会被均分至两个socket,可以通过lscpu查看CPU信息:

Architecture:          x86_64
CPU op-mode(s):        32-bit, 64-bit
Byte Order:            Little Endian
CPU(s):                4
On-line CPU(s) list:   0-3
Thread(s) per core:    1
Core(s) per socket:    4
socket(s):            1
NUMA node(s):          1

可见测试主机使用的是单socket的NUMA系统。

2.3.2 修改sysfs节点

对于2 MB页面,还可以选择在系统启动后进行分配。 这是通过修改 /sys/devices/中的nr_hugepages节点来实现的。 对于单节点系统,若需要1024个页面,可使用如下命令:

echo 1024 > /sys/kernel/mm/hugepages/hugepages-2048kB/nr_hugepages

在NUMA机器上,页面的需要明确分配在不同的node上(若只有一个node只需要分配一次):

echo 1024 > /sys/devices/system/node/node0/hugepages/hugepages-2048kB/nr_hugepages
echo 1024 > /sys/devices/system/node/node1/hugepages/hugepages-2048kB/nr_hugepages

这种配置方式的优点是配置简单,无需编译、重启,但是无法配置1GB这样的大hugepages。

2.3.3 DPDK使用Hugepages

预留好Hugepages之后,想要让DPDK使用预留的Hugepages,需要进行下述操作:

mkdir /mnt/huge
mount -t hugetlbfs nodev /mnt/huge

可以将这个挂载点添加到/etc/fstab中,这样可以永久生效,即重启后也仍然可以生效:

nodev /mnt/huge hugetlbfs defaults 0 0

对于1GB pages,在/etc/fstab中必须指定page size作为mount选项。

nodev /mnt/huge_1GB hugetlbfs pagesize=1GB 0 0

添加上面这样一行内容至/etc/fstab后并重启,可以通过df -a看到挂载成功:

nodev                           0       0         0     - /mnt/huge_1GB

3.DPDK 编译


该章节的内容参照自官网的DPDK build

3.1 下载DPDK代码

可从官网下载最新的稳定版或开发版的DPDK代码DPDK代码下载

然后解压缩:

tar xJf dpdk-<version>.tar.xz
cd dpdk-<version>

其中DPDK的代码包含如下部分:

  • lib: Source code of DPDK libraries
  • drivers: Source code of DPDK poll-mode drivers
  • app: Source code of DPDK applications (automatic tests)
  • examples: Source code of DPDK application examples
  • config, buildtools, mk: Framework-related makefiles, scripts and configuration
3.2 编译和安装

想要编译和安装DPDK,需要在DPDK的顶层目录运行下面运行make install T=<target>;或者可以首选运行make config T=<target>来进行配置,随后运行make来编译。

这里的target的格式为:

ARCH-MACHINE-EXECENV-TOOLCHAIN

其中:

  • ARCH可以是: i686, x86_64, ppc_64, arm64
  • MACHINE 可以是: native, power8, armv8a
  • EXECENV 可以是: linux, freebsd
  • TOOLCHAIN 可以是: gcc, icc

这里我们使用gcc来编译64位DPDK,这里最初按照官网的guide使用linux编译报错,后改用linuxapp

make install T=x86_64-native-linuxapp-gcc

在编译的过程中,若出现头文件缺失可通过yum进行安装。

编译完成后,target环境会在DPDK顶层目录以x86_64-native-linuxapp-gcc为文件名创建,若需要修改配置重新编译,可通过修改target目录下的.config文件再重新编译:

cd x86_64-native-linuxapp-gcc
vi .config
make

4.DPDK 驱动加载


该章节的内容参照自官网的DPDK Linux Drivers

不同的PMD需要不同的内核驱动程序才能正常工作。 取决于正在使用的PMD,应加载相应的内核驱动程序并绑定到网络端口。

4.1 UIO

UIO(Userspace I/O)是运行在用户空间的I/O技术。Linux系统中一般的驱动设备都是运行在内核空间,而在用户空间用应用程序调用即可。
而UIO则是将驱动的很少一部分运行在内核空间,而在用户空间实现驱动的绝大多数功能。
在许多情况下,Linux内核中包含的标准uio_pci_generic模块可以提供uio功能。 可以使用以下命令加载此模块:

sudo modprobe uio_pci_generic

除了Linux内核中包含的标准uio_pci_generic模块,DPDK也提供了一个可替代的igb_uio模块,可以在kmod路径中找到。可以通过以下方法加载igb_uio模块。

sudo modprobe uio
sudo insmod kmod/igb_uio.ko

如果用于DPDK的设备绑定为uio_pci_generic内核模块,需要确保IOMMU已禁用或passthrough。 以intel x86_64系统为例,可以在的GRUB_CMDLINE_LINUX中添加intel_iommu = offintel_iommu = on iommu = pt

4.2 VFIO(推荐)

VFIO与UIO相比,它更加强大和安全,依赖于IOMMU。 要使用VFIO,需要:

  • Linix kernel version>=3.6.0
  • 内核和BIOS必须支持并配置为使用IO virtualization(例如Intel®VT-d)。

在确认硬件配置支持的情况下,要使用VFIO驱动绑定到NIC必须先使能iommu,否则会导致绑定失败。具体的现象就是查看或修改sysfs节点/sys/bus/pci/drivers/vfio-pci/bind出现io错误,以及dmesg中出现:

vfio-pci: probe of 0000:05:00.0 failed with error -22

使能iommu的方法也是修改kernel的command line将iommu=pt intel_iommu=on传入,具体步骤:

  1. 修改grub文件
    修改/etc/default/grub文件,在GRUB_CMDLINE_LINUX中加入如下配置:
    iommu=pt intel_iommu=on
    
  2. 编译grub配置文件
    可以通过命令grub2-mkconfig -o /boot/grub2/grub.cfg
  3. 重启
    通过reboot命令重启,随后可以通过cat /proc/cmdline查看kernel的command line是否包含之前的配置。

iommu配置成功后,dmesg中会有iommu配置group的log,可以通过dmesg | grep iommu查看:

[    0.594500] iommu: Adding device 0000:05:00.0 to group 18
[    0.594512] iommu: Adding device 0000:06:00.0 to group 19

即表示iommu使能成功。
随后需要调用modprobe来加载VFIO的驱动:

sudo modprobe vfio-pci
4.3 驱动绑定NIC

上述的UIO和VFIO驱动可以加载一项,也可以全都加载。但是在驱动绑定NIC的时候,只能选择一种驱动绑定到NIC,这里采用VFIO驱动。

可以调用dpdk路径下的usertools/dpdk-devbind.py实用脚本来进行VFIO驱动与NIC绑定,需要注意的是使用这个脚本进行绑定(bind)动作时是需要root权限的。
可以调用脚本传入--status查看当前的网络端口的状态:

python usertools/dpdk-devbind.py --status

Network devices using kernel driver
===================================
0000:03:00.0 'I210 Gigabit Network Connection 1533' if=enp3s0 drv=igb unused=vfio-pci *Active*
0000:04:00.0 'I210 Gigabit Network Connection 1533' if=enp4s0 drv=igb unused=vfio-pci *Active*
0000:05:00.0 'I210 Gigabit Network Connection 1533' if=enp5s0 drv=igb unused=vfio-pci 
0000:06:00.0 'I210 Gigabit Network Connection 1533' if=enp6s0 drv=igb unused=vfio-pci 

可以看到,当前NIC的状态都是Network devices using kernel driver,使用的是kernel的igb驱动drv=igb
随后可以调用脚本传入--bind将网卡05:00.0,也就是enp5s0绑定到VFIO驱动:

python usertools/dpdk-devbind.py --bind=vfio-pci 05:00.0

再次调用脚本传入--status,可以看到:

Network devices using DPDK-compatible driver
============================================
0000:05:00.0 'I210 Gigabit Network Connection 1533' drv=vfio-pci unused=igb

Network devices using kernel driver
===================================
0000:03:00.0 'I210 Gigabit Network Connection 1533' if=enp3s0 drv=igb unused=vfio-pci *Active*
0000:04:00.0 'I210 Gigabit Network Connection 1533' if=enp4s0 drv=igb unused=vfio-pci *Active*
0000:06:00.0 'I210 Gigabit Network Connection 1533' if=enp6s0 drv=igb unused=vfio-pci 

设备05:00.0已经配置为drv=vfio-pci,若想要恢复为kernel默认的igb驱动,则可以继续调用脚本:

python usertools/dpdk-devbind.py --bind=igb 05:00.0

至此,DPDK的部署就算完成了,接下来可以尝试编译和运行
基于DPDK的简单应用了。

基于DPDK的简单应用编译与运行方法可以查看:
编译和运行DPDK示例程序

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,590评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,808评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,151评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,779评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,773评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,656评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,022评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,678评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,038评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,756评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,411评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,005评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,973评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,053评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,495评论 2 343