【译】 JVM Anatomy Park #2: 透明大页

原文地址:JVM Anatomy Park #2: Transparent Huge Pages

问题

大页(Large Pages)是什么?透明大页(Transparent Huge Pages)又是什么?它们有什么用?!

理论

现在虚拟内存被视为理所当然的特性。只有很少人还记得直接操作物理内存的“实模式(real mode)”编程,与此相反,每个进程拥有自己的虚拟地址空间,这段空间将会被映射到实际的物理内存。该特性使得两个进程可以在相同的虚拟地址0x42424242上具有不同的数据,因为相同的虚拟地址会被映射到不同的物理地址。所以当程序访问虚拟地址时,某个组件将会把虚拟地址转换为物理地址。

这部分的功能通常是由操作系统与硬件协同完成的,操作系统负责维护“页表(page table)”,而硬件通过“页表移动(page table walk)”转换地址。以页的粒度维护地址转换还是比较容易的,然而这并不高效,因为每次内存访问都需要做地址转换!因此这里又对最近的转换增加了缓存——转换查找缓存 (TLB)。TLB 通常非常小,少于100条记录,因为它需要像 L1 缓存一样快,甚至更快。对于许多工作负载来说,TLB不命中以及相应的页表移动将会非常耗时。

虽然我们不能把 TLB 做大,但是我们可以把变大!大部分硬件支持4K大小的基本页,以及2M/4M/1G的“大页”。拥有更大的页可以将页表缩小,使得页表移动的成本更低。

在 Linux 中至少有两种方式实现更大的页:

  • hugetlbfs。占用部分系统内存,将其暴露为虚拟文件系统,让应用程序从其中mmap(2)。这种方式需要操作系统配置和应用程序协同修改。这也是一种“要么全部,要么没有”的方式:hugetlbfs (持久化部分)分配的空间不能被正常的进程使用。
  • Transparent Huge Pages (THP)。这种方式对应用程序来说是透明的,应用可以像平常那样分配内存。理想情况下,应用程序不需要做任何改动。但是实际上这种方式存在空间成本(因为对某些小对象也会分配整个大页)和时间成本(因为有时候THP需要整理内存碎片)。好在存在一个妥协的办法:应用程序可以通过madvise(2)告诉 Linux 在何处使用 THP。

至于为什么在命名上交替使用了“large”和“huge”,那我就不清楚了。不管怎样 OpenJDK 两种方式都支持:

$ java -XX:+PrintFlagsFinal 2>&1 | grep Huge
  bool UseHugeTLBFS             = false      {product} {default}
  bool UseTransparentHugePages  = false      {product} {default}
$ java -XX:+PrintFlagsFinal 2>&1 | grep LargePage
  bool UseLargePages            = false   {pd product} {default}

-XX:+UseHugeTLBFS 内存映射 Java 堆到 hugetlbfs,

-XX:+UseTransparentHugePages仅仅madvise Java 堆应该使用 THP。这是一个便捷的方式,因为我们知道 Java 堆很大,基本是连续的,可以最大程度享受到大页的好处。

-XX:+UseLargePages 是一个通用的配置,用于启动任意可用的方式。在 Linux 中,该参数启动 hugetlbfs,而不是 THP。我猜测这可能是历史原因,毕竟 hugetlbfs 更早出现。

某些应用程序在开启大页之后却造成了性能下降。(很有趣的是人们通过手动内存管理来避免 GC,然而却由于 THP 的内存碎片整理造成了突增的高延时!)我的直觉是 THP 对大部分生命周期较短的应用程序会造成性能下降,因为内存整理的时间相对于应用程序较短的生命周期比重更明显。

实验

我们可以检验大页带来的好处么?当然,让我们以一个通常的工作负载为例,分配然后随机访问byte[]数组:

public class ByteArrayTouch {

    @Param(...)
    int size;

    byte[] mem;

    @Setup
    public void setup() {
        mem = new byte[size];
    }

    @Benchmark
    public byte test() {
        return mem[ThreadLocalRandom.current().nextInt(size)];
    }
}

(完整的代码在这里

我们知道随着数组变大,系统的性能开始受 L1 缓存不命中的影响,然后受L2缓存不命中的影响,然后受L3缓存不命中的影响,以及其他的影响。这里我们通常会忽略 TLB 不命中的影响。

在执行测试用例之前,我们需要确定使用多大的堆内存。在我的机器上,L3缓存有 8M,所以 100M 大小的数组就可以超出缓存。这意味着通过-Xmx1G -Xms1G分配1G内存肯定就足够了。这也为我们分配 hugetlbfs 提供了指导。

所以,确保设置了下述参数:

# HugeTLBFS should allocate 1000*2M pages:
sudo sysctl -w vm.nr_hugepages=1000

# THP to "madvise" only (some distros have an opinion about defaults):
echo madvise | sudo tee /sys/kernel/mm/transparent_hugepage/enabled
echo madvise | sudo tee /sys/kernel/mm/transparent_hugepage/defrag

我喜欢通过“madvise”使用 THP,因为这使得我可以“选择性”的使用收益较高的部分内存。

执行环境 i7 4790K, Linux x86_64, JDK 8u101:

Benchmark               (size)  Mode  Cnt   Score   Error  Units

# Baseline
ByteArrayTouch.test       1000  avgt   15   8.109 ± 0.018  ns/op
ByteArrayTouch.test      10000  avgt   15   8.086 ± 0.045  ns/op
ByteArrayTouch.test    1000000  avgt   15   9.831 ± 0.139  ns/op
ByteArrayTouch.test   10000000  avgt   15  19.734 ± 0.379  ns/op
ByteArrayTouch.test  100000000  avgt   15  32.538 ± 0.662  ns/op

# -XX:+UseTransparentHugePages
ByteArrayTouch.test       1000  avgt   15   8.104 ± 0.012  ns/op
ByteArrayTouch.test      10000  avgt   15   8.060 ± 0.005  ns/op
ByteArrayTouch.test    1000000  avgt   15   9.193 ± 0.086  ns/op // !
ByteArrayTouch.test   10000000  avgt   15  17.282 ± 0.405  ns/op // !!
ByteArrayTouch.test  100000000  avgt   15  28.698 ± 0.120  ns/op // !!!

# -XX:+UseHugeTLBFS
ByteArrayTouch.test       1000  avgt   15   8.104 ± 0.015  ns/op
ByteArrayTouch.test      10000  avgt   15   8.062 ± 0.011  ns/op
ByteArrayTouch.test    1000000  avgt   15   9.303 ± 0.133  ns/op // !
ByteArrayTouch.test   10000000  avgt   15  17.357 ± 0.217  ns/op // !!
ByteArrayTouch.test  100000000  avgt   15  28.697 ± 0.291  ns/op // !!!

这里观察到一些现象:

  1. 当数组比较小时,缓存和TLB都合适,那么性能相对于基准线没有差异。
  2. 随着数组增大,缓存不命中成为影响性能的主要因素,所以在三种场景下耗时都增加了。
  3. 随着数组增加,TLB不命中也产生了影响,所以通过设置大页改善了一些!
  4. UseTHPUseHTLBFS两者的性能改善基本上是一样的,因为它们提供的功能对应用程序来说是一样的。

为了验证 TLB 不命中的猜想,我们可以观察硬件计数器。JMH的-prof perfnorm提供了操作粒度的数值。

Benchmark                                (size)  Mode  Cnt    Score    Error  Units

# Baseline
ByteArrayTouch.test                   100000000  avgt   15   33.575 ±  2.161  ns/op
ByteArrayTouch.test:cycles            100000000  avgt    3  123.207 ± 73.725   #/op
ByteArrayTouch.test:dTLB-load-misses  100000000  avgt    3    1.017 ±  0.244   #/op  // !!!
ByteArrayTouch.test:dTLB-loads        100000000  avgt    3   17.388 ±  1.195   #/op

# -XX:+UseTransparentHugePages
ByteArrayTouch.test                   100000000  avgt   15   28.730 ±  0.124  ns/op
ByteArrayTouch.test:cycles            100000000  avgt    3  105.249 ±  6.232   #/op
ByteArrayTouch.test:dTLB-load-misses  100000000  avgt    3   ≈ 10⁻³            #/op
ByteArrayTouch.test:dTLB-loads        100000000  avgt    3   17.488 ±  1.278   #/op

让我们开始分析吧!在基准测试中每次操作都会 dTLB load miss,但是启动了THP之后却很少。

当然,伴随着启动 THP,你也需要承担内存碎片整理的成本。我们可以将这个成本转移到 JVM 启动时,这样就可以避免程序运行时突然的卡顿,具体的方法是通过-XX:+AlwaysPreTouch参数控制 JVM 启动时访问堆中的每个内存页。通常来说预访问是个不错的选择。

有趣的事情发生了:通过设置-XX:+UseTransparentHugePages可以使-XX:+AlwaysPreTouch更快完成,因为 JVM 可以以更大的步长(每2M一个字节)访问堆,而不是默认情况下较小的步长(每4K一个字节)。进程关闭后释放内存也会更快,这种优势一直延续到并行释放补丁进入发行版的内核。

使用 4TB 大小的堆内存:

$ time java -Xms4T -Xmx4T -XX:-UseTransparentHugePages -XX:+AlwaysPreTouch
real    13m58.167s
user    43m37.519s
sys     1011m25.740s

$ time java -Xms4T -Xmx4T -XX:+UseTransparentHugePages -XX:+AlwaysPreTouch
real    2m14.758s
user    1m56.488s
sys     73m59.046s

占用和释放 4TB 的内存确实需要执行很长时间!

观察

大页是一个改善程序性能的小技巧。Linux 内核中的透明大页更容易使用。JVM 支持的透明大页也很容易启用。通常来说使用大页是一个好主意,特别是在你的应用程序占用大量数据和堆内存的情况下。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,013评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,205评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,370评论 0 342
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,168评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,153评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,954评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,271评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,916评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,382评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,877评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,989评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,624评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,209评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,199评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,418评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,401评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,700评论 2 345

推荐阅读更多精彩内容

  • CPU Cache 今天的CPU比25年前更复杂。那时候,CPU内核的频率与内存总线的频率相当。内存访问只比寄存器...
    blueshadow阅读 2,977评论 0 5
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,495评论 25 707
  • 用两张图告诉你,为什么你的 App 会卡顿? - Android - 掘金 Cover 有什么料? 从这篇文章中你...
    hw1212阅读 12,693评论 2 59
  • 又是一年秋招季,哎呀妈呀我被虐的惨来~这不,前几阵失踪没更新博客,其实是我偷偷把时间用在复习课本了(雾 坚持在社区...
    tengshe789阅读 1,992评论 0 8
  • 2018-06-03 姓名 :李宏清(单位)扬州市方圆建筑工程有限公司 哈尔滨363期反省二组 【日精进打卡第 ...
    李宏清阅读 167评论 0 0