c++ 内存模型

参考cppreference
参考The C++ Memory Model and Modern Hardware

CPU架构——在不同的CPU core上因cache不一致性导致的读取/写入不同步；
编译器优化——编译器可能会把指令重新排序，导致即使上了同步原语，仍导致读取/写入乱序。
一个是不同步，也就是期待的是同步，是一个执行期的随机事件；
一个是乱序，也就是打乱顺序后的“固定顺序”是一个确定事件。

0.为什么C++要在语言层面引入对多线程的支持？

0.1 简介

基于多线程库如POSIT、boost.Thread不是工作的很好？
具体解释详见Threads Cannot be Implemented as a Library
因为C++03标准是单线程的，所以即便是完全符合标准的编译器也可能各个脑袋里面只装着一个线程，于是在对代码作优化的时候总是一不小心就可能做出危害多线程正确性的优化来。
具体来说是因为两方面原因：1）编译器优化会产生多线程错误的代码；2）完全基于库的多线程代码会影响性能
编译器和硬件对程序内存做的优化：
1）编译器可能对内存操作进行重新排序，前提是不违反线程内部依赖。
2）在相同的限制条件下，硬件也可能对内存操作重排序。将store放在load的后面
关于硬件的内容，推荐阅读《Memory Barriers: a Hardware View for Software Hackers》。
c/c++实现对Pthreads支持如下
1）pthread_mutex_lock()禁止硬件在调用附近对内存操作进行重排序。
2）编译器：内存操作不允许跨过锁函数的调用。（这种支持是不够的）

0.2 正确性问题

正确性问题1）并发修改
编译器并不知道有线程，它只受顺序正确性的约束，因此可能生成多线程包含数据竞争的代码。
解决这个问题，需要一个语言级别定义编译器实现的内存模型，以确保用户和编译器在有数据竞争时达成一致。

if (x == 1) ++y;
if (y == 1) ++x;
//编译器将代码重排序，在两个线程分别执行会有问题
++y; if (x != 1) --y;
++x; if (y != 1) --x;

正确性问题2）重写临近数据
实例1中，如果在tmp = x和x = tmp中间有一个并发的修改x.b的操作，这个修改将失效。

struct { int a:17; int b:15 } x;

//在小端32位机器上编译器编译成如下形式
{
    tmp = x; // Read both fields into
             // 32-bit variable.
    tmp &= ~0x1ffff; // Mask off old a.
    tmp |= 42;
    x = tmp; // Overwrite all of x.
}

struct { char a; char b; char c; char d;
char e; char f; char g; char h; } x;

x.b = ’b’; x.c = ’c’; x.d = ’d’;
x.e = ’e’; x.f = ’f’; x.g = ’g’; x.h = ’h’;

// 在64位机器上被编译成：
x = ’hgfedcb\0’ | x.a;

正确性问题3）register promotion
引入了对x的额外的读和写，但是此时并没有锁。pthread的要求并不能阻止编译器的这种优化。

for (...) {
    ...
    if (mt) pthread_mutex_lock(...);
    x = ... x ...
    if (mt) pthread_mutex_unlock(...);
}

// 编译器编译成：
r = x;
for (...) {
    ...
    if (mt) {
        x = r; pthread_mutex_lock(...); r = x;
    }
    r = ... r ...
    if (mt) {
        x = r; pthread_mutex_unlock(...); r = x;
    }
}
x = r;

0.3 性能问题

pthread_mutex_lock()和pthread_mutex_unlock操作需要一个硬件原子内存更新指令。这些指令隐式地禁止在调用周围对内存引用重排序。或者使用单独的内存屏障指令。这些代价都是相对较高的。
纯粹基于库的多线程操作中，不允许并发变量访问。因此，在某些情况下，如果不使用细粒度原子操作，将无法从多处理中获益。
为了获得性能，锁操作不应该禁止在其周围的所有重排序。为了并发操作，需要语言规格给出具体的语义，然后编译器实现这些语义。并且实现需要直到一些原语包含了特殊的内存虚限制。（memory ordering constraints）。

1.内存模型涉及的基本概念

内存模型为C++虚拟机定义内存存储的语义。
编译器说：“不如这样，你来告诉我哪些数据是线程间共享的。这样，我就可以在必要的时候保守优化，一般情况下全力优化。只要你保证自己的程序是正确同步的，那我保证程序执行时就是你要的那个样子。”这样一个在程序员和语言间的约定，就是“Memory Model”。
字节是内存最小的可寻址单位。
内存位置（memory location）
1）标量类型的对象（算术类型，指针类型，枚举类型和std::nullptr_t）
2）非零长度的最大连续的位域序列
引用或虚函数等可能涉及程序无法访问但由实现管理的其他内存位置。

struct S {
    char a;     // memory location #1
    int b : 5;  // memory location #2
    int c : 11, // memory location #2 (continued)
          : 0,
        d : 8;  // memory location #3
    struct {
        int ee : 8; // memory location #4
    } e;
} obj; // The object 'obj' consists of 4 separate memory locations

visible side-effects
线程1执行写操作A之后，如何可靠并高效地保证线程2执行读操作B时，操作A的结果是完整可见的？
为了解决该问题，引入了happens-before关系：
Let A and B represent operations performed by a multithreaded process. If A happens-before B, then the memory effects of A effectively become visible to the thread performing B before B is performed.

1）sequenced-before（线程内）
在同一个线程内，操作A先于操作B
2）dependency-ordered before （线程间）
case 1：线程1的操作A对变量M执行“release”写，线程2的操作B对变量M执行“consume”读，并且操作B读取到的值源于操作A之后的“release”写序列中的任何一个（包括操作A本身）
case 2：线程1的操作A 与线程2的操作X之间存在dependency-ordered before关系，同时线程2的操作B“depends on”操作X（所谓B“depends on”A，这里就不给出精确的定义，举个直观的例子：B=M[A]）
3）synchronizes-with（线程间）
线程1的操作A对变量M执行“release”写，线程2的操作B对变量M执行“acquire”读，并且操作B读取到的值源于操作A之后的“release”写序列中的任何一个（包括操作A本身）

2.线程与数据竞争（data races）

执行线程是程序的控制流，由顶层函数（top-level）使用std::thread::thread、std::async或其他方式启动。
同时访问同一个内存位置会造成数据竞争。以下三种情况不会发生：
1）两个执行的计算在同一个线程或同一个singnal handler
2）计算都是原子操作（std::atomic）
3）其中一个计算happens-before 另一个（std::memory_order）
可以使用锁来防止数据竞争。

3.内存序——memory order

当线程从一个memory location读取值时，可能会看到初始值，同一线程写入的值或者其他线程写入的值。std::memory_order指定哪种值对其他线程可见。
x86内存模型
因为 store-load 可以被重排，所以x86不是顺序一致。但是因为其他三种读写顺序不能被重排，所以x86是 acquire/release 语义。
aquire语义：load 之后的读写操作无法被重排至 load 之前。即 load-load, load-store 不能被重排。
release语义：store 之前的读写操作无法被重排至 store 之后。即 load-store, store-store 不能被重排。

Loads are not reordered with other loads.Stores are not reordered with other stores.Stores are not reordered with older loads.

Loads may be reordered with older stores to different locations.

3.1 Relaxed ordering

在单个线程内，所有原子操作是顺序进行的。按照什么顺序？基本上就是代码顺序（sequenced-before）。这就是唯一的限制了！
简单来说，标记为memory_order_relaxed的atomic操作对于memory order几乎不作保证，它们唯一的承诺就是“atomicity”，当然，不能破坏“modification order”的一致性要求。
对于下面代码片段而言，输出r1 == r2 == 42是合法的。这里，我们可以推导出的关系只有A sequenced-before B、C sequenced-before D，仅此而已。
TIPS：Relaxed ordering比较适用于“计数器”一类的原子变量，不在意memory order的场景。

x = y = 0;
// Thread 1:
r1 = y.load(memory_order_relaxed); // A
x.store(r1, memory_order_relaxed); // B
// Thread 2:
r2 = x.load(memory_order_relaxed); // C
y.store(42, memory_order_relaxed); // D

3.2 Release-Acquire ordering

来自不同线程的两个原子操作顺序不一定？那怎么能限制一下它们的顺序？这就需要两个线程进行一下同步（synchronize-with）。同步什么呢？同步对一个变量的读写操作。线程 A 原子性地把值写入 x (release), 然后线程 B 原子性地读取 x 的值（acquire）. 这样线程 B 保证读取到 x 的最新值。注意 release -- acquire 有个副作用：线程 A 中所有发生在 release x 之前的写操作，对在线程 B acquire x 之后的任何读操作都可见！本来 A, B 间读写操作顺序不定。这么一同步，在 x 这个点前后， A, B 线程之间有了个顺序关系，称作 inter-thread happens-before.
首先，我们可以直观地得出如下关系：A sequenced-before B sequenced-before C、C synchronizes-with D、D sequenced-before E sequenced-before F。
利用前述happens-before推导图，不难得出A happens-before E、B happens-before F，因此，这里的E、F两处的assert永远不会fail。
TIPS：Release-Acquire ordering难度系数与性能指数相对均衡，属于实现lock-free算法的首选。

#include 
#include 
#include 
#include 
 
std::atomic<std::string*> ptr;
int data;
 
void producer()
{
    std::string* p = new std::string("Hello");          // A
    data = 42;                          // B
    ptr.store(p, std::memory_order_release);            // C
}
 
void consumer()
{
    std::string* p2;
    while (!(p2 = ptr.load(std::memory_order_acquire)))         // D
        ;
    assert(*p2 == "Hello");                 // E
    assert(data == 42);                     // F
}
 
int main()
{
    std::thread t1(producer);
    std::thread t2(consumer);
    t1.join(); t2.join();
}

3.3 Release-Consume ordering

只想同步一个 x 的读写操作，结果把 release 之前的写操作都顺带同步了？如果我想避免这个额外开销怎么办？用 release -- consume 呗。同步还是一样的同步，这回副作用弱了点：在线程 B acquire x 之后的读操作中，有一些是依赖于 x 的值的读操作。管这些依赖于 x 的读操作叫赖B读. 同理在线程 A 里面, release x 也有一些它所依赖的其他写操作，这些写操作自然发生在 release x 之前了。管这些写操作叫赖A写. 现在这个副作用就是，只有赖B读能看见赖A写.

数据依赖carries dependency
S1. c = a + b;
S2. e = c + d;
S2 数据依赖于 S1，因为它需要 c 的值。

这次我们把D处修改为memory_order_consume，情况又会有何不同呢？首先，基本的关系对毋庸置疑：A sequenced-before B sequenced-before C、C dependency-ordered before D、D sequenced-before E sequenced-before F。
那么我们还能那么轻易地推导出A happens-before E、B happens-before F吗？答案是：A、E关系成立，而B、F关系破裂。根据我们之前的定义，E depends-on D，从而可以推导出，接着就是水到渠成了。反观D、F之间并不存在这种依赖关系。因此，这里的E永远不会fail，而F有可能fail。
TIPS：Release-Consume ordering难度系数最高，强烈不推荐初学者使用，很多大师级人物都在这上面栽过跟头，当然，它的系统开销可能小于Release-Acquire ordering，适用于极致追求性能的场景，前提是你得能够hold住它。

void producer()
{
    std::string* p = new std::string("Hello");          // A
    data = 42;                          // B
    ptr.store(p, std::memory_order_release);            // C
}
 
void consumer()
{
    std::string* p2;
    while (!(p2 = ptr.load(std::memory_order_consume)))     // D
        ;
    assert(*p2 == "Hello");                 // E
    assert(data == 42);                     // F
}

3.4 Sequentially-consistent ordering

Release -- acquire 就同步一个 x，顺序一致就是对所有的变量的所有原子操作都同步。这么一来，我擦，所有的原子操作就跟由一个线程顺序执行似的。
所谓的Sequentially-consistent ordering，其实就是“顺序一致性”，它是最严格的memory order，除了满足前面所说的Release-Acquire/Consume约束之外，所有的线程对于该顺序必须达成一致。
这里，C处的assert是永远不会fail的。反证法：在线程c的世界里，如果++z未执行，需要操作A先于操作B完成；在线程d的世界里，如果++z未执行，需要操作B先于操作A完成。由于这些操作都是memory_order_seq_cst类型，因此，所有的线程需要达成一致，出现矛盾。
TIPS：Sequentially-consistent ordering难度系数最低，潜在开销可能最大，最符合人类常规思维模型，因此，在多线程编程中最易推理，最不容易出错，强烈推荐初学者使用，当出现性能瓶颈时再考虑优化。

std::atomic x = ATOMIC_VAR_INIT(false);
std::atomic y = ATOMIC_VAR_INIT(false);
std::atomic z = ATOMIC_VAR_INIT(0);
 
void write_x()
{
    x.store(true, std::memory_order_seq_cst);   // A
}
 
void write_y()
{
    y.store(true, std::memory_order_seq_cst);   // B
}
 
void read_x_then_y()
{
    while (!x.load(std::memory_order_seq_cst))
        ;
    if (y.load(std::memory_order_seq_cst)) {
        ++z;
    }
}
 
void read_y_then_x()
{
    while (!y.load(std::memory_order_seq_cst))
        ;
    if (x.load(std::memory_order_seq_cst)) {
        ++z;
    }
}
 
int main()
{
    std::thread a(write_x);
    std::thread b(write_y);
    std::thread c(read_x_then_y);
    std::thread d(read_y_then_x);
    a.join(); b.join(); c.join(); d.join();
    assert(z.load() != 0);          // C
}

3.5 volatile

推荐使用场景：信号处理函数中使用到的信号标志变量。关于volatile更多精彩讨论推荐阅读《Nine ways to break your systems code using volatile》。
这里的讨论仅限于C/C++，不同语言对于volatile赋予的语义并不相同，比如java中的volatile是保证顺序一致性的。*

4. foward progress演进

在一个有效的C++程序中，每个程序最终都会做如下几件事之一：
1）终止
2）调用IO库函数
3）执行volatile glvalue访问
4）执行一个原子操作或者一个同步操作
没有一个线程一直运行，却不执行这些操作的任何一种。这表明这种无线递归或循环的程序是未定义的行为。编译器可以去掉这种循环。
make progress演进
一个进程是make progress，如果执行了以下动作：
1）在（I/O、volatile、atomic、同步）上执行了
2）阻塞在标准库函数里面
3）调用原子无锁函数没有完成执行，因为一个非阻塞的并发线程
三种演进（forward progress）
1）并发forward progress
只要线程没有终止，将在有限时间内make progress，无论其他线程是否make progress。
2）并行forward progress
如果线程尚未执行任何（I/O、volatile、atomic、同步），则无需确保make progress。但是一旦执行，将提供1）中的并发forward progress保证。（此规则描述了线程池中的线程以任意顺序执行任务）
3）弱并行forward progress
不保证最终make progress。

最后编辑于：2018.07.08 10:26:50

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 205,132评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,802评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,566评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,858评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,867评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,695评论 1赞 282
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,064评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,705评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,915评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,677评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,796评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,432评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,041评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,992评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,223评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,185评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,535评论 2赞 343

c++ 内存模型

0.为什么C++要在语言层面引入对多线程的支持？

0.1 简介

0.2 正确性问题

0.3 性能问题

1.内存模型涉及的基本概念

2.线程与数据竞争（data races）

3.内存序——memory order

3.1 Relaxed ordering

3.2 Release-Acquire ordering

3.3 Release-Consume ordering

3.4 Sequentially-consistent ordering

3.5 volatile

4. foward progress演进

推荐阅读更多精彩内容