x86 - 屏障/栅栏和获取、释放语义是如何在微架构上实现的?
问题描述
很多问题SO和文章/书籍如https://mirrors.edge.kernel.org/pub/linux/kernel/people/paulmck/perfbook/perfbook.2018.12.08a.pdf,Preshing的文章如https:// /preshing.com/20120710/memory-barriers-are-like-source-control-operations/和他的整个系列文章,就不同障碍类型提供的排序和可见性保证而言,抽象地讨论了内存排序。我的问题是这些障碍和内存排序语义是如何在 x86 和 ARM 微架构上实现的?
对于存储-存储屏障,似乎在 x86 上,存储缓冲区维护存储的程序顺序并将它们提交到 L1D(从而使它们以相同的顺序全局可见)。如果存储缓冲区未排序,即不按程序顺序维护它们,存储存储屏障是如何实现的?它只是以这样一种方式“标记”存储缓冲区,即在屏障提交之前存储到缓存相干域之前存储之后?还是内存屏障实际上会刷新存储缓冲区并停止所有指令,直到刷新完成?可以双向实施吗?
对于加载-加载障碍,如何防止加载-加载重新排序?很难相信 x86 会按顺序执行所有加载!我假设负载可以无序执行,但按顺序提交/退出。如果是这样,如果一个 cpu 对 2 个不同的位置执行 2 次加载,那么一次加载如何确保它从 T100 获得一个值,而下一次加载是在 T100 上或之后获得的?如果第一次加载在缓存中未命中并正在等待数据,而第二次加载命中并获取其值怎么办?当 load 1 获得它的值时,它如何确保它获得的值不是来自加载 2 的 value 的新商店?如果负载可以乱序执行,如何检测到违反内存顺序的情况?
类似地,加载存储屏障(隐含在 x86 的所有加载中)是如何实现的,以及存储加载屏障(例如 mfence)是如何实现的?即 dmb ld/st 和 just dmb 指令在 ARM 上做了什么微架构,每次加载和每次存储都做了什么,mfence 指令在 x86 上做微架构以确保内存排序?
解决方案
很多这方面的内容在其他问答中都有介绍(尤其是后来的C++ How is release-and-acquire 在 x86 上仅使用 MOV 实现?),但我会在这里做一个总结。不过,好问题,将所有这些都收集在一个地方很有用。
在 x86 上,每个 asm 加载都是一个 acquire-load。为了有效地实现这一点,现代 x86 硬件会比允许的更早进行推测加载,然后检查该推测。(可能导致内存顺序错误推测流水线核弹。)为了跟踪这一点,英特尔将加载和存储缓冲区的组合称为“内存顺序缓冲区”。
弱序 ISA 不必推测,它们可以按任意顺序加载。
x86 存储顺序是通过仅让存储按程序顺序从存储缓冲区提交到 L1d 来维护的。
至少在 Intel CPU 上,当存储发出时(从前端到 ROB + RS),会为存储分配一个存储缓冲区条目。所有微指令都需要为它们分配一个 ROB 条目,但一些微指令还需要分配其他资源,例如加载或存储缓冲区条目、它们读/写的寄存器的 RAT 条目等。
所以我认为存储缓冲区本身是有序的。当存储地址或存储数据微指令执行时,它只是将地址或数据写入其已分配的存储缓冲区条目。由于提交(释放 SB 条目)和分配都是按程序顺序进行的,因此我假设它在物理上是一个带有头部和尾部的循环缓冲区,就像 ROB 一样。(与 RS 不同)。
避免 LoadStore 基本上是免费的:负载在执行之前不能退出(从缓存中获取数据)。商店直到退休后才能提交。自动按顺序退休意味着所有先前的加载都在存储“毕业”并准备好提交之前完成。
在实践中可以进行加载存储重新排序的弱排序 uarch 可能会记分板加载以及在 ROB 中跟踪它们:一旦知道它们没有故障,但即使数据尚未到达,也让它们退休。
这似乎更有可能在有序核心上,但在 IDK 上。所以你可能有一个已经退休的负载,但如果在数据实际到达之前有任何东西试图读取它,那么寄存器目的地仍然会停止。我们知道,有序内核在实践中以这种方式工作,不需要在后续指令执行之前完成加载。(这就是为什么使用大量寄存器的软件流水线在此类内核上如此有价值,例如实现 memcpy。立即在有序内核上读取加载结果会破坏内存并行性。)
如何使用按序提交进行加载->存储重新排序?更深入地研究这个,有序与无序。
屏障说明
唯一对常规存储执行任何操作的屏障指令mfence
实际上会暂停内存操作(或整个管道),直到存储缓冲区耗尽。 加载和存储是唯一被重新排序的指令吗?还涵盖了 Skylake-with-updated-microcode 的行为lfence
。
lfence
主要存在于阻止后续指令甚至发出直到所有先前指令都离开无序后端(退休)的微架构效应。内存排序的用例lfence
几乎不存在。
有关的:
- C++ 如何仅使用 MOV 在 x86 上实现释放和获取?
- 内存屏障的传递性/累积性属性是如何在微架构上实现的?
- x86 CPU 有多少条内存屏障指令?
- 如何体验“LFENCE 或 SFENCE 无法通过较早的读/写”
- lock xchg 是否具有与 mfence 相同的行为?
- 英特尔内存模型是否使 SFENCE 和 LFENCE 变得多余?
- 了解 lfence 对具有两个长依赖链的循环的影响,为了增加长度,需要详细了解 LFENCE 如何停止执行后续指令,以及这对性能意味着什么。
- 我什么时候应该使用 _mm_sfence _mm_lfence 和 _mm_mfence高级语言的内存模型比 x86 弱,所以有时你只需要一个不编译为 asm 指令的屏障。在您没有使用
_mm_sfence()
任何 NT 存储时使用只会让您的代码无缘无故地比atomic_thread_fence(mo_release)
.
推荐阅读
- shell - Ansible 使用 awk 提取 shell 输出
- angular - KeyCloak 在重定向时用单斜杠替换双斜杠
- python - 写入文本并保存对话框
- php - Laravel 7-从数据库中获取数据时出现未定义的偏移错误
- networking - 如何通过 WiFi 控制开关?
- python - 如何使用 GDB 调试异步协程?
- ssl - System.IO.Exception:由于意外的打包格式,握手失败
- javascript - 在 Prestashop 部分 (product.tpl) 中插入动态 Google 图表
- python - 带有Tkinter和openCV的图像编辑软件,以及如何制作一个达到功能并显示它的按钮
- python - Tkinter 登录表单