gcc - 如何让 GCC 将“移动 r10,r3;存储 r10”组合成“存储 r3”?
问题描述
我正在使用 Power9 并使用名为 DARN 的硬件随机数生成器指令。我有以下内联汇编:
uint64_t val;
__asm__ __volatile__ (
"xor 3,3,3 \n" // r3 = 0
"addi 4,3,-1 \n" // r4 = -1, failure
"1: \n"
".byte 0xe6, 0x05, 0x61, 0x7c \n" // r3 = darn 3, 1
"cmpd 3,4 \n" // r3 == -1?
"beq 1b \n" // retry on failure
"mr %0,3 \n" // val = r3
: "=g" (val) : : "r3", "r4", "cc"
);
我不得不添加一个mr %0,3
with"=g" (val)
因为我无法让 GCC 生成预期的代码 with "=r3" (val)
。另请参阅错误:输出操作数中的匹配约束无效。
反汇编显示:
(gdb) b darn.cpp : 36
(gdb) r v
...
Breakpoint 1, DARN::GenerateBlock (this=<optimized out>,
output=0x7fffffffd990 "\b", size=0x100) at darn.cpp:77
77 DARN64(output+i*8);
Missing separate debuginfos, use: debuginfo-install glibc-2.17-222.el7.ppc64le libgcc-4.8.5-28.el7_5.1.ppc64le libstdc++-4.8.5-28.el7_5.1.ppc64le
(gdb) disass
Dump of assembler code for function DARN::GenerateBlock(unsigned char*, unsigned long):
...
0x00000000102442b0 <+48>: addi r10,r8,-8
0x00000000102442b4 <+52>: rldicl r10,r10,61,3
0x00000000102442b8 <+56>: addi r10,r10,1
0x00000000102442bc <+60>: mtctr r10
=> 0x00000000102442c0 <+64>: xor r3,r3,r3
0x00000000102442c4 <+68>: addi r4,r3,-1
0x00000000102442c8 <+72>: darn r3,1
0x00000000102442cc <+76>: cmpd r3,r4
0x00000000102442d0 <+80>: beq 0x102442c8 <DARN::GenerateBlock(unsigned char*, unsigned long)+72>
0x00000000102442d4 <+84>: mr r10,r3
0x00000000102442d8 <+88>: stdu r10,8(r9)
注意 GCC 忠实地再现了:
0x00000000102442d4 <+84>: mr r10,r3
0x00000000102442d8 <+88>: stdu r10,8(r9)
如何让 GCC 将两条指令折叠成:
0x00000000102442d8 <+84>: stdu r3,8(r9)
解决方案
GCC 永远不会删除作为 asm 模板一部分的文本;除了替换 for 之外,它甚至不解析它%operand
。它实际上只是在将 asm 发送到汇编器之前的文本替换。
您必须mr
从您的内联 asm 模板中省略 ,并告诉 gcc 您的输出在r3
(或使用内存目标输出操作数,但不要这样做)。如果您的 inline-asm 模板曾经以指令开头或结尾mov
,那么您通常做错了。
用于register uint64_t foo asm("r3");
强制"=r"(foo)
选择r3
没有特定寄存器约束的平台。
(尽管 ISO C++17 删除了该register
关键字,但此 GNU 扩展仍然适用于。如果您想避免使用该关键字,-std=c++17
也可以使用。您可能仍需要在使用此扩展的源代码中将其视为保留字;这很好。 ISO C++ 将其从基础语言中移除并不会强制实现不将其用作扩展的一部分。)register uint64_t foo __asm__("r3");
asm
register
或者更好的是,不要硬编码注册号。使用支持 DARN 指令的汇编程序。(但显然它太新了,即使是最新的 clang 也缺少它,你只希望这个内联 asm 作为 gcc 的后备,因为 gcc 太旧而无法支持__builtin_darn()
internal)
使用这些约束也可以让您删除寄存器设置,并在内联 asm 语句之前使用foo=0
/并使用.bar=-1
"+r"(foo)
但请注意,darn
的输出寄存器是只写的。没有必要先归零r3
。我找到了一份 IBM POWER ISA 指令集手册的副本,该手册足够新,可以darn
在此处包含:https ://wiki.raptorcs.com/w/images/c/cb/PowerISA_public.v3.0B.pdf#page=96
实际上,您根本不需要在 asm 中循环,您可以将其留给 C 并只包装一条 asm 指令,就像 inline-asm 设计的那样。
uint64_t random_asm() {
register uint64_t val asm("r3");
do {
//__asm__ __volatile__ ("darn 3, 1");
__asm__ __volatile__ (".byte 0x7c, 0x61, 0x05, 0xe6 # gcc asm operand = %0\n" : "=r" (val));
} while(val == -1ULL);
return val;
}
编译干净(在 Godbolt 编译器资源管理器上)
random_asm():
.L6: # compiler-generated label, no risk of name clashes
.byte 0x7c, 0x61, 0x05, 0xe6 # gcc asm operand = 3
cmpdi 7,3,-1 # compare-immediate
beq 7,.L6
blr
与您的循环一样紧,设置更少。(你确定你甚至需要r3
在 asm 指令之前归零吗?)
这个函数可以在任何你想要的地方内联,允许 gcc 发出一个r3
直接读取的存储指令。
在实践中,您需要使用重试计数器,如手册中所建议的那样:如果硬件 RNG 损坏,它可能会让您永远失败,因此您应该回退到 PRNG。(对于 x86 相同rdrand
)
传递一个随机数 (
darn
) - 编程笔记当获得错误值时,软件预计会重复该操作。如果多次尝试后仍未得到无误值,则应使用软件随机数生成方法。建议的尝试次数可能是特定于实现的。在没有其他指导的情况下,尝试十次就足够了。
xor
-zeroing 在大多数固定指令宽度的 ISA 上效率不高,因为 mov-immediate 一样短,所以不需要检测和特殊情况下的异或。(因此 CPU 设计不会在其上使用晶体管)。此外,与 C++11 等效的 PPC asm 的依赖关系规则std::memory_order_consume
要求它携带对输入寄存器的依赖关系,因此即使设计人员想要它也不能破坏依赖关系。xor-zeroing 只是 x86 上的事情,也许还有其他一些可变宽度的 ISA。
li r3, 0
像 gcc 一样使用int foo(){return 0;}
https://godbolt.org/z/-gHI4C。
推荐阅读
- python - 如何连接具有不同行项目的两个数据框
- visual-studio - 在 javascript 中键入右大括号会自动格式化 K&R 样式的块
- javascript - Javascript按键拆分JSON对象
- mongodb - MongoDB 中的 NVL / COALESCE 等价物
- vue.js - 在 Vue cli 中,如何使用自定义模式并像在生产模式中一样构建?
- java - 名为“__cfduid”的 cookie 有一个以点开头的域
- python - 如何使用 OpenCV 从移动设备中提取屏幕?
- spring-boot - Grails got error when war file deployed to Heroku (Factory method 'requestMappingHandlerAdapter' threw exception)
- c# - ASP.NET Core MVC:无法添加管理员角色
- reactjs - 使用 create-react-app 为反应应用程序配置 jest 和酶