首页 > 解决方案 > 如何让 GCC 将“移动 r10,r3;存储 r10”组合成“存储 r3”?

问题描述

我正在使用 Power9 并使用名为 DARN 的硬件随机数生成器指令。我有以下内联汇编:

uint64_t val;
__asm__ __volatile__ (
    "xor 3,3,3                     \n"  // r3 = 0
    "addi 4,3,-1                   \n"  // r4 = -1, failure
    "1:                            \n"
    ".byte 0xe6, 0x05, 0x61, 0x7c  \n"  // r3 = darn 3, 1
    "cmpd 3,4                      \n"  // r3 == -1?
    "beq 1b                        \n"  // retry on failure
    "mr %0,3                       \n"  // val = r3
    : "=g" (val) : : "r3", "r4", "cc"
);

我不得不添加一个mr %0,3with"=g" (val)因为我无法让 GCC 生成预期的代码 with "=r3" (val)。另请参阅错误:输出操作数中的匹配约束无效

反汇编显示:

(gdb) b darn.cpp : 36
(gdb) r v
...

Breakpoint 1, DARN::GenerateBlock (this=<optimized out>,
    output=0x7fffffffd990 "\b", size=0x100) at darn.cpp:77
77              DARN64(output+i*8);
Missing separate debuginfos, use: debuginfo-install glibc-2.17-222.el7.ppc64le libgcc-4.8.5-28.el7_5.1.ppc64le libstdc++-4.8.5-28.el7_5.1.ppc64le
(gdb) disass
Dump of assembler code for function DARN::GenerateBlock(unsigned char*, unsigned long):
   ...
   0x00000000102442b0 <+48>:    addi    r10,r8,-8
   0x00000000102442b4 <+52>:    rldicl  r10,r10,61,3
   0x00000000102442b8 <+56>:    addi    r10,r10,1
   0x00000000102442bc <+60>:    mtctr   r10
=> 0x00000000102442c0 <+64>:    xor     r3,r3,r3
   0x00000000102442c4 <+68>:    addi    r4,r3,-1
   0x00000000102442c8 <+72>:    darn    r3,1
   0x00000000102442cc <+76>:    cmpd    r3,r4
   0x00000000102442d0 <+80>:    beq     0x102442c8 <DARN::GenerateBlock(unsigned char*, unsigned long)+72>
   0x00000000102442d4 <+84>:    mr      r10,r3
   0x00000000102442d8 <+88>:    stdu    r10,8(r9)

注意 GCC 忠实地再现了:

0x00000000102442d4 <+84>:    mr      r10,r3
0x00000000102442d8 <+88>:    stdu    r10,8(r9)

如何让 GCC 将两条指令折叠成:

0x00000000102442d8 <+84>:    stdu    r3,8(r9)

标签: gccinline-assemblypowerpc

解决方案


GCC 永远不会删除作为 asm 模板一部分的文本;除了替换 for 之外,它甚至不解析它%operand。它实际上只是在将 asm 发送到汇编器之前的文本替换。

您必须mr从您的内联 asm 模板中省略 ,并告诉 gcc 您的输出在r3(或使用内存目标输出操作数,但不要这样做)。如果您的 inline-asm 模板曾经以指令开头或结尾mov,那么您通常做错了。

用于register uint64_t foo asm("r3");强制"=r"(foo)选择r3没有特定寄存器约束的平台。

(尽管 ISO C++17 删除了该register关键字,但此 GNU 扩展仍然适用于。如果您想避免使用该关键字,-std=c++17也可以使用。您可能仍需要在使用此扩展的源代码中将其视为保留字;这很好。 ISO C++ 将其从基础语言中移除并不会强制实现将其用作扩展的一部分。)register uint64_t foo __asm__("r3");asmregister


或者更好的是,不要硬编码注册号。使用支持 DARN 指令的汇编程序。(但显然它太新了,即使是最新的 clang 也缺少它,你只希望这个内联 asm 作为 gcc 的后备,因为 gcc 太旧而无法支持__builtin_darn()internal


使用这些约束也可以让您删除寄存器设置,并在内联 asm 语句之前使用foo=0/并使用.bar=-1"+r"(foo)

但请注意,darn的输出寄存器是只写的。没有必要先归零r3。我找到了一份 IBM POWER ISA 指令集手册的副本,该手册足够新,可以darn在此处包含:https ://wiki.raptorcs.com/w/images/c/cb/PowerISA_public.v3.0B.pdf#page=96

实际上,您根本不需要在 asm 中循环,您可以将其留给 C 并包装一条 asm 指令,就像 inline-asm 设计的那样。

uint64_t random_asm() {
  register uint64_t val asm("r3");
  do {
    //__asm__ __volatile__ ("darn 3, 1");
      __asm__ __volatile__ (".byte 0x7c, 0x61, 0x05, 0xe6  # gcc asm operand = %0\n" : "=r" (val));
  } while(val == -1ULL);
  return val;
}

编译干净(在 Godbolt 编译器资源管理器上

random_asm():
.L6:                 # compiler-generated label, no risk of name clashes
    .byte 0x7c, 0x61, 0x05, 0xe6  # gcc asm operand = 3

    cmpdi 7,3,-1     # compare-immediate
    beq 7,.L6
    blr

与您的循环一样紧,设置更少。(你确定你甚至需要r3在 asm 指令之前归零吗?)

这个函数可以在任何你想要的地方内联,允许 gcc 发出一个r3直接读取的存储指令。


在实践中,您需要使用重试计数器,如手册中所建议的那样:如果硬件 RNG 损坏,它可能会让您永远失败,因此您应该回退到 PRNG。(对于 x86 相同rdrand

传递一个随机数 ( darn) - 编程笔记

当获得错误值时,软件预计会重复该操作。如果多次尝试后仍未得到无误值,则应使用软件随机数生成方法。建议的尝试次数可能是特定于实现的。在没有其他指导的情况下,尝试十次就足够了。


xor-zeroing 在大多数固定指令宽度的 ISA 上效率不高,因为 mov-immediate 一样短,所以不需要检测和特殊情况下的异或。(因此 CPU 设计不会在其上使用晶体管)。此外,与 C++11 等效的 PPC asm 的依赖关系规则std::memory_order_consume 要求它携带对输入寄存器的依赖关系,因此即使设计人员想要它也不能破坏依赖关系。xor-zeroing 只是 x86 上的事情,也许还有其他一些可变宽度的 ISA。

li r3, 0像 gcc 一样使用int foo(){return 0;} https://godbolt.org/z/-gHI4C


推荐阅读