c - 为什么 linux 内核中的 bitops 性能比我的慢?
问题描述
我正在寻找用 c 语言编写的最佳 bitops 库或函数,因此我认为 linux 内核在这种情况下是最好的。
所以我从 arch/x86/include/asm/bitops.h 中复制了 Linux 内核的 set_bit 函数并与我的比较,看到了一个奇怪的结果!!!
kernel_bitops.c
#define ADDR BITOP_ADDR(addr)
#define __ASM_FORM(x) #x
#define BITOP_ADDR(x) "m" (*(volatile long *) (x))
#define __ASM_SEL(a,b) __ASM_FORM(b)
#define __ASM_SIZE(inst, ...) __ASM_SEL(inst##l##__VA_ARGS__, inst##q##__VA_ARGS__)
__always_inline void linux_set_bit(long nr, volatile unsigned long *addr)
{
asm volatile(__ASM_SIZE(bts) " %1,%0" : : ADDR, "Ir" (nr) : "memory");
}
my_bitops.c
#define SETBIT(_value, _bitIndex) _value |= (1ul<<(_bitIndex))
__always_inline void mine_set_bit(long nr, volatile unsigned long *addr)
{
SETBIT(*addr,nr)
}
主程序
#define ARRAY_SIZE 10000000
static unsigned long num_array[ARRAY_SIZE];
unsigned long int num = 0x0F00000F00000000;
for (int i = 0; i < ARRAY_SIZE; i++)
num_array[i] = num;
clock_t start = clock();
for (unsigned long int i = 0 ; i < ARRAY_SIZE; i++)
for (unsigned long int j = 0; j < sizeof(unsigned long int) * 8; j++)
// linux_set_bit(j, &num_array[i]);
// mine_set_bit(j, &num_array[i]);
clock_t end = clock();
Linux 所用
时间:1375991 us 我所用时间:912256 us
CPU:Intel(R) Core(TM) i7-7700K CPU @ 4.20GHz
使用 -O2 生成的汇编代码是:
26 [1] linux_set_bit(j, &num_array[i]);
0x4005c0 <+ 90> 48 8b 45 d0 mov -0x30(%rbp),%rax
0x4005c4 <+ 94> 48 c1 e0 03 shl $0x3,%rax
0x4005c8 <+ 98> 48 8d 90 60 10 60 00 lea 0x601060(%rax),%rdx
0x4005cf <+ 105> 48 8b 45 d8 mov -0x28(%rbp),%rax
0x4005d3 <+ 109> 48 89 d6 mov %rdx,%rsi
0x4005d6 <+ 112> 48 89 c7 mov %rax,%rdi
0x4005d9 <+ 115> e8 69 00 00 00 callq 0x400647 <linux_set_bit>
71 [1] asm volatile(__ASM_SIZE(bts) " %1,%0" : : ADDR, "Ir" (nr) : "memory");
0x400653 <+ 12> 48 8b 45 f0 mov -0x10(%rbp),%rax
0x400657 <+ 16> 48 8b 55 f8 mov -0x8(%rbp),%rdx
0x40065b <+ 20> 48 0f ab 10 bts %rdx,(%rax)
19 [1] SETBIT(*addr,nr);
0x400653 <+ 12> 48 8b 45 f0 mov -0x10(%rbp),%rax
0x400657 <+ 16> 48 8b 00 mov (%rax),%rax
0x40065a <+ 19> 48 8b 55 f8 mov -0x8(%rbp),%rdx
0x40065e <+ 23> be 01 00 00 00 mov $0x1,%esi
0x400663 <+ 28> 89 d1 mov %edx,%ecx
0x400665 <+ 30> d3 e6 shl %cl,%esi
0x400667 <+ 32> 89 f2 mov %esi,%edx
0x400669 <+ 34> 89 d2 mov %edx,%edx
0x40066b <+ 36> 48 09 c2 or %rax,%rdx
0x40066e <+ 39> 48 8b 45 f0 mov -0x10(%rbp),%rax
0x400672 <+ 43> 48 89 10 mov %rdx,(%rax)
我哪里错了?还是Linux运行缓慢?
解决方案
主要区别在于您的代码无法处理大于无符号长整数位数的“位数”,而 Linux 版本可以。由于这种差异,您编写了一个适用于您的版本限制的循环,当没有这些限制时,这并不理想,对于 Linux 版本也不理想。
具体来说; 对于 Linux 的版本,您可以/应该这样做:
for (unsigned long int i = 0 ; i < ARRAY_SIZE * sizeof(unsigned long int) * 8; i++) {
linux_set_bit(i, num_array);
}
通过删除整个内部循环开销,加上找到指向数组元素(&num_array[i]
部分)的指针所需的计算,它会明显更快(并且可能比你的更快)。
推荐阅读
- python - 使用 https 的 Python 请求 - 证书验证失败
- angular - 如何使用动态提供程序禁用 Angular 动画?
- c - 使用函数时出现意外的分段错误
- graphql - 在 NextJS 中从未调用过 getInitialProps
- python - 如何将对象列表中每个对象的属性更改为相同的值?(在python3中)
- .net-core - 如何设置“dotnet tool install”以使用本地 nexus 镜像?
- android-studio - Android Studio 热重启/热重载不起作用
- html - flex 项目宽度大于内部包含的图像
- python-3.x - 如何用ete3同时显示多棵树?
- python - 我想提取 YAML 文件中的大小和位置并将其存储为类别的边界框。我不知道,帮我解决