c++ - uint8 使用 SIMD Neon 内在函数浮动
问题描述
我正在尝试优化将灰度图像转换为在 Neon A64/v8 上运行的浮动图像的代码。
当前的实现使用 OpenCV(为 android 编译)相当快convertTo()
,但这仍然是我们的瓶颈。
所以我想出了以下代码,并想听听可能的改进。
如果可以的话,图像的高度和宽度是 16 倍。
我正在运行for
循环:
static void u8_2_f(unsigned char* in, float* out)
{
//1 u8x8->u16x8
uint8x8_t u8x8src = vld1_u8(in);
uint16x8_t u16x8src = vmovl_u8(u8x8src);
//2 u16x8 -> u32x4high, u32x4low
uint32x4_t u32x4srch = vmovl_u16(vget_high_u16(u16x8src));
uint32x4_t u32x4srcl = vmovl_u16(vget_low_u16(u16x8src));
//3 u32x4high, u32x4low -> f32x4high, f32x4low
vst1q_f32(out, vcvtq_f32_u32(u32x4srch));
vst1q_f32(out+4, vcvtq_f32_u32(u32x4srcl));
}
解决方案
为了可能的改进,请尝试vcvtq_f32_u32
使用此功能替换。它是 2 条指令而不是 1 条指令,但在某些 CPU 上它们可能更快。
// Convert bytes to float, assuming the input is within [ 0 .. 0xFF ] interval
inline float32x4_t byteToFloat( uint32x4_t u32 )
{
// Floats have 23 bits of mantissa.
// We want least significant 8 bits to be shifted to [ 0 .. 255 ], therefore need to add 2^23
// See this page for details: https://www.h-schmidt.net/FloatConverter/IEEE754.html
// If you want output floats in [ 0 .. 255.0 / 256.0 ] interval, change into 2^15 = 0x47000000
constexpr uint32_t offsetValue = 0x4b000000;
// Check disassembly & verify your compiler has moved this initialization outside the loop
const uint32x4_t offsetInt = vdupq_n_u32( offsetValue );
// Bitwise is probably slightly faster than addition, delivers same results for our input
u32 = vorrq_u32( u32, offsetInt );
// The only FP operation required is subtraction, hopefully faster than UCVTF
return vsubq_f32( vreinterpretq_f32_u32( u32 ), vreinterpretq_f32_u32( offsetInt ) );
}
推荐阅读
- tsql - 如何使用存储过程将年份和月份添加到我的临时交易编号
- c# - 在 Windows 10 中使用参数启动 C#-ConsoleApp
- php - 如何使用 SolrQuery 添加提升查询
- visual-studio-code - VS 代码调试 launch.json - 在 `env` 中使用 `envFile` 值
- codenameone - 如何约束过渡,例如保持动画组件可见?
- c++ - GitLab for c++ 中的 CodeClimate 报告未显示
- android - 如何从 Firebase 存储中获取所有 URL?
- sql - windows功能+分区硬
- android - 如何使用来自 google place API 的数据创建带有建议的自定义搜索框(在自定义列表中)?
- mysql - 如何使用 Doctrine 更新另一个表中删除行的表行?