首页 > 解决方案 > Arm Mali GPU 中的点积是否比 MAD(乘加)指令更快?

问题描述

我发现点积与向量加法、向量 mul 的循环相同(每个 ALU 每个核心只有一个循环),但不是疯子。所以我很好奇疯狂指令有多少个周期。

标签: armgpumali

解决方案


我使用点积来提高 OpenCL 性能而不是疯狂,但我的性能很差。用mad,我项目中内核的消耗时间是58ms(平均,多次测试,在arm mali G77 Bifrost上)。点积为 68ms。所以如果你有不同的结论,请附上。


推荐阅读