arm - Arm Mali GPU 中的点积是否比 MAD(乘加)指令更快?
问题描述
我发现点积与向量加法、向量 mul 的循环相同(每个 ALU 每个核心只有一个循环),但不是疯子。所以我很好奇疯狂指令有多少个周期。
解决方案
我使用点积来提高 OpenCL 性能而不是疯狂,但我的性能很差。用mad,我项目中内核的消耗时间是58ms(平均,多次测试,在arm mali G77 Bifrost上)。点积为 68ms。所以如果你有不同的结论,请附上。
推荐阅读
- python - Python 中符合 POSIX 的 glob
- azure-active-directory - JetBrains DataGrip - Azure SQL - 与 Active Directory 连接 - 密码
- azure - 多用户远程桌面 Azure
- javascript - 如何保留选择默认选项
- java - 通过 REST 发送大型 zip 文件
- scala - 从列表中的映射中获取某些键使用 scala
- java - 更新到 Oreo 后 ListFile 为空
- ios - 使用 GPUImage 为视频添加水印,捕获错误,例如“试图过度释放帧缓冲区”
- javascript - JQuery 交换列
- javascript - rn redux-offline 删除请求数据/缓存