c++ - 使用共享内存在 C++ 和 python 之间进行快速通信
问题描述
在跨平台(Linux 和 Windows)实时应用程序中,我需要在 C++ 进程和我都管理的 python 应用程序之间共享数据的最快方式。我目前使用套接字,但使用高带宽数据(30 fps 的 4K 图像)时速度太慢。
我最终想使用多处理共享内存,但我的第一次尝试表明它不起作用。我使用 Boost.Interprocess 在 C++ 中创建共享内存,并尝试像这样在 python 中读取它:
#include <boost/interprocess/shared_memory_object.hpp>
#include <boost/interprocess/mapped_region.hpp>
int main(int argc, char* argv[])
{
using namespace boost::interprocess;
//Remove shared memory on construction and destruction
struct shm_remove
{
shm_remove() { shared_memory_object::remove("myshm"); }
~shm_remove() { shared_memory_object::remove("myshm"); }
} remover;
//Create a shared memory object.
shared_memory_object shm(create_only, "myshm", read_write);
//Set size
shm.truncate(1000);
//Map the whole shared memory in this process
mapped_region region(shm, read_write);
//Write all the memory to 1
std::memset(region.get_address(), 1, region.get_size());
std::system("pause");
}
还有我的python代码:
from multiprocessing import shared_memory
if __name__ == "__main__":
shm_a = shared_memory.SharedMemory(name="myshm", create=False)
buffer = shm_a.buf
print(buffer[0])
我收到系统错误FileNotFoundError: [WinError 2] : File not found
。所以我猜它只能在 Python 多处理内部工作,对吧?Python 似乎找不到在 C++ 端创建的共享内存。
另一种可能性是使用mmap,但恐怕它不如“纯”共享内存(不使用文件系统)那么快。如Boost.interprocess 文档所述:
但是,由于操作系统必须将文件内容与内存内容同步,因此内存映射文件不如共享内存快
我不知道它慢到什么程度。我只是更喜欢最快的解决方案,因为这是我目前应用程序的瓶颈。
解决方案
所以我在最后几天使用 mmap 实现共享内存,我认为结果非常好。以下是比较我的两个实现的基准测试结果:纯 TCP 以及 TCP 和共享内存的混合。
协议:
基准测试包括将数据从 C++ 移动到 Python 世界(使用 python 的 numpy.nparray),然后将数据发送回 C++ 进程。不涉及进一步处理,仅涉及序列化、反序列化和进程间通信(IPC)。
案例一:
- 一个使用Boost.Asio实现 TCP 通信的 C++ 进程
- 一个使用标准 python TCP 套接字的 Python3 进程
使用 TCP {header + data} 完成通信。
案例 B:
- 一个使用 Boost.Asio 实现 TCP 通信的 C++ 进程和使用Boost.Interprocess实现共享内存 (mmap) 的 C++ 进程
- 一个使用标准 TCP 套接字和mmap的 Python3 进程
通信是混合的:同步通过套接字完成(仅传递标头),数据通过共享内存移动。我认为这种设计很棒,因为我过去曾遇到过在共享内存中使用条件变量进行同步的问题,而且 TCP 在 C++ 和 Python 环境中都很容易使用。
结果:
高频小数据
总计 200 MBytes/s:10 MByte 样本,每秒 20 个样本
案子 | 全局 CPU 消耗 | C++部分 | 蟒蛇部分 |
---|---|---|---|
一个 | 17.5 % | 10% | 7.5% |
乙 | 6% | 1% | 5% |
低频大数据
总计 200 MBytes/s:每秒 1000 个样本时 0.2 MByte 样本
案子 | 全局 CPU 消耗 | C++部分 | 蟒蛇部分 |
---|---|---|---|
一个 | 13.5 % | 6.7% | 6.8% |
乙 | 11% | 5.5% | 5.5% |
最大带宽
- 答:250 兆字节/秒
- B:600兆字节/秒
结论:
在我的应用程序中,使用 mmap 对平均频率的大数据产生巨大影响(几乎 300 % 的性能增益)。当使用非常高的频率和小数据时,共享内存的好处仍然存在,但并不那么令人印象深刻(只有 20% 的改进)。最大吞吐量超过 2 倍。
使用 mmap 对我来说是一个很好的升级。我只是想在这里分享我的结果。
推荐阅读
- python - 从烧瓶中获取nginx的端口号
- qt5 - 在 Windows 10 上全新安装后无法启动 Qt Creator 4.15.1
- node.js - npm WARN old lockfile package-lock.json 文件是使用旧版本的 npm 创建的
- python - 如何不以最后一个逗号结束输出?
- installation - 通过 make install 检查某个库是否安装成功
- typescript - HTMLElement 作为由 tagName 区分的联合
- python - zip输出中的值数量不正确?
- elixir - 如何在同一范围内配置实时仪表板和 JSON API?
- mysql - MySQL将触发器从更新转换为插入
- reactjs - 如何使用 d3-scale 时间获取两个日期之间的日期