首页 > 解决方案 > PySpark 结构化流测试支持

问题描述

我进行了很多调查,但在如何测试我的 pyspark 结构化流管道作业(从 Kafka 主题到 S3)以及如何构建持续集成 (CI)/持续部署 (CD) 方面无法获得任何帮助或资源。

  1. 是否可以测试(单元测试、集成测试)pyspark 结构化流?

  2. 如何构建持续集成(CI)/持续部署(CD)?

标签: pyspark

解决方案


  1. 请参阅https://bartoszgajda.com/2020/04/13/testing-spark-structured-streaming-using-memorystream/ - 代码在 Scala 中,但您应该能够转换为 PySpark
  2. 从詹金斯开始(https://www.jenkins.io/

推荐阅读