首页 > 解决方案 > 如何使用 PySpark 为 kafka 流制作数据帧?

问题描述

我正在使用 kafka 版本 2.11-1.0.1 和 Spark 版本 2.0.2。我必须为 kafka 响应制作一个数据框。那么如何为 kafkaStream 制作数据框?提前致谢

标签: apache-sparkpysparkapache-kafka

解决方案


如你所说,

kvs = KafkaUtils.createStream(ssc, zkQuorum, "spark-streaming-consumer3", {topic: 1})
lines = kvs.map(lambda x: x[1])

在这里,lines是 a dStreamofrdds而不是一个 ardd本身。因此,要获取数据帧,您必须将其转换dStream为数据帧。像这样的东西,

lines.foreachRDD(lambda rdd: rdd.toDF())

推荐阅读