apache-spark - 如何使用 PySpark 为 kafka 流制作数据帧?
问题描述
我正在使用 kafka 版本 2.11-1.0.1 和 Spark 版本 2.0.2。我必须为 kafka 响应制作一个数据框。那么如何为 kafkaStream 制作数据框?提前致谢
解决方案
如你所说,
kvs = KafkaUtils.createStream(ssc, zkQuorum, "spark-streaming-consumer3", {topic: 1})
lines = kvs.map(lambda x: x[1])
在这里,lines
是 a dStream
ofrdds
而不是一个 ardd
本身。因此,要获取数据帧,您必须将其转换dStream
为数据帧。像这样的东西,
lines.foreachRDD(lambda rdd: rdd.toDF())
推荐阅读
- kubernetes - NiFi AzureLogAnalyticsReporting 任务不工作
- webpack - Yarn - 没有为 main.scss 提供配置
- firebase - 如何在firebase中创建函数?
- android - 打开xml预览时出现空白黑色并且变慢
- firebase - 使用 SwiftUI 和 AVFoundation 将音频文件上传到 Firebase
- sql - 带日期的 Windows 函数
- javascript - 带有shebang的文件的next.js webpack失败:模块解析失败:意外字符'#'
- vue.js - GitHub Pages - Live 上出现意外的令牌 '<',本地上没有问题
- c++ - 代码对齐会显着影响性能
- python - 使用二进制选择器的边界优化求和函数 - GEKKO