pyspark - DStream 确实使用 Pyspark 在 Spark Streaming 中保存空文件
问题描述
如果这个问题已经被问过,请原谅。我正在尝试使用 pyspark 将流数据保存到 HDFS 中。在 HDFS 上成功创建文件,但这些文件是空的。下面是我正在使用的简单代码。
请帮助解决此问题。
from pyspark import SparkContext
from pyspark.streaming import StreamingContext
# Create a local StreamingContextwith two working thread and batch interval of 1 second
sc= SparkContext("local[2]", "NetworkWordCount")
ssc= StreamingContext(sc, 2)
# Create a DStream that will connect to hostname:port, like localhost:9999
linesDStream= ssc.socketTextStream("localhost", 9999)
# Split each line into words
wordsDStream= linesDStream.flatMap(lambda line: line.split(" "))
# Count each word in each batch
pairsDStream= wordsDStream.map(lambda word: (word, 1))
wordCountsDStream= pairsDStream.reduceByKey(lambda x, y: x + y)
# save the content into HDFS
wordCountsDStream.saveAsTextFiles("/home/cloudera/stream_Output/file")
wordCountsDStream.pprint()
# Start the computation
ssc.start()
# Wait for the computation to terminate
ssc.awaitTermination()
使用带有 spark 1.6.2 版本的 Cloudera 快速启动 VM。
解决方案
推荐阅读
- python - 2D 列表 python 无法正确处理
- c# - 将 SmartEnum 与 NSwag 一起使用
- c# - 显示输入类型编号但模型属性字符串的剃刀视图的验证消息
- c++ - 如何创建和调用与其他函数同名的函数?
- node.js - 使用 SSL 和 Cloudflare 的 NodeJs 应用程序变慢
- excel - 尝试使用 if 语句来获取单元格中的 exordium right bij 文本
- java - 如何使用firebase将OTP发送到手机号SpringBoot?
- ubuntu - 与原生 Windows NPM/Yarn 处理相比,为什么 WSL 非常慢?
- javascript - 如何根据其值突出显示表格中的单元格
- python - 未检测到安装在同一文件夹中的依赖项?