首页 > 技术文章 > SparkStreaming 结合Kafka 时丢数据

yangxusun9 2020-08-17 18:58 原文

问题:

  从同一个Kafka里消费数据做一个WordCount,flink,Kafkaconsumer 得到的结果都是正常的,而我自己写的sparkstreaming  确跟正常数据量差了10倍左右

解决:

  总结一句话:一定要听官网的话!!!

 

 

 http://spark.apache.org/docs/2.4.6/streaming-kafka-0-10-integration.html

 

 复盘一下当时的操作:我把jar包放到集群上去跑时,报了个java.lang.NoClassDefFoundError: org/apache/spark/streaming/kafka010/KafkaUtils$

当时一想,这不差个Kafka client 吗,就自己加了个依赖,就掉坑里了,其实spark-streaming-Kafka 里面已经集成了,所需要做的就是打包时,将它打到jar包里,再运行

其实把这个依赖包传到SPARK_HOME下应该也可以,但是我没有成功。。。

推荐阅读