apache-spark - Spark Streaming 和 Kafka 分区问题
问题描述
我使用 Spark Streaming 创建了一个应用程序,它从 Kafka 接收一些文件的路径并打开它们以分析内容。我想使用 flatMap() 函数在 Spark 中并行读取这些文件,该函数返回每个文件中的元素。我使用带有 8 个分区的 Kafka 主题发送文件路径,每个批处理时间发送 8 个路径。默认情况下,Spark 内部有 8 个分区,但路径分布不均,因此有些任务读取的文件比其他任务多。如何平衡 8 个分区以便每个分区都有一个路径?
谢谢你。
解决方案
推荐阅读
- javascript - 带有箭头功能的 OnClick 重新渲染 React
- openstreetmap - 使用 Osmosis 从 PostGIS 或直接从较大的 .osm 文件生成较小的 .osm 文件会更快吗?
- javascript - 自动点击超链接
- excel - Excel:如果单元格值增加 -> 播放声音
- sql - 用新产品值替换所有旧产品值的 SQL 逻辑
- javascript - 如何使用jquery检查是否有任何一个值不等于并停止在每个函数中调用函数?
- matlab - 在matlab中创建正弦波
- sql - 谁能发现 WITH() 子句的错误?
- python - TypeError: super() 在 Python 3.x 上至少需要 1 个参数(给定 0)
- java - 如何使用 testng-results.xml 生成可发送电子邮件的格式执行报告