apache-spark - 生产中 Spark 的系统要求
问题描述
有人可以帮我解决 Spark 在生产环境中运行的系统要求。
我正在尝试为来自 Kafka Producer 的数据的批处理设置环境。
每天处理的数据量以 TB 为单位。数据来自HDFS,持久层也是HDFS。
我得到的信息是:-
4-8 disks per node, configured without RAID (just as separate mount points).
Allocating only at most 75% of the memory for Spark.
The rest for the operating system and buffer cache.
10 Gigabit or higher network is the best way to make these applications faster.
如果有人在 Prod 上使用 Spark,请分享您的知识。
感谢每台机器至少有 8-16 个内核。
有人可以帮我解决这个问题。
解决方案
推荐阅读
- coldfusion - 使用 ColdFusion 10 合并单元格后如何在 cfspreadsheet 中进行顶部对齐
- apache-flink - 如何在 Flink 中连接两个 unkeyed 流并相互共享状态?
- reactjs - 水平对齐项目引导
- mysql - 使用 MySQL 和 Entity Framework Core 的嵌套事务
- c# - 简单注射器 - 生活方式不匹配
- r - 根据先前行的类型删除行
- javascript - 当到达存储在数据库中的未来日期、时间时,如何在 Node JS 中触发事件?
- python - (泰语)我有关于通过烧瓶读取 csv 文件和上传文件的问题
- javascript - 如何将 JavaScript 添加到 Unity 中的对象?
- javascript - 验证 4 个值中的至少两个 javascript