apache-spark - 如何限制 AWS Glue/PySpark 写入 Elasticsearch
问题描述
我正在使用以下代码通过 AWS Glue 将 pyspark 数据帧写入 elasticsearch。
df.write.format("org.elasticsearch.spark.sql").\
mode("overwrite").\
option("es.resource", "{}/_doc".format(es_index_name)).\
option("es.nodes", es_node_url).\
option("es.port", es_node_port).\
option("es.nodes.wan.only", "true").\
options(**es_conf).\
save()
我的问题是,有没有办法控制glue/pyspark 向Amazon Elasticsearch (ES) 提交写入操作的速度?因为大量写入导致 ES 抛出错误,导致胶水作业无法完成。目前,我正在尝试找到最佳编号。生成胶水工人和最佳 ES 配置,因此不会发生,但我怀疑这种反复试验的方法是处理此类问题的最有效方法。提前致谢。
解决方案
推荐阅读
- python - 如何在 Cython 中使用不同的 C++ 编译器?
- c++ - 奇怪的班级演员发生
- express - 如何防止在 API 端点服务器端多次点击?
- c# - 发送数据时,模型中的布尔字段未在控制器中更新
- c# - 将子域映射到 ASP.Net Core 3 中的区域
- iis-7.5 - 内部 II(S) 网站适用于 HTTP(S),但不适用于 HTTP
- python - LSQ 子问题中的奇异矩阵 C 错误
- typescript - ionic 4 - 获取离子切换值作为文本输入并在选择一个选项时关闭所有其他开关
- azure-devops - Azure-DevOps 克隆将引用显示为警告
- excel - 创建数据透视表:错误 - 数据透视表字段名称无效