首页 > 解决方案 > 如何限制 AWS Glue/PySpark 写入 Elasticsearch

问题描述

我正在使用以下代码通过 AWS Glue 将 pyspark 数据帧写入 elasticsearch。

df.write.format("org.elasticsearch.spark.sql").\
    mode("overwrite").\
    option("es.resource", "{}/_doc".format(es_index_name)).\
    option("es.nodes", es_node_url).\
    option("es.port", es_node_port).\
    option("es.nodes.wan.only", "true").\
    options(**es_conf).\
    save()

我的问题是,有没有办法控制glue/pyspark 向Amazon Elasticsearch (ES) 提交写入操作的速度?因为大量写入导致 ES 抛出错误,导致胶水作业无法完成。目前,我正在尝试找到最佳编号。生成胶水工人和最佳 ES 配置,因此不会发生,但我怀疑这种反复试验的方法是处理此类问题的最有效方法。提前致谢。

标签: apache-sparkelasticsearchpysparkaws-glue

解决方案


推荐阅读