apache-spark - 如何限制 AWS Glue/PySpark 写入 Elasticsearch

问题描述

我正在使用以下代码通过 AWS Glue 将 pyspark 数据帧写入 elasticsearch。

df.write.format("org.elasticsearch.spark.sql").\
    mode("overwrite").\
    option("es.resource", "{}/_doc".format(es_index_name)).\
    option("es.nodes", es_node_url).\
    option("es.port", es_node_port).\
    option("es.nodes.wan.only", "true").\
    options(**es_conf).\
    save()

我的问题是，有没有办法控制glue/pyspark 向Amazon Elasticsearch (ES) 提交写入操作的速度？因为大量写入导致 ES 抛出错误，导致胶水作业无法完成。目前，我正在尝试找到最佳编号。生成胶水工人和最佳 ES 配置，因此不会发生，但我怀疑这种反复试验的方法是处理此类问题的最有效方法。提前致谢。

标签： apache-sparkelasticsearchpysparkaws-glue

apache-spark - 如何限制 AWS Glue/PySpark 写入 Elasticsearch

问题描述

解决方案

推荐阅读