首页 > 解决方案 > 如何在 Elastic Search 批量插入中计算最佳元组大小

问题描述

我正在从 python 在 Elasticsearch 中插入数据。数据被分析并存储在 pandas 数据框中。将数据帧转换为dict,然后转换为元组,以插入数据。这可行,但有时会出现超时错误。我一直在寻找避免超时的方法。

es = Elasticsearch([target_elasticSearchUrl])
j = helpers.bulk(es,tuple(insert_df.to_dict(orient='records')), index = target_index,doc_type='doc')

因此,我尝试将元组大小限制为 500,这减少了超时实例,但它极大地影响了性能。因为我有超过 100 万条记录要上传。

我正在寻找避免性能影响的方法或其他在 Elasticsearch 中插入数据的方法,而不是批量插入。

标签: pythonpandaselasticsearchelasticsearch-6

解决方案


推荐阅读