python - 如何在 Elastic Search 批量插入中计算最佳元组大小
问题描述
我正在从 python 在 Elasticsearch 中插入数据。数据被分析并存储在 pandas 数据框中。将数据帧转换为dict,然后转换为元组,以插入数据。这可行,但有时会出现超时错误。我一直在寻找避免超时的方法。
es = Elasticsearch([target_elasticSearchUrl])
j = helpers.bulk(es,tuple(insert_df.to_dict(orient='records')), index = target_index,doc_type='doc')
因此,我尝试将元组大小限制为 500,这减少了超时实例,但它极大地影响了性能。因为我有超过 100 万条记录要上传。
我正在寻找避免性能影响的方法或其他在 Elasticsearch 中插入数据的方法,而不是批量插入。
解决方案
推荐阅读
- elasticsearch - Logstash Elastic 输出停止加载并计为删除
- git - 从上游获取 fork repo 失败
- ruby - ENV 在 Ruby 中返回什么对象?
- r - 如何用零替换 R 中的 NA
- python - 意外的异常
- python - 如何在 Selenium 中按类名获取背景图像
- java - 从 Angular 实际参数值为“Ébénisterie”,但在 JAVA 中获取值“Ã?bénisterie”
- java - 从代码中获取 403 响应代码,但从 Web 浏览器获取 200
- swagger - 如何使用 BuildFire 公共 API 获取所有用户的列表?
- react-native - 在生产模式下反应原生 iOS 应用程序崩溃