python - 当您需要存储重复项时，有哪些可行的策略来检测大型 json 文件中的重复项？

首页 > 解决方案 > 当您需要存储重复项时，有哪些可行的策略来检测大型 json 文件中的重复项？

问题描述

我有一组非常大的数据存储在 json 中，太大而无法加载到内存中。json 字段包含有关用户的数据和一些元数据 - 但是，肯定有一些重复。我想浏览这个文件并整理它，以特定的方式合并重复项。

但是，我不确定这样做的最佳做法是什么。我想过使用布隆过滤器，但布隆过滤器不会让我知道副本是什么的副本，所以我不能完全合并。有什么我可以阅读/了解此类最佳实践的内容吗？有哪些行业标准？所有这些都需要在 python 中完成。

标签： pythonjsondata-structures

解决方案

您可以通过哈希值将记录划分为适合内存的较小集合，删除每个集合中的重复项，然后将它们重新组合回一个文件。

推荐阅读