首页 > 解决方案 > 当您需要存储重复项时,有哪些可行的策略来检测大型 json 文件中的重复项?

问题描述

我有一组非常大的数据存储在 json 中,太大而无法加载到内存中。json 字段包含有关用户的数据和一些元数据 - 但是,肯定有一些重复。我想浏览这个文件并整理它,以特定的方式合并重复项。

但是,我不确定这样做的最佳做法是什么。我想过使用布隆过滤器,但布隆过滤器不会让我知道副本是什么的副本所以我不能完全合并。有什么我可以阅读/了解此类最佳实践的内容吗?有哪些行业标准?所有这些都需要在 python 中完成。

标签: pythonjsondata-structures

解决方案


您可以通过哈希值将记录划分为适合内存的较小集合,删除每个集合中的重复项,然后将它们重新组合回一个文件。


推荐阅读