python - 当您需要存储重复项时,有哪些可行的策略来检测大型 json 文件中的重复项?
问题描述
我有一组非常大的数据存储在 json 中,太大而无法加载到内存中。json 字段包含有关用户的数据和一些元数据 - 但是,肯定有一些重复。我想浏览这个文件并整理它,以特定的方式合并重复项。
但是,我不确定这样做的最佳做法是什么。我想过使用布隆过滤器,但布隆过滤器不会让我知道副本是什么的副本,所以我不能完全合并。有什么我可以阅读/了解此类最佳实践的内容吗?有哪些行业标准?所有这些都需要在 python 中完成。
解决方案
您可以通过哈希值将记录划分为适合内存的较小集合,删除每个集合中的重复项,然后将它们重新组合回一个文件。
推荐阅读
- javascript - Rails、Webpacker 和 Turbolinks - Javascript 在离开页面或完全重新加载之前不会加载
- r - 如何从 R 中的 GGPLOT 打印低于某个 X 值的值?
- haskell - Haskell 数据类型的非均匀分布
- excel - Excel VBA ElseIf 循环
- c - 使用制表符拆分字符串,但缺少一些信息
- visual-studio - Visual Studio 2019 中 Visual Basic 的菜单栏问题
- python - 在列表中查找第一个元素和索引匹配条件
- python - OpenGL GL_POLYGON 仅在顺时针绘制时有效?
- java - JAVA 的 VS 代码设置,不断为 Java 苦苦挣扎:gettingStarted
- angular - 容器大小更改时打开图层地图重新加载