首页 > 解决方案 > 测试重复的 CSV 文件?

问题描述

我有一个应用程序,我将在其中处理大量以 CSV 文件形式进入我们系统的数据。理想情况下,我希望通过识别和丢弃已提交的 CSV 文件来强化系统以防止数据重复。一般来说,我可以依靠文件名相对唯一,但情况可能并非总是如此。

是否有一种很好的技术来运行哈希或为 CSV 文件创建可用于重复数据删除的签名?

我想在一天结束的时候,我总是可以逐字节地与我们已经处理过的其他字节大小完全相同的文件进行比较。;)

最终我的应用程序将使用 Javascript,但在我看来,这确实是一个与语言无关的问题。

标签: csvparsingduplicates

解决方案


推荐阅读