csv - 测试重复的 CSV 文件?
问题描述
我有一个应用程序,我将在其中处理大量以 CSV 文件形式进入我们系统的数据。理想情况下,我希望通过识别和丢弃已提交的 CSV 文件来强化系统以防止数据重复。一般来说,我可以依靠文件名相对唯一,但情况可能并非总是如此。
是否有一种很好的技术来运行哈希或为 CSV 文件创建可用于重复数据删除的签名?
我想在一天结束的时候,我总是可以逐字节地与我们已经处理过的其他字节大小完全相同的文件进行比较。;)
最终我的应用程序将使用 Javascript,但在我看来,这确实是一个与语言无关的问题。
解决方案
推荐阅读
- graphql - HotChocolate(GraphQL)模式优先处理复杂类型
- python - 如何安排每天在 Azure ML SDK 中运行的实验
- php - 如何在 Laravel 中处理用户喜欢另一个用户逻辑?
- jquery - 在 wordpress 开发中使用 jQuery 还可以吗?
- javascript - 为什么我按下按钮时页面会刷新?
- spring - 在配置服务器中解密 git 密码不起作用
- java - 从另一个 JSON 数组中的 JSON 数组中检索多个 JSON 对象?
- csv - bigquery加载一个csv(,字段分隔)文件,在引号之间有数据,并在数据之间得到一列作为逗号
- jquery - ng-click 后未显示 ng-repeat 数据的弹出框
- kubernetes - 如何使 kubernetes cronjob 从文件夹中识别 ssh 密钥