validation - 验证摄取数据的最佳方法
问题描述
我每天从各种外部来源(如 GA、scrapers、Google BQ 等)摄取数据。我将创建的 CSV 文件存储到 HDFS 中,从中创建阶段表,然后将其附加到 Hadoop 中的历史表中。您能否分享一些如何使用历史数据验证新数据的最佳实践?例如,将实际数据的行数与过去 10 天的平均值或类似的数据进行比较。火花或其他东西有什么准备好的解决方案吗?
感谢您的建议。
解决方案
推荐阅读
- magento - phpmyadmin 不允许我创建数据库
- java - 设置 CountDownTimer 以运行 onDestroy() 的正确方法是什么?
- mysql - MySQL 选择具有属性和属性值的产品 - 分组
- node.js - Stripe 订阅未更新数量
- angular - cdk virtual-scroll inside mat-select for mat-option
- android - React Native android release compilation AAPT2 error. PNG chunk is too large
- python-3.x - How to use non-top-level functions in parallelization?
- javascript - Font Awesome fa-circle-o-notch fa-spin not spin on safari
- bash - FreeBSD 上的 sed:“FreeBSD “替代命令中的错误标志:'}'””
- json - 具有一个属性或原始 Json 数据类型的 Json 对象?