aws-glue - AWS Glue Crawler 不附加数据
问题描述
我创建了使用分类器将 csv 文件导入数据表的 aws 爬虫。哪个工作正常。
问题:每次爬虫覆盖旧数据。我想保留以前的数据并附加 csv 文件的新内容。
即我已经上传了 250 条记录的 csv 文件。当我执行该爬虫时,它填充了 250 行的表。
现在,如果我用其他内容替换该 csv 文件,那么它将覆盖旧的 250 行并仅用最新数据填充表。
谁能帮助我如何保留旧记录并附加新数据。
谢谢,
解决方案
胶水爬虫不会用行/记录填充表。它只是定义有关您的数据的元信息,即推断表模式和这些文件在 S3(或其他资源)上的位置等。这意味着如果您想保留旧记录,则需要将这两个文件都保留在 S3 上。
请注意,如果您将新文件保存在 S3 上与旧文件相同的“文件夹”中,则无需重新运行爬虫,因为查询这些文件(例如使用 Athena)所需的信息已经定义。
推荐阅读
- python - 如何为现有用户分配 id/pk 编号?
- c# - DDD - 如何对跨聚合的集合强制执行不变量
- reactjs - 无法获得发布请求的 201 状态
- sqlite - 参数类型“int”不能分配给参数类型“Expression”
' - angular - 我如何在角度 9 中取消订阅构造函数中的函数
- python - 用joblib在列表中并行编写python
- javascript - React JS 路由器更改元素的道具
- plotly - Dash Plotly Dashboard 从下拉列表中选择文件并显示数据
- javascript - 使用 Axios Post 方法 React Js 上传 Csv 文件内容?
- kubernetes - 限制每个节点的 pod 数量