aws-glue - AWS Glue 自定义分类器
问题描述
我已经定义/设置了一个爬虫来读取和编目 S3 存储桶中的 avro 文件。但是爬虫/分类器无法读取字段的“doc”属性,因此它在目录中创建了一个包含字段名称和相应数据类型但没有 doc 字段值的模式。我正在探索创建自定义分类器的选项,该分类器将读取和填充字段的 doc 属性及其名称和类型。我浏览了 AWS 官方文档,但没有找到任何有关如何操作的信息/示例。谢谢。
解决方案
您好,您可能想在这里查看:https ://docs.aws.amazon.com/glue/latest/dg/add-classifier.html
您可以提供自定义分类器来对 AWS Glue 中的数据进行分类。您可以使用 grok 模式、XML 标记、JavaScript 对象表示法 (JSON) 或逗号分隔值 (CSV) 创建自定义分类器。AWS Glue 爬网程序调用自定义分类器。如果分类器识别出数据,则将数据的分类和模式返回给爬虫。如果您的数据与任何内置分类器都不匹配,或者您想要自定义爬网程序创建的表,您可能需要定义自定义分类器。
推荐阅读
- go - Go 程序在运行几个小时甚至几天后进入部分死锁。wait_chain 中的线程和不断增加的内存量
- python - 在 discord.py 中,如何将多个单词设置为一个参数,但仍需要用户输入一个参数?
- java - 如何使用 Docker 运行 java swing 应用程序,因为 docker run 命令引发无头异常
- laravel - 如何在laravel中的sortBy之后添加偏移量
- mysql - MySQL选择忽略LIMIT的结果总和
- javascript - 我的 forEach 语句重复的次数超出了应有的次数
- python - 如何优化 Shapely 和 Sklearn 代码?
- python - Python 二进制递归搜索 5.2.6 Binary.py
- node.js - 在不上传的情况下触发 S3 对象
- javascript - 为循环划定界限时出现问题。欧拉问题 5