apache-spark - 如何将 Palantir Foundry 与 Amazon S3 或 HDFS 集成
问题描述
在 Palantir Foundry 平台内,我从事数据集成工作。我需要一些帮助,因为我是 Palantir 软件的新手。是否有关于该主题的任何文档、白皮书、链接或教程?
如何集成来自其他来源的数据,例如 Amazon S3 或 HDFS?
解决方案
要集成来自另一个平台的数据,您需要数据源和数据连接同步。您需要拥有平台权限才能创建这些,并非所有用户都可以,因为它可能涉及组织数据治理策略。
假设您没有具有 S3 有效配置的源。您需要创建一个。在数据连接上,单击“源”,然后单击“新源”。然后,您可以通过两种方式执行此操作:
- 使用预构建的 S3 源:单击
File System
新New Source
下拉菜单并按照向导步骤操作 - 使用自定义连接器,例如 magritte-rest:单击
Custom
同一下拉菜单。
对于马格利特休息:
- 根据您的偏好选择任一可用代理或云摄取
- 为其命名并将其保存到文件夹中。
- 添加配置,如:
type: magritte-rest
url: 'https://foobar.organization.s3.amazonaws.com'
现在要创建同步,请使用与此类似的配置:
type: rest-source-adapter
method: GET
path: the/path/in/s3/yourdata
outputFileType: csv
还支持其他输出文件类型(json
, zip
, ...)
推荐阅读
- laravel - 所有返回 404 的路由,除了 '/'
- c - POSIX 线程与并行性
- c# - 递归应用样式触发器
- excel - 使用宏组合多个 xml 文件时重复的列
- jquery - 如何确定 Select2 实例的当前状态是启用还是禁用?
- python - 建议关闭源代码我的 python 项目
- apache-kafka - Kafka 作为长时间运行任务的消息队列
- c# - 在服务器解析小数中给出错误的数字
- language-agnostic - “无符号整数”一词从何而来?
- firefox - 哪些浏览器版本与 GWT Developer Plugin 和 macOS 10.14.5 兼容?