首页 > 解决方案 > 我需要在 OCI 中使用 Pyspark 连接到对象存储是否有任何可以参考的直接连接器或示例示例

问题描述

我想在 Jupyter notebook 的帮助下使用 Pyspark 访问我的对象存储中的数据。

到目前为止,我想出的任何文件都是两步方法 1. HDFS 连接到对象存储 https://docs.cloud.oracle.com/iaas/Content/API/SDKDocs/hdfsconnector.htm

2.HDFS 连接到 Spark 并提交我的 Spark 作业 https://docs.cloud.oracle.com/iaas/Content/API/SDKDocs/hdfsconnectorspark.htm

我没有找到直接连接到对象存储访问的任何文档或备用 SDK 运行我的 spark 作业

标签: cloudoracle-cloud-infrastructure

解决方案


你是在运行独立的 Spark,还是有一个支持 HDFS 的 Hadoop 集群?

对于 Hadoop,如果您使用的是 Apache Hadoop,则可以利用 OCI HDFS 连接器。
对于 Hadoop ISV(Cloudera、Hortonworks、MapR),您将需要利用S3 兼容性 API。OCI HDFS 连接器还不是 Hadoop 的原生连接器(但已提交给上游 Apache)。它在这些 ISV 的单线程模式下工作,但不是并行化的。单线程性能不是最佳的,因为对对象存储的访问具有每个线程的上限。

对于独立 Spark,请参阅使用S3 compat的此文档。


推荐阅读