cloud - 我需要在 OCI 中使用 Pyspark 连接到对象存储是否有任何可以参考的直接连接器或示例示例

问题描述

我想在 Jupyter notebook 的帮助下使用 Pyspark 访问我的对象存储中的数据。

到目前为止，我想出的任何文件都是两步方法 1. HDFS 连接到对象存储 https://docs.cloud.oracle.com/iaas/Content/API/SDKDocs/hdfsconnector.htm

2.HDFS 连接到 Spark 并提交我的 Spark 作业 https://docs.cloud.oracle.com/iaas/Content/API/SDKDocs/hdfsconnectorspark.htm

我没有找到直接连接到对象存储访问的任何文档或备用 SDK 运行我的 spark 作业

标签： cloudoracle-cloud-infrastructure

你是在运行独立的 Spark，还是有一个支持 HDFS 的 Hadoop 集群？

对于 Hadoop，如果您使用的是 Apache Hadoop，则可以利用 OCI HDFS 连接器。
对于 Hadoop ISV（Cloudera、Hortonworks、MapR），您将需要利用S3 兼容性 API。OCI HDFS 连接器还不是 Hadoop 的原生连接器（但已提交给上游 Apache）。它在这些 ISV 的单线程模式下工作，但不是并行化的。单线程性能不是最佳的，因为对对象存储的访问具有每个线程的上限。

对于独立 Spark，请参阅使用S3 compat的此文档。

cloud - 我需要在 OCI 中使用 Pyspark 连接到对象存储是否有任何可以参考的直接连接器或示例示例

问题描述

解决方案

推荐阅读