cloud - 我需要在 OCI 中使用 Pyspark 连接到对象存储是否有任何可以参考的直接连接器或示例示例
问题描述
我想在 Jupyter notebook 的帮助下使用 Pyspark 访问我的对象存储中的数据。
到目前为止,我想出的任何文件都是两步方法 1. HDFS 连接到对象存储 https://docs.cloud.oracle.com/iaas/Content/API/SDKDocs/hdfsconnector.htm
2.HDFS 连接到 Spark 并提交我的 Spark 作业 https://docs.cloud.oracle.com/iaas/Content/API/SDKDocs/hdfsconnectorspark.htm
我没有找到直接连接到对象存储访问的任何文档或备用 SDK 运行我的 spark 作业
解决方案
你是在运行独立的 Spark,还是有一个支持 HDFS 的 Hadoop 集群?
对于 Hadoop,如果您使用的是 Apache Hadoop,则可以利用 OCI HDFS 连接器。
对于 Hadoop ISV(Cloudera、Hortonworks、MapR),您将需要利用S3 兼容性 API。OCI HDFS 连接器还不是 Hadoop 的原生连接器(但已提交给上游 Apache)。它在这些 ISV 的单线程模式下工作,但不是并行化的。单线程性能不是最佳的,因为对对象存储的访问具有每个线程的上限。
对于独立 Spark,请参阅使用S3 compat的此文档。
推荐阅读
- angular - 为什么我的 Angular KeyValueDiffer 以前的值为 null?
- c# - Visual Studio:使用命名空间添加新类和自动创建文件夹(并将其放在那里)的快捷方式/方法?
- azure - 如何使用 Powershell 将所有机密从一个 Azure Keyvault 复制到另一个
- android - 类型不匹配:推断类型是 BluetoothDevice?但蓝牙设备是预期的
- android - 添加 exoplayer 2.9.6 errtransformClassesWithDexForDebug 后 Androd gradle 错误
- heroku - 更新 heroku 管道环境变量
- python - 为什么我的数据不会在 qt4 中使用 python 绘制到 Canvas 上?我附上了代码
- javascript - 为什么有时异步代码中的错误会导致 node.js 服务器崩溃
- node.js - 如何在nodejs中修复“错误:找不到模块...”
- azure-databricks - Databricks 和 Azure 文件