apache-spark - 将 Azure 数据块连接到 Cosmos DB Mongo API 时出错
问题描述
我已经在 databricks 中安装了 Spark mongodb 连接器,并尝试执行如下示例代码:
from pyspark.sql import SparkSession
my_spark = SparkSession \
.builder \
.appName("myApp") \
.getOrCreate()
df = my_spark.read.format("com.mongodb.spark.sql.DefaultSource") \
.option("uri", CONNECTION_STRING) \
.load()
其中 CONNECTION_STRING 采用以下格式:
mongodb://USERNAME:PASSWORD@testgp.documents.azure.com:10255/DATABASE_NAME.COLLECTION_NAME?ssl=true&replicaSet=globaldb
但面临以下错误:
org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 3.0 failed 4 times, most recent failure: Lost task 0.3 in stage 3.0 (TID 15) (10.25.238.198 executor 0): java.io.InvalidClassException: com.mongodb.spark.rdd.partitioner.MongoPartition; local class incompatible: stream classdesc serialVersionUID = -2855217470084313385, local class serialVersionUID = -3413909316915051241
有没有人遇到过这个错误和可能的解决方案?
解决方案
推荐阅读
- java - Microsoft Edge 的“无效参数:'handle' 必须是字符串”错误以及如何添加“w3c:false”功能?
- python - 如何使用 Python 中的 Open Street Map 获取附近的道路信息?
- java - 使用eclipse和MySql hibernate在java中自动生成带有卷边距离的序列键
- javascript - 根据其他数组过滤数组
- swiftui - 在 SwiftUI 中向左而不是向右导航?
- firebase - 使用flutter firebase的应用程序内部通知
- javascript - 当我使用 Observables 时 Angular ViewChild 不工作
- repository - 干净架构层方法中的网络请求轮询逻辑布局
- python - 在 Pandas 中,如何测试一个值是否存在于给定唯一 ID 的两个数据框中?
- python - 奇怪的 gzip - 几乎提取,但不完全正确