jdbc - 使用 simba JDBC 从 pyspark 连接到 BigQuery
问题描述
更新问题 6/21
关于 Simba 的背景:Simba Google BigQuery JDBC 连接器以名为 SimbaBigQueryJDBC42-[Version].zip 的 ZIP 归档文件的形式提供,其中 [Version] 是连接器的版本号。存档包含支持存档名称中指示的 JDBC API 版本的连接器,以及发行说明和第三方许可信息。
我正在尝试使用 simba jdbc 从 pyspark (docker) 连接到 BigQuery,但没有成功。我在这里查看了很多帖子,但找不到线索
我刚刚在 spark docker image 中从 VC 提交的代码
import pyspark
from pyspark import SparkConf
from pyspark.sql import SQLContext, SparkSession
import os
from glob import glob
my_jar = glob('/root/Downloads/BigQuery/simba_jdbc_1.2.4.1007/*.jar')
my_jar_str = ','.join(my_jar)
print(my_jar_str)
sc_conf = SparkConf()
sc_conf.setAppName("testApp")
sc_conf.setMaster('local[*]')
sc_conf.set("spark.jars", my_jar_str)
sc = pyspark.SparkContext(conf=sc_conf)
spark = SparkSession \
.builder \
.master('local') \
.appName('spark-read-from-bigquery') \
.config("spark.executor.extraClassPath",my_jar_str) \
.config("spark.driver.extraClassPath",my_jar_str) \
.config("spark.jars", my_jar_str)\
.getOrCreate()
myJDBC = '''
jdbc:bigquery://https://www.googleapis.com/bigquery/v2:443;OAuthType={OAuthType};ProjectId={ProjectId};OAuthServiceAcctEmail={OAuthServiceAcctEmail};OAuthPvtKeyPath={OAuthPvtKeyPath};
'''.format(OAuthType=0,
ProjectId='ProjectId',
OAuthServiceAcctEmail="etl@dProjectId.iam.gserviceaccount.com",
OAuthPvtKeyPath="/workspaces/code/secrets/etl.json")
pgDF = spark.read \
.format("jdbc") \
.option("url", myJDBC) \
.option("driver", "com.simba.googlebigquery.jdbc42.Driver") \
.option("dbtable", my_query) \
.load()
我收到错误:
File "/opt/spark/python/lib/py4j-0.10.7-src.zip/py4j/protocol.py", line 328, in get_return_value
py4j.protocol.Py4JJavaError: An error occurred while calling o79.load.
: java.lang.NullPointerException
at org.apache.spark.sql.execution.datasources.jdbc.JDBCRDD$.resolveTable(JDBCRDD.scala:71)
at org.apache.spark.sql.execution.datasources.jdbc.JDBCRelation$.getSchema(JDBCRelation.scala:210)
at org.apache.spark.sql.execution.datasources.jdbc.JdbcRelationProvider.createRelation(JdbcRelationProvider.scala:35)
at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:318)
at org.apache.spark.sql.DataFrameReader.loadV1Source(DataFrameReader.scala:223)
at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:211)
是缺少罐子还是逻辑错误?请任何线索表示赞赏
解决方案
对于任何可能有相同想法的人。我刚刚发现 SIMBA 不支持 spark,而是我必须按照https://github.com/GoogleCloudDataproc/spark-bigquery-connector中的步骤操作。
我不使用 Dataproc 而是使用独立 spark 的未解决问题(截至 6 月 23 日),因此我需要弄清楚如何收集一致的支持 jar
推荐阅读
- node.js - 订阅不适用于 Apollo Server Express
- django - 我正在尝试使用 gcs 谷歌云存储在 heroku 上部署我的 django 应用程序
- python - 如何使用 matplotlib 反转函数的轴
- javascript - bot 的用户名未定义
- python - RDFLIB Python 是否支持 Geosparql 查询?
- javascript - 在不使用 JSON.stringify 的情况下将数组转换为有效的 JSON 字符串?
- php - 如何从不同的表中获取相关的记录项
- arrays - 从数组中获取某些元素
- c# - 尝试使用 selectedChanged 在 C# 的 WPF 中的文本框中显示组合框元素
- google-apps-script - 通过脚本打印到谷歌电子表格聊天/记录所有用户可见的值