sql - 尝试使用 pyspark SQL 上下文连接两个文件时出现 RuntimeException
问题描述
你能帮我理解为什么我在尝试使用 pyspark SQL 上下文连接这两个文件时得到一个 RuntimeException 吗?我通过注释掉其中一行然后运行代码尝试了下面的两种 SQL 查询方法,但错误不断出现。
非常感谢
这是我的代码:
#input data
vin = sqlContext.read.format('com.databricks.spark.csv').options(header='true',
inferschema='true').load("hdfs://andromeda.eecs.qmul.ac.uk/data/bitcoin/vin.csv")
vout = sqlContext.read.format('com.databricks.spark.csv').options(header='true',
inferschema='true').load("hdfs://andromeda.eecs.qmul.ac.uk/data/bitcoin/vout.csv")
#filter
voutf = vout.filter(vout['pubkey']== "{?1HB5XMLmzFVj8ALj6mfBsbifRoD4miY36v}")
#use spark sql to join
vin.createOrReplaceTempView("vinsql")
voutf.createOrReplaceTempView("voutsql")
#method1
join1 = sqlContext.sql("select * from vinsql i, voutsql o where i.txid == o.pubkey")
#method2
join1 = sqlContext.sql("SELECT vinsql.*, voutsql.* FROM vinsql JOIN voutsql ON vinsql.txid =
voutsql.pubkey")
这是错误消息:
pyspark.sql.utils.AnalysisException: u'org.apache.hadoop.hive.ql.metadata.HiveException:
java.lang.RuntimeException: Unable to instantiate
org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient;'
解决方案
推荐阅读
- java - 尝试打开 GUI 时出现 org.bukkit.command.CommandException
- c# - 按多列分组为对象和相关列表
- amazon-web-services - 如何从 AWS CLI 创建 Amplify React 应用程序
- python - 我的方块怎么不动?我向箭头键发送垃圾邮件,但代码没有给出错误,只是没有按照预期的方式工作
- javascript - 按日期排序,每 24 小时有限制条目
- sql - 在oracle sql的计算列中将十进制值转换为非十进制
- autodesk-forge - 如何获取超过 100 个存储桶对象?如何列出所有存储桶对象?
- linux - Linux 快照应用程序
- python - 如何更正我的代码,该代码将充当 python 中的排序函数模拟
- django - 覆盖 Django (DRF) 序列化程序对象 GET