apache-spark - 如何在 pyspark 中读取 .hql 文件(运行 hive 查询)
问题描述
我有包含大量查询的 .hql 文件。它在蜂巢中运行缓慢。我想使用 pyspark/sparksql 读取和运行 .hql 文件。
我试过count = sqlContext.sql(open("file.hql").read()).count()
但给出以下错误:
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/data/CDH-5.7.1-1.cdh5.7.1/lib/spark/python/pyspark/sql/context.py", line 580, in sql
return DataFrame(self._ssql_ctx.sql(sqlQuery), self)
File "/data/CDH-5.7.1-1.cdh5.7.1/lib/spark/python/lib/py4j-0.9-src.zip/py4j/java_gateway.py", line 813, in __call__
File "/data/CDH-5.7.1-1.cdh5.7.1/lib/spark/python/pyspark/sql/utils.py", line 51, in deco
raise AnalysisException(s.split(': ', 1)[1], stackTrace)
pyspark.sql.utils.AnalysisException: u"missing EOF at ';' near 'db'; line 1 pos 36"
解决方案
推荐阅读
- python - ModuleNotFoundError:没有名为“couchbase.cluster”的模块;'couchbase' 不是一个包
- c++ - 我正在尝试从源代码为 conda 安装 cudf,我无法使用 cmake 安装它
- java - Springboot [2.1.6.RELEASE] - 禁用自动更正输入日期
- python - 自定义模型方法上的 Django order_by
- python - 我正在尝试在熊猫的数据框中切片一列
- c# - 程序集加载问题(“无法加载类型”)
- mysql - AWS RDS 对远程请求的响应时间很长
- javascript - ESLint 可以帮助你防止 Unhandled-Promise-Rejections 吗?
- python - macOS 终端不在正确的目录中创建文件
- java - Netty 4.1.51.Final 出现 Http File Upload 的 bug