首页 > 解决方案 > pyspark 中的 Java

问题描述

我是 pyspark 的新手。现在我在连接到 postgresql 时遇到问题。这是我的代码

import os
import sys
import findspark
from pyspark.sql import SQLContext
from pyspark import SparkContext
from pyspark.sql.functions import upper
from pyspark.sql import SparkSession

spark_path = r"D:\Programs\Anaconda\envs\longnv\Lib\site-packages\pyspark" # spark installed folder
os.environ['SPARK_HOME'] = spark_path
findspark.init()

spark = SparkSession.builder.config("spark.jars", "D:/Programs/postgresql-42.2.23.jar").getOrCreate()

结果不是我预期的:

Java gateway process exited before sending its port number

我试过只使用spark = SparkSession.builder.getOrCreate(),我没有看到错误。我什至可以创建一些 df 并使用该会话测试一些功能。但是当我在其中添加罐子时,代码就不起作用了。

标签: pythonjdbcpyspark

解决方案


推荐阅读