首页 > 解决方案 > 如何将 csv 文件加载到 SparkSession 中

问题描述

我正在从一些在线资源中学习 PySpark。我四处搜索,发现如何使用以下代码将 csv 文件读入 Spark DataFrame

import pandas as pd
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
spark_df = spark.read.csv('my_file.csv', header=True)
pandas_df = spark_df.toPandas()

然而,在我正在学习的在线网站上,它以某种方式将 csv 文件加载到 SparkSession 中,而没有告诉观众如何去做。也就是说,当我输入(在在线网站的浏览器上)

print(spark.catalog.listTables())

以下输出返回。

[Table(name='my_file', database=None, description=None, tableType='TEMPORARY', isTemporary=True)]

当我尝试按上述方式打印目录时,我得到了一个空列表。

无论如何如何将 csv 文件放入 SparkSession 中?我曾为此尝试 google,但我发现的大部分内容是如何将 csv 加载到 Spark DataFrame 中,就像我上面展示的那样。

非常感谢。

标签: pandaspyspark

解决方案


from pyspark.sql import SparkSession

spark = SparkSession.builder.appName(#type the app name).getOrCreate()
df = spark.read.csv('invoice.csv',inferSchema=True,header=True)

推荐阅读