pandas - 如何将 csv 文件加载到 SparkSession 中
问题描述
我正在从一些在线资源中学习 PySpark。我四处搜索,发现如何使用以下代码将 csv 文件读入 Spark DataFrame
import pandas as pd
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
spark_df = spark.read.csv('my_file.csv', header=True)
pandas_df = spark_df.toPandas()
然而,在我正在学习的在线网站上,它以某种方式将 csv 文件加载到 SparkSession 中,而没有告诉观众如何去做。也就是说,当我输入(在在线网站的浏览器上)
print(spark.catalog.listTables())
以下输出返回。
[Table(name='my_file', database=None, description=None, tableType='TEMPORARY', isTemporary=True)]
当我尝试按上述方式打印目录时,我得到了一个空列表。
无论如何如何将 csv 文件放入 SparkSession 中?我曾为此尝试 google,但我发现的大部分内容是如何将 csv 加载到 Spark DataFrame 中,就像我上面展示的那样。
非常感谢。
解决方案
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName(#type the app name).getOrCreate()
df = spark.read.csv('invoice.csv',inferSchema=True,header=True)
推荐阅读
- ios - WKWebView 不显示当前版本的网页
- django - django 模板“分组”标签不给我分组记录,因为我不想
- javascript - 无法通过函数更改变量
- django - Postgres 服务器不支持 SSL,但需要 SSL - CircleCI
- vue.js - Vue3 - 使用 beforeRouteEnter 防止闪烁的内容
- javascript - React 上下文 API 和路由器
- javascript - 如何在两个不同的相同网页上显示选定的选项?
- asp.net-mvc - 当用户没有权限时如何重定向到特殊页面?
- firebase - Cloud Functions 的 Firebase 模拟器未更新代码
- bash - 如何使用 bash 从文本文件创建词汇表?