apache-spark - 在 pyspark 中读取 Excel (.xlsx) 文件
问题描述
我正在尝试从 PySpark 中的本地路径读取 .xlsx 文件。
我写了下面的代码:
from pyspark.shell import sqlContext
from pyspark.sql import SparkSession
spark = SparkSession.builder \
.master('local') \
.appName('Planning') \
.enableHiveSupport() \
.config('spark.executor.memory', '2g') \
.getOrCreate()
df = sqlContext.read("C:\P_DATA\tyco_93_A.xlsx").show()
错误:
TypeError:“DataFrameReader”对象不可调用
解决方案
您可以使用 pandas 读取 .xlsx 文件,然后将其转换为 spark 数据帧。
from pyspark.sql import SparkSession
import pandas
spark = SparkSession.builder.appName("Test").getOrCreate()
pdf = pandas.read_excel('excelfile.xlsx', sheet_name='sheetname', inferSchema='true')
df = spark.createDataFrame(pdf)
df.show()
推荐阅读
- xamarin - Xamarin 形成 UWP 自定义 TabbedView
- android - 微调器不显示任何文本
- oracle - CTE 的 Oracle 表函数
- sql - Teradata SQL 限制:达到限制时返回结果
- javascript - 事件委托或多个侦听器,用于功能彼此不同的元素
- postgresql - Jelastic 5.4 上的 PostgreSQL 9.6 中不提供区域设置
- angularjs - 如何在java中获取列表的大小?
- excel - IF 语句中出现明显的 Excel 计算错误
- spring - 向 mongo 聚合的结果添加新字段
- javascript - 未捕获的类型错误:无法在“节点”上执行“appendChild”:参数 1 不是“节点”类型。JAVASCRIPT