python - 使用 aws 胶水创建存在于 aws s3 中的 .dat.gz 文件的 spark 数据框
问题描述
我编写了一个 pyspark 代码,它在 aws 胶水中运行并试图读取一个 dat.gz 文件。数据框已成功创建,但Trim(BOTH FROM)
已添加到列名中。下面是我的代码片段。
df = spark.read.format("csv").option("header", 'false').option("delimiter", '|').load("s3://xxxxxx/xxxx/xxxxx/xxx/xxxxxxxxxx.dat.gz")
输出
+----------------------+------------------------+-------------------------+-------------------------+--------------------------+----------------------+----------------------------+----------------------------+----------------------------------+--------------------------------+--------------------------+---------------------------+-----------------------+-----------------------+--------------------------+-------------------------+---------------------------+------------------------+-------------------------+-----------------------+-----------------------+--------------------------+---------------------------+
|Trim(BOTH FROM EFF_DT)|Trim(BOTH FROM SITE_NUM)|Trim(BOTH FROM ARTCL_NUM)|Trim(BOTH FROM SL_UOM_CD)|Trim(BOTH FROM COND_TY_CD)|Trim(BOTH FROM EXP_DT)|Trim(BOTH FROM COND_REC_NUM)|Trim(BOTH FROM MAIN_SCAN_CD)|Trim(BOTH FROM PRC_COND_PRRTY_NUM)|Trim(BOTH FROM PRC_COND_WIN_IND)|Trim(BOTH FROM PRC_RSN_CD)|Trim(BOTH FROM PRC_METH_CD)|Trim(BOTH FROM PRC_AMT)|Trim(BOTH FROM PRC_QTY)|Trim(BOTH FROM UT_PRC_AMT)|Trim(BOTH FROM PROMO_NUM)|Trim(BOTH FROM BNS_BUY_NUM)|Trim(BOTH FROM CURRN_CD)|Trim(BOTH FROM BBY_TY_CD)|Trim(BOTH FROM BBY_AMT)|Trim(BOTH FROM BBY_PCT)|Trim(BOTH FROM BBY_LEV_CD)|Trim(BOTH FROM BBY_PRC_QTY)|
+----------------------+------------------------+-------------------------+-------------------------+--------------------------+----------------------+----------------------------+----------------------------+----------------------------------+--------------------------------+--------------------------+---------------------------+-----------------------+-----------------------+--------------------------+-------------------------+---------------------------+------------------------+--
但是在读取任何其他文件时,我得到了正确的输出。谁可以帮我这个事?这不是文件问题,因为我在本地机器上尝试了相同的代码并且运行良好。
解决方案
推荐阅读
- python - 取消设置 PATH 变量,并使用 shebang 执行 python 程序
- angular-material - 如何使用 Mat Table 按空格分隔的多个关键字进行搜索
- javascript - 访问内部对象并形成 Jsx
- r - 如何插入和填充火花数据框
- jenkins - 获取最近使用的 Jenkins slave 列表
- python - 在冒泡排序中计算气泡,如何在更短的时间内得到这个计数
- docker - HA 代理后面的 Nexus3 docker 注册表
- firebase - 带有颤振的 QnA 应用程序:添加评论流
- php - PHP 引用的参数未在数组中修改
- java - 通过 maven 导入 iText DITO SDK