apache-spark - Rdd 到数据框 - 我在数据框表中使用“”获取输出,例如“2012-10-10”,但我需要的输出没有“”,例如 2012-10-10
问题描述
我的输入文件包含以下输入
"date","time","size","r_version","r_arch","r_os"
"2012-10-01","00:30:13",35165,"2.15.1","i686","linux-gnu"
"2012-10-01","00:30:15",212967,"2.15.1","i686","linux-gnu"
"2012-10-01","02:30:16",167199,"2.15.1","x86_64","linux-gnu"
我现在的输出就像
我需要的输出是
我试过下面的代码
conf=SparkConf().setMaster("local").setAppName("logfile")
sc=SparkContext(conf = conf)
spark=SparkSession.builder.appName("yuva").getOrCreate()
lines=sc.textFile("file:///SaprkCourse/filelog.txt")
lines=Seq("file:///SaprkCourse/filelog.txt").t
header = lines.first()
lines = lines.filter(lambda row : row != header)
values=lines.map(lambda x: x.split(","))
df=values.toDF(header.split(","))
df.show()
解决方案
您可以在创建数据框时使用以下选项
option("quote", "\"")
希望这可以帮助
推荐阅读
- sql-server - 具有列 idEntity 的表查询失败
- c++ - 使用 Q_PROPERTY 通过 QWebChanel 传递自定义对象
- selenium - 如何进行注册表单验证?
- android - 了解在 Android 文档中添加的 API 级别
- django - 当我签出 Git 分支时,Django 如何继续使用正确的文件?
- reactjs - 错误:无法缩小 popper.js
- sql - 将逗号分隔的列数据拆分为多列(可变大小)
- movesense - 在继续之前等待服务启动
- python - aiohttp.errors.ClientRequestError:无法写入请求正文
- azure - 在 Azure 门户中禁用触发的 WebJob