csv - Spark在字符串中使用逗号读取csv
问题描述
536381,22411,JUMBO SHOPPER VINTAGE RED PAISLEY,10,12/1/2010 9:41,1.95,15311,United Kingdom
"536381,82567,""AIRLINE LOUNGE,METAL SIGN"",2,12/1/2010 9:41,2.1,15311,United Kingdom"
536381,21672,白点红色陶瓷抽屉旋钮,6,12/1/2010 9:41,1.25,15311,United Kingdom
这些行是 csv 文件中的行示例。我正在尝试在 Databricks 中阅读它,使用:
df = spark.read.csv ('file.csv', sep=',', inferSchema = 'true', quote = '"')
但是,由于字符串中的逗号,中间的行和其他类似的行没有进入正确的列。我该如何解决?
解决方案
将报价设置为:
'""'
df = spark.read.csv('file.csv', sep=',', inferSchema = 'true', quote = '""')
看起来您的数据有双引号 - 所以当它被读取时,它会将双引号视为字符串的开头和结尾。
编辑:我还假设问题出在这部分:
""AIRLINE LOUNGE,METAL SIGN""
推荐阅读
- javascript - 在多个网站中使用 iframe 注入 cookie
- powershell - Powershell根据名称关闭多个窗口/结束进程
- regex - 如何使用 UltraEdit 中的正则表达式查找具有一位或多位数字的数字?
- c - 在我的代码中找不到分段错误
- sharepoint-online - 在不使用代码的情况下获取列中项目的最新值并将该值显示到其他列表中
- sql - Postgres - 删除重复记录
- r - 在 R 中解析 XML 文件
- python - 无法升级 pip,SSL 错误
- java - Java,Double 数据类型有问题,一直返回 1.00 而不是 1.8
- javascript - 使用 Google Apps 脚本验证电子邮件