首页 > 解决方案 > 如何在 Spark(使用 Scala)中用逗号替换空格?

问题描述

我有一个这样的日志文件。我想在 Scala 中创建一个 DataFrame。

2015-05-13T23:39:43.945958Z my-loadbalancer 192.168.131.39:2817 10.0.0.1:80 0.000086 0.001048 0.001337 200 200 0 57 "GET https://www.example.com:443/ HTTP/1.1" "curl/7.38.0" DHE-RSA-AES128-SHA TLSv1.2

我想用逗号替换所有空格,以便我可以使用 spark.sql 但我无法这样做。

这是我尝试过的一切:

  1. 尝试先将其作为文本文件导入,看看是否有 replaceAll 方法。
  2. 尝试在空间的基础上进行拆分。

有什么建议么。我浏览了文档,没有提到 Pandas 中的替换功能。

标签: scalaapache-sparkapache-spark-sqldatabricks

解决方案


您可以简单地告诉 spark 您的分隔符是这样的空格:

val df = spark.read.option("delimiter", " ").csv("path/to/file")

推荐阅读