scala - 如何在 Spark(使用 Scala)中用逗号替换空格?
问题描述
我有一个这样的日志文件。我想在 Scala 中创建一个 DataFrame。
2015-05-13T23:39:43.945958Z my-loadbalancer 192.168.131.39:2817 10.0.0.1:80 0.000086 0.001048 0.001337 200 200 0 57 "GET https://www.example.com:443/ HTTP/1.1" "curl/7.38.0" DHE-RSA-AES128-SHA TLSv1.2
我想用逗号替换所有空格,以便我可以使用 spark.sql 但我无法这样做。
这是我尝试过的一切:
- 尝试先将其作为文本文件导入,看看是否有 replaceAll 方法。
- 尝试在空间的基础上进行拆分。
有什么建议么。我浏览了文档,没有提到 Pandas 中的替换功能。
解决方案
您可以简单地告诉 spark 您的分隔符是这样的空格:
val df = spark.read.option("delimiter", " ").csv("path/to/file")
推荐阅读
- node.js - 将数组值附加到 csv
- windows - 获取域控制器中成员服务器中本地帐户的登录失败事件
- python - Fill pandas row based on iterator matching value in another table
- android - 如何更改android底部导航中特定项目的背景颜色?
- awk - AWK complains about number of fields when extracting variables
- java - How to use a custom functional interface with a method taking 2 arguments in an ArrayList?
- php - 单击时如何删除按钮/单击php中的按钮替换时间
- python - 为什么标准化后输出图像是黑色的?
- ruby-on-rails - ActiveStorage "id delegated to attachment, but attachment is nil"
- java - Getting Stringset from sharedpreferences from an other activity