首页 > 解决方案 > 使用 Spark Scala 导入数据

问题描述

我有一个大型数据集,我想将其导入数据块以使用 scala 进行一些分析。数据集可在此链接中找到:https ://drive.google.com/open?id=1g4YYALk3nArN8bX2uFS70IpbdSf_Efqj

我想导入这个数据集,文档 ID 在第一列,其他测试数据在另一列。

但是当我使用以下代码导入数据时,它看起来像这样

val df = spark.read.text("FileStore/tables/plot_summaries.txt")

df.select("value").show()

在此处输入图像描述

任何人都可以帮助我以正确的方式导入它吗?任何帮助将不胜感激。谢谢

标签: scalaapache-sparkdatabricks

解决方案


这将解决您的问题。

spark.read.option("sep", "\t").text("FileStore/tables/plot_summaries.txt")

推荐阅读