scala - 使用 Spark Scala 导入数据
问题描述
我有一个大型数据集,我想将其导入数据块以使用 scala 进行一些分析。数据集可在此链接中找到:https ://drive.google.com/open?id=1g4YYALk3nArN8bX2uFS70IpbdSf_Efqj
我想导入这个数据集,文档 ID 在第一列,其他测试数据在另一列。
但是当我使用以下代码导入数据时,它看起来像这样
val df = spark.read.text("FileStore/tables/plot_summaries.txt")
df.select("value").show()
任何人都可以帮助我以正确的方式导入它吗?任何帮助将不胜感激。谢谢
解决方案
这将解决您的问题。
spark.read.option("sep", "\t").text("FileStore/tables/plot_summaries.txt")
推荐阅读
- mysql - mysql多多关系?
- javascript - 用于时间序列的 JavaScript 可视化库,提供聚合功能
- python - Python While true, Try/Except, 返回值
- python - 一个以相同顺序返回字母列表的函数,除了任何元音显示为 * 和任何 l 显示为 %
- stripe-payments - 需要有关条带集成的建议
- mqtt - 将 mqtt 与 apache nifi 集成
- php - 如何计算从数据库中检索到的逗号分隔值
- javascript - 如何比较 2 个特定于序列匹配的数组值
- reactjs - react-router-native 不起作用
- closedxml - 我们可以克隆 XLWorkbook 对象吗(使用 ClosedXml)