首页 > 解决方案 > 使用 spark scala 读取每一行的第二个单词

问题描述

我想阅读/打印每一行的第二个单词。

输入->>人们并不像他们看起来、
走路或说话时那么漂亮。
他们只有在爱的时候才会美丽,
在分享的时候在乎。

输出->> 他们是他们

标签: scalaapache-spark

解决方案


请检查:

    val myDF=spark.read.text("<path>")
    import org.apache.spark.sql._
    import org.apache.spark.sql.types._
    val rdd=myDF.rdd.map(_.mkString("")).map(f=> Row(f.split(" ")(1)))
    val schema:StructType  = (new StructType).add("values",StringType )
    val result=spark.createDataFrame(rdd, schema)
    result.show()

推荐阅读