首页 > 解决方案 > 在 pyspark 中使用自定义火花变压器

问题描述

如何在 pyspark 管道中使用用 scala 编写的自定义转换器。

class UpperTransformer(override val uid: String)
    extends UnaryTransformer[String, String, UpperTransformer] {

  def this() = this(Identifiable.randomUID("upper"))

  override protected def validateInputType(inputType: DataType): Unit = {
    require(inputType == StringType)
  }

  protected def createTransformFunc: String => String = {
    _.toUpperCase
  }

  protected def outputDataType: DataType = StringType
}

在 pyspark 管道中使用这个转换器。

标签: scalaapache-sparkpysparkapache-spark-mllibmleap

解决方案


推荐阅读