首页 > 解决方案 > 为 Spark MLlib 管道设置自定义参数

问题描述

默认情况下,Spark MLlib 管道有一个参数:stages. Params 机制从 trait 引入到Pipeline类中Params(通过 abstract PipelineStage)。理论上,应该可以使用 设置其他参数Pipeline.set(String name, String value),但这仅适用于 Pipeline 对象已知的参数。否则,抛出异常,例如

pipeline.set("Hello", "World!")

你会得到

java.util.NoSuchElementException: Param Hello does not exist.

是否有另一种方法可以在 Spark 管道中设置自定义参数,这些参数在保存经过训练的管道时也会导出?我想用它来对训练有素的 ML 模型进行版本控制和存储其他元数据,最好不必围绕 Spark 管道对象创建额外的包装器。

标签: apache-sparkmetadatapipelineapache-spark-mllib

解决方案


推荐阅读