首页 > 解决方案 > 将火花特征转换管道导出到文件

问题描述

PMML、Mleap、PFA 目前仅支持基于行的转换。它们都不支持基于框架的转换,例如聚合或 groupby 或 join。导出由这些操作组成的火花管道的推荐方法是什么。

标签: apache-sparkapache-spark-sqlpmmlmleap

解决方案


我看到 2 个选项 wrt Mleap:

1) 实现基于数据帧的转换器和SQLTransformer等效的 -Mleap。该解决方案在概念上似乎是最好的(因为您始终可以将此类转换封装在管道元素中),但也需要大量工作。见https://github.com/combust/mleap/issues/126

2) 扩展DefaultMleapFrame您想要执行的相应操作,然后将所需的操作实际应用于在修改的MleapServing子项目中传递给 restserver 的数据。

实际上,我选择了 2) 并添加了implode,explodejoin作为 的方法,DefaultMleapFrame并且还HashIndexedMleapFrame允许快速连接。我没有实现groupbyand agg,但在 Scala 中这相对容易实现。


推荐阅读