apache-spark - 将火花特征转换管道导出到文件
问题描述
PMML、Mleap、PFA 目前仅支持基于行的转换。它们都不支持基于框架的转换,例如聚合或 groupby 或 join。导出由这些操作组成的火花管道的推荐方法是什么。
解决方案
我看到 2 个选项 wrt Mleap:
1) 实现基于数据帧的转换器和SQLTransformer
等效的 -Mleap。该解决方案在概念上似乎是最好的(因为您始终可以将此类转换封装在管道元素中),但也需要大量工作。见https://github.com/combust/mleap/issues/126
2) 扩展DefaultMleapFrame
您想要执行的相应操作,然后将所需的操作实际应用于在修改的MleapServing
子项目中传递给 restserver 的数据。
实际上,我选择了 2) 并添加了implode
,explode
和join
作为 的方法,DefaultMleapFrame
并且还HashIndexedMleapFrame
允许快速连接。我没有实现groupby
and agg
,但在 Scala 中这相对容易实现。
推荐阅读
- python-3.x - 从 csr_matrix 访问元素
- php - 如何从评论和 user_id 中获取用户名?
- angular11 - 时间轴视图转移到水平视图角度日历
- java - 如何使用 Java Panama FFI 访问 MemoryLayout 中的 C_POINTER
- docker - 解析 skaffold 配置:解析 skaffold 配置文件时出错
- curry - 在 Curry 中,如何让逆向函数终止?
- javascript - 如何以一键形式发送事件
- flutter - 如何在音频库中检查音频是否完成?
- javascript - 在 for 循环中等待直到回调完成
- webpack - webpack 模块规则配置中的 `test`、`include`、`resource` 属性有什么区别?