首页 > 解决方案 > SQL / Snowflake 中的关联规则

问题描述

我有一个大型(雪花)事务数据库,并希望通过关联规则学习来探索它们。

由于内存要求,将数据加载到内存并使用例如 R 的 arules 包不是一个选项。

是否有任何(R,python)包/sql代码来计算数据库本身的关联规则(通过apriori或FP-growth算法)?

我知道 SQL Server 存在类似的东西(https://www.sqlshack.com/the-association-rule-mining-in-sql-server/

标签: sqlsnowflake-cloud-data-platformapriori

解决方案


雪花中没有原生的东西。

您可以尝试适应这些家伙的 sql 实现:http ://sqldatamine.blogspot.com/2014/02/associated-items-using-apriori-algorithm.html?_sm_au_=iVVR1RP6530TJ5SMqCc84K3L6t8Jp

Apriori 是一种“简单”的算法,因此它是可能的,但我建议首先从数据中随机抽取样本(例如 1M 事务)并使用您选择的工具(r、python、knime...)运行 apriori。如果你看到你得到了有趣的结果,你可能会被激励去做那个全面的工作。


推荐阅读