sql - SQL / Snowflake 中的关联规则
问题描述
我有一个大型(雪花)事务数据库,并希望通过关联规则学习来探索它们。
由于内存要求,将数据加载到内存并使用例如 R 的 arules 包不是一个选项。
是否有任何(R,python)包/sql代码来计算数据库本身的关联规则(通过apriori或FP-growth算法)?
我知道 SQL Server 存在类似的东西(https://www.sqlshack.com/the-association-rule-mining-in-sql-server/)
解决方案
雪花中没有原生的东西。
您可以尝试适应这些家伙的 sql 实现:http ://sqldatamine.blogspot.com/2014/02/associated-items-using-apriori-algorithm.html?_sm_au_=iVVR1RP6530TJ5SMqCc84K3L6t8Jp
Apriori 是一种“简单”的算法,因此它是可能的,但我建议首先从数据中随机抽取样本(例如 1M 事务)并使用您选择的工具(r、python、knime...)运行 apriori。如果你看到你得到了有趣的结果,你可能会被激励去做那个全面的工作。
推荐阅读
- svg - 在 Adobe Illustrator 中导出为 SVG 会导致在 Web 上查看时出现不同的字体
- wordpress - 在浏览器中将 another-example.com 显示为 example.com/another(2 个域/1 个域上的 WordPress 安装)
- javascript - 为什么我会收到这个 ember-font-awesome 错误?
- github - Github 检查 API 和检查套件
- python - 熊猫:groupby尊重python中的条件
- flutter - 在颤动的视图中显示时,如何将 textAlign.left 添加到类中的项目?
- kubernetes - 通过 HELM 从 CI/CD 部署到权限受限的外部 Kubernetes 集群
- python - Pandas - 优化百分位数计算
- expo - React Native Expo / 深度链接 / 通用链接
- java - Tomcat 上的 ShutdownHooks 线程