首页 > 解决方案 > 在开放式响应的 SQL 数据表列中查找最常见的字符串序列

问题描述

我有一个 SQL 列,其中包含客户编写的开放式付款备忘录。我想过滤掉表明用户通过“Square”获得报酬的备忘录,而不是表明用户通过“Square tablecloth”获得报酬的备忘录。

我怀疑经常出现的字符串可能会提供方形支付与方形产品的信号。只是目不转睛,我看到很多“方支付”和“方交易”。如何评估和排列这样的列中最频繁出现的字符串模式?大多数备忘录的长度小于 100 个字符,但包含 36 个字母数字英文字符(不包括标点符号和大写字母)...... 100^36 是用于比较相对频率的大量组合。

如果有任何建议的解决方案,我可以在 SQL 和 R 中访问这些数据。谢谢你。

标签: sqlrtext-mining

解决方案


推荐阅读