首页 > 解决方案 > 在字符串列表中查找最常见的子字符串?

问题描述

我有一个字符串名称的 Python 列表,我想从所有名称中删除一个公共子字符串。

在阅读了这个类似的答案后,我几乎可以使用SequenceMatcher.

但只有当所有项目都有一个共同的子字符串时:

From List:
string 1 = myKey_apples
string 2 = myKey_appleses
string 3 = myKey_oranges

common substring = "myKey_"

To List:
string 1 = apples
string 2 = appleses
string 3 = oranges

但是,我有一个稍微嘈杂的列表,其中包含一些不符合相同命名约定的分散项目。

我想从大多数中删除“最常见”的子字符串:

From List:
string 1 = myKey_apples
string 2 = myKey_appleses
string 3 = myKey_oranges
string 4 = foo
string 5 = myKey_Banannas

common substring = ""

To List:
string 1 = apples
string 2 = appleses
string 3 = oranges
string 4 = foo
string 5 = Banannas

我需要一种方法来匹配“myKey_”子字符串,以便可以从所有名称中删除它。

但是当我使用SequenceMatcher项目“foo”时,会导致“最长匹配”等于空白“”。

我认为解决这个问题的唯一方法是找到“最常见的子字符串”。但这怎么可能实现呢?


基本示例代码:

from difflib import SequenceMatcher

names = ["myKey_apples",
"myKey_appleses",
"myKey_oranges",
#"foo",
"myKey_Banannas"]

string2 = names[0]
for i in range(1, len(names)):
    string1 = string2
    string2 = names[i]
    match = SequenceMatcher(None, string1, string2).find_longest_match(0, len(string1), 0, len(string2))

print(string1[match.a: match.a + match.size]) # -> myKey_

标签: python

解决方案


给定names = ["myKey_apples", "myKey_appleses", "myKey_oranges", "foo", "myKey_Banannas"]

我能想到的一个O(n^2)解决方案是找到所有可能的子字符串并将它们存储在字典中,其中包含它们出现的次数:

substring_counts={}

for i in range(0, len(names)):
    for j in range(i+1,len(names)):
        string1 = names[i]
        string2 = names[j]
        match = SequenceMatcher(None, string1, string2).find_longest_match(0, len(string1), 0, len(string2))
        matching_substring=string1[match.a:match.a+match.size]
        if(matching_substring not in substring_counts):
            substring_counts[matching_substring]=1
        else:
            substring_counts[matching_substring]+=1

print(substring_counts) #{'myKey_': 5, 'myKey_apples': 1, 'o': 1, '': 3}

然后选择出现的最大子串

import operator
max_occurring_substring=max(substring_counts.iteritems(), key=operator.itemgetter(1))[0]
print(max_occurring_substring) #myKey_

推荐阅读