python - 在字符串列表中查找最常见的子字符串?
问题描述
我有一个字符串名称的 Python 列表,我想从所有名称中删除一个公共子字符串。
在阅读了这个类似的答案后,我几乎可以使用SequenceMatcher
.
但只有当所有项目都有一个共同的子字符串时:
From List:
string 1 = myKey_apples
string 2 = myKey_appleses
string 3 = myKey_oranges
common substring = "myKey_"
To List:
string 1 = apples
string 2 = appleses
string 3 = oranges
但是,我有一个稍微嘈杂的列表,其中包含一些不符合相同命名约定的分散项目。
我想从大多数中删除“最常见”的子字符串:
From List:
string 1 = myKey_apples
string 2 = myKey_appleses
string 3 = myKey_oranges
string 4 = foo
string 5 = myKey_Banannas
common substring = ""
To List:
string 1 = apples
string 2 = appleses
string 3 = oranges
string 4 = foo
string 5 = Banannas
我需要一种方法来匹配“myKey_”子字符串,以便可以从所有名称中删除它。
但是当我使用SequenceMatcher
项目“foo”时,会导致“最长匹配”等于空白“”。
我认为解决这个问题的唯一方法是找到“最常见的子字符串”。但这怎么可能实现呢?
基本示例代码:
from difflib import SequenceMatcher
names = ["myKey_apples",
"myKey_appleses",
"myKey_oranges",
#"foo",
"myKey_Banannas"]
string2 = names[0]
for i in range(1, len(names)):
string1 = string2
string2 = names[i]
match = SequenceMatcher(None, string1, string2).find_longest_match(0, len(string1), 0, len(string2))
print(string1[match.a: match.a + match.size]) # -> myKey_
解决方案
给定names = ["myKey_apples", "myKey_appleses", "myKey_oranges", "foo", "myKey_Banannas"]
我能想到的一个O(n^2)
解决方案是找到所有可能的子字符串并将它们存储在字典中,其中包含它们出现的次数:
substring_counts={}
for i in range(0, len(names)):
for j in range(i+1,len(names)):
string1 = names[i]
string2 = names[j]
match = SequenceMatcher(None, string1, string2).find_longest_match(0, len(string1), 0, len(string2))
matching_substring=string1[match.a:match.a+match.size]
if(matching_substring not in substring_counts):
substring_counts[matching_substring]=1
else:
substring_counts[matching_substring]+=1
print(substring_counts) #{'myKey_': 5, 'myKey_apples': 1, 'o': 1, '': 3}
然后选择出现的最大子串
import operator
max_occurring_substring=max(substring_counts.iteritems(), key=operator.itemgetter(1))[0]
print(max_occurring_substring) #myKey_