python - 如何优化算法以更快地找到具有fuzzywuzzy的相似字符串?
问题描述
在我的数据库中查找相似的食物名称时遇到问题(大约有 100k 产品名称)。我决定使用 fuzz.token_sort_ratio
from libfuzzywuzzy
来查找类似的产品名称。这是它的工作原理:
s1 = 'Pepsi Light'
s2 = 'Light Pepsi'
fuzz.token_sort_ratio(s1, s2)
100
现在我想找到所有具有相似词的产品名称,结果为fuzz.token_sort_ratio
>= 90 这是我的代码:
#Find similar
start=datetime.now()
l = list(v_foods.name[0:20000])
i=0
df = pd.DataFrame(columns=['name1', 'name2', 'probab_same'])
for k in range(len(l)):
for s in range(k+1,len(l)):
probability = fuzz.token_sort_ratio(l[k], l[s])
if probability >= 90:
df.loc[i] = [l[k], l[s], probability]
i +=1
print('Spent time: {}' .format(datetime.now() - start))
df.head(5)
这需要很多时间。我拥有的产品越多,花费的时间就越多
l = list(v_foods.name[0:5000])
花费时间:~3 分钟l = list(v_foods.name[0:10000])
花费时间:~13 分钟l = list(v_foods.name[0:20000])
花费时间:~53 分钟
正如我上面所说,我的基地有 10 万个名字,它的工作速度很慢。有什么方法可以优化我的算法吗?
解决方案
您的问题是您正在将每个名称与其他名称进行比较。那是n^2
比较,所以变得很慢。您需要做的只是比较有可能足够相似的名称对。
为了做得更好,我们需要知道图书馆实际上在做什么。多亏了这个出色的答案,我们才能知道这一点。它对这两个名称的要求是什么fuzz._process_and_sort(name, True)
,然后寻找一个 Levenshtein 比率。也就是说,它计算从一个字符串到另一个字符串的最佳方式,然后计算100 * matched_chars / (matched_chars + edits)
. 要使这个分数达到 90+,编辑次数最多 len(name) / 9
为. (该条件是必要的但不充分,如果这些编辑在此字符串中包含替换和删除,则会降低匹配字符的数量并降低比率。)
所以你可以很容易地标准化所有的名字。问题是你能找到一个给定的规范化名称,所有其他规范化名称在最大数量的编辑中?
诀窍是首先将所有标准化名称放入Trie数据结构中。然后我们可以并行遍历 Trie 以探索在一定编辑距离内的所有分支。这允许删除超出该距离的大量规范化名称,而无需单独检查它们。
这是 Trie 的 Python 实现,它可以让您找到这些规范化名称对。
import re
# Now we will build a trie. Every node has a list of words, and a dictionary
# from the next letter farther in the trie.
class Trie:
def __init__(self, path=''):
self.strings = []
self.dict = {}
self.count_strings = 0
self.path = path
def add_string (self, string):
trie = self
for letter in string:
trie.count_strings += 1
if letter not in trie.dict:
trie.dict[letter] = Trie(trie.path + letter)
trie = trie.dict[letter]
trie.count_strings += 1
trie.strings.append(string)
def __hash__ (self):
return id(self)
def __repr__ (self):
answer = self.path + ":\n count_strings:" + str(self.count_strings) + "\n strings: " + str(self.strings) + "\n dict:"
def indent (string):
p = re.compile("^(?!:$)", re.M)
return p.sub(" ", string)
for letter in sorted(self.dict.keys()):
subtrie = self.dict[letter]
answer = answer + indent("\n" + subtrie.__repr__())
return answer
def within_edits(self, string, max_edits):
# This will be all trie/string pos pairs that we have seen
found = set()
# This will be all trie/string pos pairs that we start the next edit with
start_at_edit = set()
# At distance 0 we start with the base of the trie can match the start of the string.
start_at_edit.add((self, 0))
answers = []
for edits in range(max_edits + 1): # 0..max_edits inclusive
start_at_next_edit = set()
todo = list(start_at_edit)
for trie, pos in todo:
if (trie, pos) not in found: # Have we processed this?
found.add((trie, pos))
if pos == len(string):
answers.extend(trie.strings) # ANSWERS FOUND HERE!!!
# We have to delete from the other string
for next_trie in trie.dict.values():
start_at_next_edit.add((next_trie, pos))
else:
# This string could have an insertion
start_at_next_edit.add((trie, pos+1))
for letter, next_trie in trie.dict.items():
# We could have had a a deletion in this string
start_at_next_edit.add((next_trie, pos))
if letter == string[pos]:
todo.append((next_trie, pos+1)) # we matched farther
else:
# Could have been a substitution
start_at_next_edit.add((next_trie, pos+1))
start_at_edit = start_at_next_edit
return answers
# Sample useage
trie = Trie()
trie.add_string('foo')
trie.add_string('bar')
trie.add_string('baz')
print(trie.within_edits('ba', 1))
推荐阅读
- colors - CGAL Triangulation_3 上的色点
- python - 使用 python api 的数据帧
- java - nattable group by 功能可以用来排序吗?
- windows - 从文本文件复制文件的批处理脚本
- c++ - 了解模板函数(在 .h 中的源代码)如何与其编译的 .lib 相关
- ios - 如何使用 NavigationController 将数据从 UIPickerView 传递到上一个 ViewController
- angular - 异步功能:TS1068:意外令牌。需要构造函数、方法、访问器或属性
- node.js - s3-streams 缺少环境 AWS_REGION
- ruby - 在Ruby中对哈希中的某些值求和
- javascript - eval() JavaScript 内存泄漏