首页 > 解决方案 > 两个列表之间的模糊搜索?

问题描述

想象一下,我有一个令牌列表:

tokens_to_search = [
  'fox.com',
  'australia',
  'messi',
  'ronaldo',
  'British premier league'
]

我有一个句子,其中可能包含一些与tokens_to_search内容相关的单词:

sentence = 'Messi scored a goal in the premier league, watch on the Fox News'

句子可以拆分为记号:

tokens_from_sentence = [
  'messi',
  ...,
  'premier',
  'league',
  ...,
  'fox',
  'news'
]

我怎样才能通过一些模糊搜索来检测单词中tokens_to_search的单词?tokens_from_sentence所以结果将是

[
  'fox.com',
  'messi',
  'British premier league'
]

简单的方法是通过计算一些标记距离来做一个嵌套循环,但它是O(N*M). 也许有一个聪明的方法来做到这一点?

提前致谢!

标签: pythonnlptokenfuzzy-search

解决方案


推荐阅读