首页 > 解决方案 > 我应该使用哪种字符串度量或 NLP 算法来查找不同 URL 中的子字符串

问题描述

我正在尝试查找具有用户提供的关键字的 URL。

Eg. Keyword - 'Avengers' 
#URL1: www.xyzmovies.com/Avengers_2019/243564
#URL2: www.avengers.org/4r43435
#URL3: www.abcmovies.co/23543/avenngers_34435/walt/marvel/comics

难点在于网址没有单一的标准,关键字可以出现在网址中的任何位置。需要捕获也有拼写错误的 url。

哪种算法最适合在 python 中完成这项任务。

标签: pythonstringurl

解决方案


如果我理解正确,您可以使用

"keyword".lower() in url.lower()

如果关键字在 URL 中,则返回 True,否则返回 False。.lower() 确保结果不区分大小写。为了解决拼写错误,我会查看stringgrouperfuzzywuzzy库。Fuzzywuzzy 的部分比率非常适合这种情况,因为它专门查看部分字符串匹配,因此您的关键字“Avengers”将被视为与 URL1 的完美匹配,而“Avnegers”可能仍然具有高分。


推荐阅读