python - 我应该使用哪种字符串度量或 NLP 算法来查找不同 URL 中的子字符串
问题描述
我正在尝试查找具有用户提供的关键字的 URL。
Eg. Keyword - 'Avengers'
#URL1: www.xyzmovies.com/Avengers_2019/243564
#URL2: www.avengers.org/4r43435
#URL3: www.abcmovies.co/23543/avenngers_34435/walt/marvel/comics
难点在于网址没有单一的标准,关键字可以出现在网址中的任何位置。需要捕获也有拼写错误的 url。
哪种算法最适合在 python 中完成这项任务。
解决方案
如果我理解正确,您可以使用
"keyword".lower() in url.lower()
如果关键字在 URL 中,则返回 True,否则返回 False。.lower() 确保结果不区分大小写。为了解决拼写错误,我会查看stringgrouper或fuzzywuzzy库。Fuzzywuzzy 的部分比率非常适合这种情况,因为它专门查看部分字符串匹配,因此您的关键字“Avengers”将被视为与 URL1 的完美匹配,而“Avnegers”可能仍然具有高分。
推荐阅读
- javascript - table pagination in pure javascript but if number is not working properly?
- java - 在生成 java 类时,无法使用 maven protobuf-maven-plugin 插件解析 google protobuf 文件中的导入语句
- c# - 我想从文本文件的顶部删除行(末尾的 7000 行除外)
- state-machine - 我正在尝试实现弹簧状态机,并且在每个状态转换中都想在从状态 A 移动到状态 B 之前回复用户
- python - 如何使用 plotly 将 pandas Dataframe 绘制为饼图
- elasticsearch - Elasticsearch 索引占用太多空间
- angularjs - 如何在 laravel 中接收 formData?
- ajax - Javafx Webview 的 Ajax 调用失败
- python - 自定义权限未传递给通用视图 django rest
- http - 带有授权标头的 Dart http post 问题