首页 > 解决方案 > 原始文本中子字符串的索引

问题描述

我正在使用Python处理自然语言处理问题之一。

我的问题:让我们考虑一个字符串

str1 = "United, State is a very nice country"

我们预处理这个字符串,我们删除了所有特殊符号、URL、HTML 内容等。现在预处理的字符串将变成这样:

preprocessed_str = "United State is a very nice country"

然后我们将这个预处理的字符串传递给我的机器学习模型,该模型返回如下结果:

Country: United State

现在我想在原始字符串中获取“美国”的开始和结束索引。

我们用python 的 str.find()函数尝试了这个,但它返回 -1。

我将欣赏我们可以解决此问题的方法和解决方案。提前致谢 :)

标签: regexpython-3.xnlpstring-matching

解决方案


推荐阅读