string - 搜索彼此有超过一半相同单词的行
问题描述
我试图找出哪些行的相同单词超过其长度的一半。在这里,从下面的屏幕截图中,您可以看到行号 93188 和行号 93248 的标题是相同的(至少从我们可以从屏幕上看到的),93240 和 93247 也是相同的。我想找到所有具有相同标题论文的行,这样我就可以删除其中的一个而只留下一张论文。
str.contain
需要特定的单词作为字符串参数,所以我认为这不是我可以使用的。请让我知道我该怎么做。
我试图找出哪些行的相同单词超过其长度的一半。在这里,从下面的屏幕截图中,您可以看到行号 93188 和行号 93248 的标题是相同的(至少从我们可以从屏幕上看到的),93240 和 93247 也是相同的。我想找到所有具有相同标题论文的行,这样我就可以删除其中的一个而只留下一张论文。
str.contain
需要特定的单词作为字符串参数,所以我认为这不是我可以使用的。请让我知道我该怎么做。
标签: stringpandasdataframe