首页 > 解决方案 > 搜索彼此有超过一半相同单词的行

问题描述

我试图找出哪些行的相同单词超过其长度的一半。在这里,从下面的屏幕截图中,您可以看到行号 93188 和行号 93248 的标题是相同的(至少从我们可以从屏幕上看到的),93240 和 93247 也是相同的。我想找到所有具有相同标题论文的行,这样我就可以删除其中的一个而只留下一张论文。

str.contain需要特定的单词作为字符串参数,所以我认为这不是我可以使用的。请让我知道我该怎么做。

爱因斯坦数据框

标签: stringpandasdataframe

解决方案


推荐阅读