首页 > 解决方案 > 寻找提取子字符串

问题描述

我正在寻找一种从一段文本中提取子字符串/许多子字符串的方法。

我需要能够从下面的字符串中提取#Covid19 和#VaccineRecovery。

今天的重要里程碑。自 3 月 21 日以来没有报告 #CoVid19 死亡的第一天。这是充满希望的一天。我们将占上风#VaccineRecovery。

基本上我需要任何以“#”开头的子字符串,直到下一个空格。可能有 1 个或多个哈希标签要从每个句子中提取。

标签: pythonsubstring

解决方案


以下似乎可以完成这项工作。将字符串拆分为单词并检查哪个单词以#

data = 'Significant milestone today. First day with no reported #CoVid19 deaths since March 21st. This is a day of hope. We will prevail #VaccineRecovery.'
words = [x for x in data.split() if x and x[0] == '#']
print(words)

输出

['#CoVid19', '#VaccineRecovery.']

推荐阅读