首页 > 解决方案 > 从数据框的行中删除仅包含数字的字符串

问题描述


我的数据框包含许多行,包括:
+--------------------------+--------+
|   Content                | Score  |
+--------------------------+--------+
| Hello my name is Tim.    | 3      |
| 081332111333             | 4      |
| 08 97 5524               | 1      |
| 10 08 2021               | 1      |
| Great App                | 3      |
| Hell0 guys34 g00d j0b.   | 5      |
    . . . . . . . . . .      . . .
| 122345324 2331 111111    | 3      |
+--------------------------+--------+

有没有办法清理,即使用 withColumn 或任何其他快速方法删除出现在我的数据框中的这 3 种可能的行?
我创建了一个 for 循环,它遍历 Dataframe 中的所有行,但是超过 100 万行,这需要很长时间。 我的环境是 Google Colab 非常
感谢!!

标签: dataframeapache-sparkpysparkbigdatagoogle-colaboratory

解决方案


使用 pyspark,我会简单地做这样的事情:

#assuming df is your dataframe
df.where(~df["content"].rlike("\d")).show()

\d匹配任何十进制数字。相当于[0-9]


推荐阅读