dataframe - 从数据框的行中删除仅包含数字的字符串
问题描述
我的数据框包含许多行,包括:
- 仅限数字;
- 数字和空格;
- 与数字混合的字符串(参见Hell0 guy34 g00d j0b.);
+--------------------------+--------+
| Content | Score |
+--------------------------+--------+
| Hello my name is Tim. | 3 |
| 081332111333 | 4 |
| 08 97 5524 | 1 |
| 10 08 2021 | 1 |
| Great App | 3 |
| Hell0 guys34 g00d j0b. | 5 |
. . . . . . . . . . . . .
| 122345324 2331 111111 | 3 |
+--------------------------+--------+
有没有办法清理,即使用 withColumn 或任何其他快速方法删除出现在我的数据框中的这 3 种可能的行?
我创建了一个 for 循环,它遍历 Dataframe 中的所有行,但是超过 100 万行,这需要很长时间。
我的环境是 Google Colab 非常
感谢!!
解决方案
使用 pyspark,我会简单地做这样的事情:
#assuming df is your dataframe
df.where(~df["content"].rlike("\d")).show()
\d
匹配任何十进制数字。相当于[0-9]
。
推荐阅读
- hash - helm - index.yml 文件中的摘要参数
- python-3.x - 我需要一个 for 循环,它可以为我提供 2 个日期之间的日期
- flutter - 启动器图标对于 Flutter 应用程序不可见。在菜单上
- apache-spark - Spark读取分区的avro比指向确切位置慢得多
- windows - BATCH 脚本 - 使用文件名的特定部分创建文件夹
- python - 在数据帧上使用或与 .isin() 一起使用
- azure - Azure OS 磁盘内存问题
- angular - Angular Dropdown Change() 与 valueChanges.subscribe
- python - 为什么斜率不是衡量数据趋势的好方法?
- javascript - CircularProgressbar 在本机反应中不起作用