python - Pandas:检测具有一定长度的单个单词
问题描述
在 my.csv 文件中,我试图检测并提取具有长单个单词的行(它可以是一个单词,也可以是多个单词,但其中一个是超长的) - 请注意我不是在寻找总字符字符串,但只有长词检测,所以这对我不起作用:longtitles = df['name'].str.len() > 15
。
但是,在我的示例下面,如果有适用于任何字符串的通用解决方案也适用于数值和特殊字符值,那就太好了。
我的.csv
id name
1 this is my sample value
2 thisismysecondsamplevalue
3 this ismythirdsamplevalue
我的标准:查找单词大于 15chars 的行并拉到 output.csv
输出.csv
id name
2 thisismysecondsamplevalue
3 this ismythirdsamplevalue
解决方案
一种使用方式pandas.Series.extract
:
mask = df["name"].str.findall("(\S{16,})").astype(bool)
print(df[mask])
输出:
id name
1 2 thisismysecondsamplevalue
2 3 this ismythirdsamplevalue
推荐阅读
- javascript - 使用 rangy 创建拖放
- c++ - C++ 得到 -243030403 和 \300\371 数字
- php - HTML实体到十六进制
- python-3.x - 发电机 | 最后一次 yield 后触发数据库 INSERT
- javascript - Javascript 不呈现条件语句 - Django 项目
- javascript - scrollIntoView 在延迟图像加载时无法正常工作
- javascript - jQuery AJAX POST 到 PHP 有效,XMLHttpRequest 无效
- algorithm - 具有两种成本的有向无环图中的最短路径
- python - 使用 Python 解析频率分布图的嵌套行文本文档
- docker - Docker 挂载点是如何决定的?