首页 > 解决方案 > 正则表达式:赛后拿走一切

问题描述

我在数据框中有很多字符串,例如:

adrianos ristorante 2930 beverly glen circle los angeles 310475 9807 italian

我想把电话号码后面的所有单词/字符。([0-9]{6}\s[0-9]{4})\s我有用于在( )之后获取电话号码和空格的正则表达式。我想要的是这之后的所有角色。在这种情况下,它是italian但它可能类似于asian fusionor indian and thai

标签: pythonregexpandas

解决方案


在 Pandas 中,您可以使用

[0-9]{6}\s[0-9]{4}\s+(.+)
                    ^^^^^

代码看起来像

df['col'].str.extract('[0-9]{6}\s[0-9]{4}\s+(.+)')

请注意,您应该使用捕获组包装需要提取的部分,(...). 请参阅熊猫参考

字符串

    带有捕获组的正则表达式模式


推荐阅读