首页 > 解决方案 > 使用正则表达式提取部分字符串?

问题描述

我有数百个不整洁的 url 和缺少 tld 扩展名的示例数据。我一直在尝试只提取没有扩展名的名称

我的示例数据如下所示:

我期望输出是:

我正在使用正则表达式来执行此操作,但是我仍然是正则表达式的初学者,应用如下:

new = re.findall(r'\.(.+)\.', name_Extract)

任何帮助将不胜感激?

标签: pythonregex

解决方案


pip install tldextract

在 Python 解释器中:

import tldextract
tldextract.extract('www.ghi').domain

适用于所有三个示例。我正在使用 Python 2.7.12。


推荐阅读