python - 使用正则表达式提取部分字符串?
问题描述
我有数百个不整洁的 url 和缺少 tld 扩展名的示例数据。我一直在尝试只提取没有扩展名的名称
我的示例数据如下所示:
www.abcd.com
www.ghi
khll.in
我期望输出是:
abcd
ghi
khll
我正在使用正则表达式来执行此操作,但是我仍然是正则表达式的初学者,应用如下:
new = re.findall(r'\.(.+)\.', name_Extract)
任何帮助将不胜感激?
解决方案
pip install tldextract
在 Python 解释器中:
import tldextract
tldextract.extract('www.ghi').domain
适用于所有三个示例。我正在使用 Python 2.7.12。
推荐阅读
- netcdf - 如何为快速地理空间参考图准备 .nc 文件?
- javascript - 如何处理 firebase 云函数 api oncall 的错误?
- azure - 使用 AAD 在 Azure 上运行的 .net 核心应用程序不断循环进行身份验证
- gcc - 如何为 AFLGo 编译 libav
- node.js - 找不到命令“expo”,节点安装了 NVM
- javascript - 带有 setTimeout 的 for 循环内的 Promise
- javascript - 更改数组的长度似乎正在更改另一个数组的长度?
- c++ - 数组包装器损坏堆栈
- php - 如何使用 preg_match_all 找出所有值
- java - 想在edittext片段中添加验证