python - 切片 URL 准备通过主机名获取 ip
问题描述
我正在尝试在此代码中分割 URL,如果 URL[2] 的前 4 个字符是 www。只需将其添加到新列表中,但如果它们不是 www。然后 URL = www。+ 网址。我遇到的问题是我不断得到像 www.www.google.com 这样的结果。我已经尝试了很多不同的表达方式,但无法正确>请帮助:)
for i in raw_links:
raw_links += (scrape_links(i))
checked += 1
string = str(checked) + ' links checked'
print(string)
for i in raw_links:
i = i.split('//') and i.split('/')
url = i[2]
del i
if url[0:3] != 'www.':
top_domain = 'www.' + url
if not top_domain in checked_links:
checked_links += top_domain
print(top_domain)
elif url[0:3] == 'www.':
checked_links += url
print(url)
else:
del i
print(raw_links[i],'deleted!!')
解决方案
抱歉在评论中误导。您所要做的就是更改 if 条件,如下所示。
if not url.startswith('www.'):
url = 'www.'+url
这肯定会奏效。干杯!
推荐阅读
- c++ - 使用 Qt QPainter 和 QSvgGenerator 创建的 SVG 裁剪为视口大小
- asp.net-core - 从 .netCore Web 应用程序项目中读取类库项目的程序集版本
- git - git config 设置自动创建同名远程分支
- z3 - 在 Solverfor("QF_LIA") 中使用超时选项时出错
- ios - 如何在长按时取消选择 UITableViewCell?
- node.js - Node.JS、Express 和 MongoDB Atlas:: 多个集合 ejs
- http - 从 Postman 生成 cURL 请求
- r - 增加 image.plot 图例中的字体大小
- php - 如何划分数组的每个元素
- node.js - Dialogflow - 在给定延迟后添加后续事件