首页 > 解决方案 > 切片 URL 准备通过主机名获取 ip

问题描述

我正在尝试在此代码中分割 URL,如果 URL[2] 的前 4 个字符是 www。只需将其添加到新列表中,但如果它们不是 www。然后 URL = www。+ 网址。我遇到的问题是我不断得到像 www.www.google.com 这样的结果。我已经尝试了很多不同的表达方式,但无法正确>请帮助:)

 for i in raw_links:
        raw_links += (scrape_links(i))
        checked += 1
        string = str(checked) + ' links checked'
        print(string)

        for i in raw_links:
            i = i.split('//') and i.split('/')
            url = i[2]
            del i

            if url[0:3] != 'www.':
                top_domain = 'www.' + url
                if not top_domain in checked_links:
                    checked_links += top_domain
                    print(top_domain)
            elif url[0:3] == 'www.':
                checked_links += url
                print(url)
            else:
                del i
                print(raw_links[i],'deleted!!')

标签: pythonpython-3.xweb-scraping

解决方案


抱歉在评论中误导。您所要做的就是更改 if 条件,如下所示。

if not url.startswith('www.'):
    url = 'www.'+url

这肯定会奏效。干杯!


推荐阅读