首页 > 解决方案 > 当 url 以 50 的倍数变化时如何抓取页面?

问题描述

我正在尝试抓取一些数据。有多个页面,并且 url 以 50 的倍数变化,如下所示:

http://myurl=0

http://myurl=50

http://myurl=100

这种情况一直持续到 950。

我对网络抓取和数据科学很陌生,并且一直在自学,所以不理解所有的概念和可能性。我正在使用 python 3.7

到目前为止,我尝试了两种不同的方法

我试图做这样的事情:

pages=[str(i) for i in range (0,20)]
for page in pages:
    my_url = 'http://myurl=' + (page*50)

但这没有用。

我还尝试创建一个数字列表,然后像这样遍历列表:

pages = list(range(0, 950, 50))
for page in pages:
    my_url = 'http://myurl=' + page

但这没有用。

任何帮助是极大的赞赏。谢谢!

标签: pythonfor-loopweb-scraping

解决方案


您可以通过多种方式执行相同的操作。另一个可能是:

my_url = 'http://myurl={}'
for link in [my_url.format(page) for page in range(0,950,50)]:
    print(link)

推荐阅读