首页 > 解决方案 > 如何在 python 网络爬虫中抓取 url 列表?

问题描述

我有一个这样的网址列表:

url = ['url_1','url_2', 'url_3']

列表中有 300 个元素。

由于它们的 HTML 结构相似,我编写了一个函数来抓取它并提取我需要的信息:

def get_department_and_units_hours(url):
    res = requests.get(url)
    soup = BeautifulSoup(res.content, "html.parser")
    data = [item.string for item in soup.find_all('td')]
    data = data[1:]
    return data

然后,我遍历列表并将数据附加到数组中

department_and_units_hours = []
for item in url:
    department_and_units_hours.append(get_department_and_units_hours(item))

print(department_and_units_hours)

当我运行它时,它没有响应。只是什么都没发生。它无法打印出数组的内容。

错误信息: 在此处输入图像描述

我想问一下为什么会出现问题以及如何解决?我真的不知道。

标签: pythonbeautifulsouprequestweb-crawler

解决方案


推荐阅读