python - 如何在 python 网络爬虫中抓取 url 列表?
问题描述
我有一个这样的网址列表:
url = ['url_1','url_2', 'url_3']
列表中有 300 个元素。
由于它们的 HTML 结构相似,我编写了一个函数来抓取它并提取我需要的信息:
def get_department_and_units_hours(url):
res = requests.get(url)
soup = BeautifulSoup(res.content, "html.parser")
data = [item.string for item in soup.find_all('td')]
data = data[1:]
return data
然后,我遍历列表并将数据附加到数组中
department_and_units_hours = []
for item in url:
department_and_units_hours.append(get_department_and_units_hours(item))
print(department_and_units_hours)
当我运行它时,它没有响应。只是什么都没发生。它无法打印出数组的内容。
我想问一下为什么会出现问题以及如何解决?我真的不知道。
解决方案
推荐阅读
- firebase - Firebase Cloud Functions 在 00 处触发
- ruby-on-rails - 使用 RSpec 3 在块前运行一次
- javascript - 如何让 Phaser 3 输出最终分数
- amazon-web-services - 如何为 AWS S3 Bucket 网站设置域?
- python - 我正在尝试使用 OpenCV 在窗口中的相对路径中显示图像,但出现类型错误
- node.js - 调用api时如何获取数据对象在nodejs中使用https.request
- java - Java :: 使用泛型实例化“运行时”多比较器
- c++ - 如何在没有*指针、引用等的情况下获取句子中单词的第一个字母
- c++ - 解压缩连接的 zlib 流而不读取下一个字节
- c++ - 我怎样才能让线程继续并启动其他功能 - C++ with OpenMP?