首页 > 解决方案 > 我想使用csv文件中的beautifulsoup遍历一些链接

问题描述

我有 2 个 CSV 文件,在其中我将所需的链接提取到 CSV 中,在其他 CSV 中,我从同一网站但不同的页面获取所需的链接。我无法一个一个地循环链接,请给我一些建议,以便我可以做到

from bs4 import BeautifulSoup
import requests
import pandas as pd
import urllib.request  
data = pd.read_csv("link.csv")
data2 = pd.read_csv("requiredlink.csv")
data2.columns = ["required"]

data.columns = ["aname", "links"]
alllinks = []
requiredlinks = []
alllinks = list(data.links)
print(alllinks)

for link in alllinks:
    r = urllib.request.urlopen(link).read()
    soup = BeautifulSoup(r, 'html.parser')

上面我试过但我卡住了,1 CSV 文件名是 alllinks 2 CSV 文件名是必需的link

标签: pythonpython-3.xseleniumselenium-webdriverbeautifulsoup

解决方案


所以,你需要嵌套循环。让,变量 allLinksOfFirstFile 包含第一个文件的所有链接,而 allLinksOfSecondFile 包含第二个文件的所有链接。

for firstFilesLink in allLinksOfFirstFile:
    print(firstFilesLink)
    # this is the link of your first file
    for secondFilesLink in allLinksOfSecondFile:
        print(secondFilesLink)
        #here secondFilesLink is each link of second file for firstFilesLink
        #do other tasks

推荐阅读