首页 > 解决方案 > For循环不适用于在python中抓取Google搜索

问题描述

我正在使用关键字列表进行网络抓取 Google 搜索。用于抓取单个页面的嵌套 For 循环效果很好。但是,列表中的另一个 for 循环搜索关键字无法正常工作,因为它会为每个搜索结果抓取数据。结果没有得到前两个关键字的搜索结果,而只得到了最后一个关键字的结果。

这是代码:

browser = webdriver.Chrome(r"C:\...\chromedriver.exe")

df = pd.DataFrame(columns = ['ceo', 'value'])

baseUrl = 'https://www.google.com/search?q='
ceo_list = ["Bill Gates", "Elon Musk", "Warren Buffet"]
values =[]
    

for ceo in ceo_list:
    browser.get(baseUrl + ceo)
    table = browser.find_elements_by_css_selector('div.ifM9O') 

    for row in table:
        ceo = str(([c.text for c in row.find_elements_by_css_selector('div.kno-ecr-pt.PZPZlf.gsmt.i8lZMc')])).strip('[]').strip("''")
        value = str(([c.text for c in row.find_elements_by_css_selector('div.Z1hOCe')])).strip('[]').strip("''")

    ceo = pd.Series(ceo) 
    value = pd.Series(value)

    df = df.assign(**{'ceo': ceo, 'value': value}) 

       
print(df)

browser.close()

这是输出:

              ceo                                              value
0  Warren Buffett  Born: August 30, 1930 (age 89 years), Omaha, N...

我期待的是:

              ceo                                              value
0  Bill Gates      Born:..........
1  Elon Musk       Born:...........
2  Warren Buffett  Born: August 30, 1930 (age 89 years), Omaha, N...

不确定缺少哪个部分。

标签: pythonpandasloopsfor-loopweb-scraping

解决方案


您需要将 CEO 创建为列表并在 for 循环中附加到它,这样您就不会一直覆盖它


推荐阅读