首页 > 解决方案 > 网页在 python 中抓取多个谷歌学者页面

问题描述

我想抓取多个 Google 学者用户个人资料 - 出版物、期刊、引文等。我已经编写了用于抓取给定 url 的用户个人资料的 python 代码。现在,假设我在这样的 excel 文件中有 100 个名称和相应的 url。

name       link

Autor      https://scholar.google.com/citations?user=cp-8uaAAAAAJ&hl=en
Dorn       https://scholar.google.com/citations?user=w3Dri00AAAAJ&hl=en
Hanson     https://scholar.google.com/citations?user=nMtHiQsAAAAJ&hl=en
Borjas     https://scholar.google.com/citations?user=Patm-BEAAAAJ&hl=en
....

我的问题是我可以读取该文件的“链接”列并为 url 编写一个 for 循环,以便我可以抓取每个配置文件并将结果附加到同一个文件中。我似乎有点牵强,但我希望有办法做到这一点。提前致谢!

标签: pythonseleniumfor-loopweb-scrapinggoogle-scholar

解决方案


您可以使用pandas.read_csv()从 csv 读取特定文件。例如:

import pandas as pd

df = pd.read_csv('data.csv')
arr = []
link_col = df['link']
for i in link_col:
    arr.append(i);
   
print(arr)

这将允许您仅提取链接列并将每个值附加到您的数组中。如果您想了解更多信息,可以参考pandas


推荐阅读