python - 网页在 python 中抓取多个谷歌学者页面

问题描述

我想抓取多个 Google 学者用户个人资料 - 出版物、期刊、引文等。我已经编写了用于抓取给定 url 的用户个人资料的 python 代码。现在，假设我在这样的 excel 文件中有 100 个名称和相应的 url。

name       link

Autor      https://scholar.google.com/citations?user=cp-8uaAAAAAJ&hl=en
Dorn       https://scholar.google.com/citations?user=w3Dri00AAAAJ&hl=en
Hanson     https://scholar.google.com/citations?user=nMtHiQsAAAAJ&hl=en
Borjas     https://scholar.google.com/citations?user=Patm-BEAAAAJ&hl=en
....

我的问题是我可以读取该文件的“链接”列并为 url 编写一个 for 循环，以便我可以抓取每个配置文件并将结果附加到同一个文件中。我似乎有点牵强，但我希望有办法做到这一点。提前致谢！

标签： pythonseleniumfor-loopweb-scrapinggoogle-scholar

您可以使用pandas.read_csv()从 csv 读取特定文件。例如：

import pandas as pd

df = pd.read_csv('data.csv')
arr = []
link_col = df['link']
for i in link_col:
    arr.append(i);
   
print(arr)

这将允许您仅提取链接列并将每个值附加到您的数组中。如果您想了解更多信息，可以参考pandas。

python - 网页在 python 中抓取多个谷歌学者页面

问题描述

解决方案

推荐阅读