python - 网页在 python 中抓取多个谷歌学者页面
问题描述
我想抓取多个 Google 学者用户个人资料 - 出版物、期刊、引文等。我已经编写了用于抓取给定 url 的用户个人资料的 python 代码。现在,假设我在这样的 excel 文件中有 100 个名称和相应的 url。
name link
Autor https://scholar.google.com/citations?user=cp-8uaAAAAAJ&hl=en
Dorn https://scholar.google.com/citations?user=w3Dri00AAAAJ&hl=en
Hanson https://scholar.google.com/citations?user=nMtHiQsAAAAJ&hl=en
Borjas https://scholar.google.com/citations?user=Patm-BEAAAAJ&hl=en
....
我的问题是我可以读取该文件的“链接”列并为 url 编写一个 for 循环,以便我可以抓取每个配置文件并将结果附加到同一个文件中。我似乎有点牵强,但我希望有办法做到这一点。提前致谢!
解决方案
您可以使用pandas.read_csv()
从 csv 读取特定文件。例如:
import pandas as pd
df = pd.read_csv('data.csv')
arr = []
link_col = df['link']
for i in link_col:
arr.append(i);
print(arr)
这将允许您仅提取链接列并将每个值附加到您的数组中。如果您想了解更多信息,可以参考pandas。
推荐阅读
- google-apps-script - doGet(e) 用于电子表格中的显示单元格
- asp.net - 通过预先加载获取所有列
- javascript - 停止在 html 中加载表单
- sql - 是否可以在 Oracle 18c 的触发器中使用 GRANT?
- python - 即使在 KeyError 之后如何继续在 python 中运行循环
- tensorflow - 从源代码构建 TensorFlow 2.0
- mysql - SQL:使用外键选择多个表时出现问题
- jasmine - 在量角器茉莉花中得到“预期未定义为假”
- python - 如果我有一堆示例,如何使用 Tensorflow 生成数据?
- python - 尝试运行服务器时获取 ImportError