首页 > 解决方案 > 网页抓取 - 菜鸟

问题描述

我正在尝试从https://www.scimagojr.com网站中提取有关特定期刊的数据。尝试使用 curl 使用每个期刊 ID 提取数据。

例子:

在名为 data.txt 的 txt 中创建了一个 curl

Curl 'https://www.scimagojr.com/journalsearch.php?q=24589&tip=sid&clean=0'

Annales Zoologici Fennici Journal 的 ID 是 24589,但我在 url 中将其更改为 $1 以启用其他 ID 的使用,以便更轻松地收集数据

Curl 'https://www.scimagojr.com/journalsearch.php?q=$1&tip=sid&clean=0'

我尝试使用

./data.txt 24589

但它没有提供有关期刊的信息

标签: curlweb-scraping

解决方案


变量不在单引号内插值。改为双引号:

curl "https://www.scimagojr.com/journalsearch.php?q=$1&tip=sid&clean=0"

推荐阅读