首页 > 解决方案 > 用于测序数据的网络抓取

问题描述

对于我的项目工作,我必须从 OneKP 下载大量数据:http: //jlmwiki.plantbio.uga.edu/onekp/v2/

我必须提交一个像 ATMG00900 这样的基因标识符,然后会打开一个弹出窗口,我可以在其中下载具有直系同源序列的文件。我还可以在http://jlmwiki.plantbio.uga.edu/onekp/v2/bulk提交基因标识符列表并一次下载每个基因的直系同源物序列

我现在的问题是,我必须从没有 GUI 和管理员权限的服务器上的 linux 终端完成所有这些操作,即将数据发布到特定字段并下载等效数据。我已经尝试使用 curl -d 和 wget --post-data 选项:

curl -d accession="ATMG00900" http://jlmwiki.plantbio.uga.edu/onekp/v2/

或者

wget --post-data="accession=ATMG00900" http://jlmwiki.plantbio.uga.edu/onekp/v2/

但我要么得到一个错误,要么我接受下载的弹出窗口将被保存。我考虑过向http://jlmwiki.plantbio.uga.edu/onekp/v2/bulk提交一个包含所有基因标识符的 txt 文件并收集等效序列,但我不确定如何通过终端进行操作。

提前致谢!

标签: web-scrapingserverterminal

解决方案


推荐阅读