web-scraping - 用于测序数据的网络抓取
问题描述
对于我的项目工作,我必须从 OneKP 下载大量数据:http: //jlmwiki.plantbio.uga.edu/onekp/v2/
我必须提交一个像 ATMG00900 这样的基因标识符,然后会打开一个弹出窗口,我可以在其中下载具有直系同源序列的文件。我还可以在http://jlmwiki.plantbio.uga.edu/onekp/v2/bulk提交基因标识符列表并一次下载每个基因的直系同源物序列
我现在的问题是,我必须从没有 GUI 和管理员权限的服务器上的 linux 终端完成所有这些操作,即将数据发布到特定字段并下载等效数据。我已经尝试使用 curl -d 和 wget --post-data 选项:
curl -d accession="ATMG00900" http://jlmwiki.plantbio.uga.edu/onekp/v2/
或者
wget --post-data="accession=ATMG00900" http://jlmwiki.plantbio.uga.edu/onekp/v2/
但我要么得到一个错误,要么我接受下载的弹出窗口将被保存。我考虑过向http://jlmwiki.plantbio.uga.edu/onekp/v2/bulk提交一个包含所有基因标识符的 txt 文件并收集等效序列,但我不确定如何通过终端进行操作。
提前致谢!
解决方案
推荐阅读
- c++ - 为什么 c++ 使用 throw() 关键字来指示函数不会抛出任何异常
- c# - 登录 sql vs files vs aws,这在 c# 应用程序中更快
- java - 龙目岛建造者模式问题
- postgresql - Postgres 远程连接
- javascript - 如何使用 cypress 同时进行 2 个用户之间的端到端测试交互
- objective-c - 如何在 Xcode 11 中启动没有故事板 >= iOS 13 的新项目?
- aurelia - Aurelia 组合,使用具有相同视图的不同视图模型
- c# - 如何使用泛型类型的类型参数作为方法参数的类型?
- wordpress-rest-api - 是否可以通过 REST API 获取多个图像?
- android-management-api - 设备详细信息跟踪 Android 管理 API (MDM)