首页 > 解决方案 > 从熊猫 python 网站获取文本

问题描述

我有一个反应名称列表,我想从中在 ModelSeed 中进行搜索(基本上是“https://modelseed.org/biochem/reactions/”+ 反应名称)。然后我想知道给定名称的 KEGG 路径。

例如,对于反应“rxn00020”,该函数将转到https://modelseed.org/biochem/reactions/rxn00020,然后从那里给我“KEGG:rn00500(淀粉和蔗糖代谢)”。我尝试关注这个线程,但没有完成任何事情......你能帮我吗?非常感谢!

标签: pythonbeautifulsoup

解决方案


页面内容是动态加载的,因此您必须使用selenium才能抓取它们。这是您的操作方法:

from selenium import webdriver
import time

driver = webdriver.Chrome()

urls = ['https://modelseed.org/biochem/reactions/rxn00020'] #List of all your urls

for url in urls:
    driver.get(url)
    time.sleep(1.5)
    kegg = driver.find_elements_by_class_name('ng-binding')[-2]
    print(kegg.text)

输出:

KEGG: rn00500 (Starch and sucrose metabolism)

推荐阅读