首页 > 解决方案 > 从html表制作json文件

问题描述

这是本网站http://people.dbmi.columbia.edu/~friedma/Projects/DiseaseSymptomKB/中的 Html 表

有一列名为“疾病名称”,以下列名为“症状”。我希望以这种方式从该网站的该表中获取 JSON 格式的数据,并从字符串中删除“UMLS:C00080”。

data = {
   {
    disease_name:'name',
    symptoms: [symptoms ]
   }
}

有没有办法用python做到这一点?

标签: pythonjsonbeautifulsoupconverters

解决方案


带BS4

import requests
from bs4 import BeautifulSoup

r = requests.get(
    "http://people.dbmi.columbia.edu/~friedma/Projects/DiseaseSymptomKB/index.html")


soup = BeautifulSoup(r.text, 'html.parser')

for item in soup.findAll("p", {'class': 'MsoNormal'}):
    item = item.get_text(strip=True)
    if item.startswith("UMLS"):
        print(item)

推荐阅读