python - 从html表制作json文件
问题描述
这是本网站http://people.dbmi.columbia.edu/~friedma/Projects/DiseaseSymptomKB/中的 Html 表
有一列名为“疾病名称”,以下列名为“症状”。我希望以这种方式从该网站的该表中获取 JSON 格式的数据,并从字符串中删除“UMLS:C00080”。
data = {
{
disease_name:'name',
symptoms: [symptoms ]
}
}
有没有办法用python做到这一点?
解决方案
带BS4
import requests
from bs4 import BeautifulSoup
r = requests.get(
"http://people.dbmi.columbia.edu/~friedma/Projects/DiseaseSymptomKB/index.html")
soup = BeautifulSoup(r.text, 'html.parser')
for item in soup.findAll("p", {'class': 'MsoNormal'}):
item = item.get_text(strip=True)
if item.startswith("UMLS"):
print(item)
推荐阅读
- android - Kotlin 适用于 String 未按预期工作
- css - Angular:使用 ngIf 更正行的交替着色
- sed - 如何忽略第一次出现的字母数字并在第二次出现后替换所有内容?
- visual-studio-code - 提供基于 VSCode 设置的代码片段
- java - 如何在 Gradle 中编译某些测试类?
- excel - VBA:更改创建按钮的背景
- python-3.x - 将可变数量的参数传递给函数内的函数
- at-command - 有什么方法可以获取手机运行的 AT 命令历史记录?
- javascript - 只有在开发人员工具中设置了调试点时,Javascript/ajax 脚本才有效
- android - 文档存在于 firestore 但 firestore 返回 g false