python - Beautiful Soup,抓取没有常量/定义类或 id 的信息
问题描述
我正在从谷歌专利中抓取信息,目前我正在尝试从每个专利中抓取“发明领域”部分。但是,在检查 html 时,它似乎没有自己的“字段”类或 id 允许我获取信息,所以我不确定如何获取我需要的描述。例如,鉴于此专利:https ://patents.google.com/patent/EP3017304B1/en ,我不知道如何从“发明的技术领域”中抓取信息。
一些专利的发明领域可能在不同的地方,比如这个:https ://patents.google.com/patent/US8560271B2/en ,甚至只标注了“领域”。有些专利可能根本不包含发明领域,或者它们可能被标记或放置在不容易找到的地方,例如:https ://patents.google.com/patent/AU2016304408B2/en 。
因此,我不确定我如何能够始终如一地从专利页面上抓取发明领域
解决方案
你可以这样做:
container = soup.find('ul', {'mxw-id': 'PDES120175635'}).find('div', {'num': '0001'}).string
从“发明的技术领域”中获取文本。其他的也有一个唯一的编号。玩转检查控制台。
推荐阅读
- kotlin - Kotlin RecyclerView 在数据更改后不更新
- excel - 如何使用Textjoin在Excel列中合并文本
- gcc - 如何使用内联汇编在控制寄存器 (cr0) 中设置一个位?
- tomcat - 如何配置 Tomcat 以接受根请求?
- javascript - 每当输入可观察值发生变化时,如何正确重新计算布尔值?
- javascript - Javascript热图本地问题
- r - 展开数据框列
- graph - 简单图数据库
- django - 如何在 django 管理面板中使用 django-auditlog 更改存储记录中的 tz
- javascript - 该文件不存在,但我仍然收到错误